hanlp添加自定义字典的步骤介绍

简介: 本篇分享一个hanlp添加自定义字典的方法,供大家参考!总共分为两步:第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。

本篇分享一个hanlp添加自定义字典的方法,供大家参考!
总共分为两步:
第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。如果没有的话它会根据配置文件中路径去加载字典生成bin文件。
_1

第二步:去配置文件把自己添加自定义的文件的路径添加进去,注意一定要添加末尾后面而且结束时不能有;号,我添加在其他位置都不好使。而且相对路径也不好使
_2

上面是把bin文件删掉后跑起来的样子,会等一两分钟生成bin文件。

相关文章
|
10月前
|
C# Python
Python合并两个字典成一个新字典的几种方法比较
Python合并两个字典成一个新字典的几种方法比较
115 0
|
11月前
|
自然语言处理 搜索推荐 Python
jieba分词器(应用及字典的补充)及文档高频词提取实战
jieba分词器(应用及字典的补充)及文档高频词提取实战
|
11月前
|
Python
python批量默认初始化与获取字典,fromkeys方法和get方法
python批量默认初始化与获取字典,fromkeys方法和get方法
161 0
|
12月前
|
Python
如何使用python对列表、字典、集合进行过滤筛选?
如何使用python对列表、字典、集合进行过滤筛选?
123 0
内置字典配置说明
内置字典配置说明
90 0
|
算法 Java Python
【数据结构实践】从0到1带你利用Python实现自定义集合
集合(简称集)是数学中一个基本概念,我们应该都比较熟悉,不管是生活中,还是数学上,我们都频繁地接触到。集合在数学领域具有无可比拟的特殊重要性。一定范围的,确定的,可以区别的事物,当作一个整体来看待,就叫做集合,简称集,其中各事物叫做集合的元素或简称元。如(1)阿Q正传中出现的不同汉字(2)全体英文大写字母。任何集合是它自身的子集。它是集合论的研究对象,集合论的基本理论直到19世纪才被创立。集合论的基础是由德国数学家康托尔在19世纪70年代奠定的,经过一大批卓越的科学家半个世纪的努力,到20世纪20年代已确立了其在现代数学理论体系中的基础地位,可以说,现代数学各个分支的几乎所有成果都构筑在严格的
396 1
|
索引 Python
Python已有列表和字典,为什么还需要元组?
学习了列表和字典之后,再学习元组感觉它没有使用的必要.而且列表和字典已经够用,为什么有了列表还需要元组呢?这个Python特有的数据类型有何作用呢? 元组是由简单的对象构成的,他是和列表非常相似的数据类型,但元组是不可变的,他不支持任何方法的调用,也就是说,我们不能编辑和改变元组,其实正是因为元组的特有性质:不可变性;这个特性提供了一种完整性,他可以保证元组所在的处不会被程序修改,正是列表所不具备的,而且这使得元组还可以作为字典的键值,总的来说,元组可以处理那些固定关系的问题
284 0
HanLP-停用词表的使用示例
停用词表的修改停用词表在“pyhanlpstaticdatadictionary”路径下的“stopwords.txt”文件中,CoreStopWordDictionary.apply方法支持去除停用词。
5416 0
|
自然语言处理 应用服务中间件 nginx
hanlp 加载远程词库示例
说明 ·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现 按hanlp作者述 trie后期可能会取消   目前CustomDictionary使用DAT储存词典文件中的词语,用BinTrie储存动态加入的词语,前者性能高,后者性能低 之所以保留动态增删功能,一方面是历史遗留特性,另一方面是调试用;来可能会去掉动态增删特性。
1187 0
|
容器 存储
如何使用Hanlp加载大字典
    问题 因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然而作为以空间换时间的DAT结构,内存消耗很大,预料之内的出现了 1   out of memory: heap size 的问题。
1605 0