汉语言处理包Hanlp的使用

简介:

本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z

python可以用easy_install安装一些软件

1.JPype使用介绍
参考:http://michael-paul.iteye.com/blog/1055786
Python 作为一种灵活的软件开发语言在当今被广泛使用。在软件开发过程中,有时需要在 Python 项目中利用既有的 Java 代码,已达到节省时间和开发成本的目的。因此,找到一个 Python 代码调用 Java 代码的桥梁是非常有意义的。 JPype 就是这样的一个工具,利用它可以使 Python 程序方便的调用 Java 代码,从而扩充 Python 语言的能力,弥补 Python 语言的不足。本文介绍了如何利用 JPype 整合 Python 程序和 Java 程序的一些基本方法。
下面是一个简单的 python 程序,通过 JPype 调用 Java 的打印函数,打印出字符串。
清单 1. hello world
import jpype
jvmPath = jpype.getDefaultJVMPath()
jpype.startJVM(jvmPath)
jpype.java.lang.System.out.println( “ hello world! ” )
jpype.shutdownJVM()
运行该例程的时候,getDefaultJVMPath()找不到默认的jvm路径,检查发现在命令行下输入java和javac都是没问题,而且已经配置好环境变量。找到jpype官方文档给的例程(http://jpype.sourceforge.net/doc/user-guide/userguide.html),使用说明(http://blog.csdn.net/niuyisheng/article/details/9002926)发现历程中jdk中jre文件有client文件夹,而现在版本只有server文件夹,然后找一篇文章介绍jvm中client模式和server模式的区别(http://ryxxlong.iteye.com/blog/1696537),发现他们用的都是jdk1.6,而现在的版本是jdk1.8,猜想新版本已经没有该功能了,把jdk换成1.6版本还是发现没有client文件夹,放弃在python中调用java包Hanlp,直接在java程序中使用hanlp。

11大Java开源中文分词器的使用方法和分词效果对比:
http://my.oschina.net/apdplat/blog/412921?fromerr=jF95Yz4r

2.关于HanLP
HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持:
中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),
命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),
关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。
Hanlp的安装和入门说明:http://hanlp.linrunsoft.com/doc/_build/html/getting_started.html#hanlp
HanLP 中的数据分为 词典 和 模型 ,其中 词典 是词法分析必需的, 模型 是句法分析必需的
官网demo:https://github.com/hankcs/HanLP/tree/master/src/test/java/com/hankcs/demo
image

文章来源于zhangqiang1104的博客

相关文章
|
29天前
|
Python 人工智能 数据可视化
Python模块与包(八)
Python模块与包(八)
17 0
Python模块与包(八)
|
7月前
|
Python
Python模块、包
Python模块、包
26 0
|
缓存 安全 Python
Python模块和包
Python模块和包
144 1
Python模块和包
|
自然语言处理 搜索推荐 索引
基于hanlp的es分词插件
摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词Elasticsearch默认分词 输出: IK分词 输出: hanlp...
1476 0
|
自然语言处理
Ansj与hanlp分词工具对比
一、Ansj1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效:比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。
1060 0
|
自然语言处理 算法
中文分词算法工具hanlp源码解析
词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。
1672 0
|
自然语言处理
在Hanlp词典手动添加未登录词的方式介绍
在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,
1111 0
|
自然语言处理 API Python
python调用hanlp分词包手记
Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享
2320 0