如何在ubuntu使用hanlp

简介:

前言
  以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客:
http://blog.csdn.net/daniel_ustc/article/details/48195287.
  随着项目的需求,我需要使用斯坦福大学的自然语言处理包standford作依存关系树的构建,然而standford很调皮地不让我做中文分词处理(老报错).无奈之下,我只能使用第三方的分词工具.由于standford的源码是java,我寻找了一个与之对应的分词工具,即hanlp.

HanLP的安装使用
  HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客:
http://m.blog.csdn.net/article/details?id=50938796
  不过该博客主要介绍的是windows如何使用hanlp,而ubuntu是linux的,所以会有所区别.下面我主要介绍的是在unbuntu的安装使用.

安装eclipse
在终端输入 sudo get-apt install eclipse-platform实现一键安装,然后在应用程序找到eclipse
image
下载hanlp
  访问hanlp的官方网址:http://hanlp.linrunsoft.com/services.html
分别下载hanlp.jar(程序包), data.zip(词典库),hanlp.properties(配置文件),而后面是说明文档,可以不下载
image
在下载的data.zip的时候,下载链接有点隐晦,点击蓝色的data-for-1.2.11.zip,就会出现百度云链接啦
image
导入jar包
导入hanlp到eclipse之中,具体的流程可以参照网址:
http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html

导入配置文件
将hanlp.propertie复制至项目的bin目录中,修改词典的路径

将root的路径修改至data保存的路径(记得data要解压)

作者:Quincy1994
来源:CSDN
原文:https://blog.csdn.net/qq_30843221/article/details/52326254
版权声明:本文为博主原创文章,转载请附上博文链接!
image
编程代码示范
image
运行结果:
image

文章来源于Quincy1994的博客

相关文章
|
自然语言处理 Ubuntu 大数据
ubuntu下pycharm调用Hanlp实践分享
前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanlp2.0的信息,可能还需要过一段时间才能看到,只能等一下了!下面分享一篇大神的文章,是关于在ubuntu下使用pycharm调用hanlp的实验。
1507 0
|
3天前
|
Ubuntu Linux Python
Linux(15)Ubuntu安装ninja构建工具
Linux(15)Ubuntu安装ninja构建工具
14 0
|
29天前
|
Ubuntu NoSQL 关系型数据库
Ubuntu系统下安装常用软件
Ubuntu系统下安装常用软件
58 0
Ubuntu系统下安装常用软件
|
1月前
|
Ubuntu Linux C语言
Ubuntu下安装vscode,并解决终端打不开vscode的问题
Ubuntu下安装vscode,并解决终端打不开vscode的问题
151 0
|
2月前
|
存储 Ubuntu 网络协议
|
1月前
|
Ubuntu Docker 容器
如何在Ubuntu上安装Docker?
【2月更文挑战第10天】
257 0
|
2月前
|
负载均衡 Ubuntu 应用服务中间件
|
30天前
|
Ubuntu 关系型数据库 MySQL
Ubuntu 中apt 安装MySQL数据库
Ubuntu 中apt 安装MySQL数据库
69 0
|
3天前
|
Ubuntu Linux 数据安全/隐私保护
Linux(7)Ubuntu20.04 arm64安装Docker
Linux(7)Ubuntu20.04 arm64安装Docker
15 0
|
4天前
|
存储 Ubuntu Docker
如何在 Ubuntu 上安装 Docker?
【4月更文挑战第17天】
42 8
如何在 Ubuntu 上安装 Docker?