hanlp汉语自然语言处理入门基础知识介绍

简介: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。

自然语言处理定义:

自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。

自然语言处理的目标是让计算机处理或说“理解”自然语言,以完成有意义的任务,比如订机票购物或QA等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工智能。

自然语言处理涉及的几个层次

b492a3f5583ca67a2aca4b24f3f1777aacc140b5

作为输入一共有两个来源,语音与文本。所以第一级是语音识别和OCR或分词(事实上,跳过分词虽然理所当然地不能做句法分析,但字符级也可以直接做不少应用)。接下来是形态学,援引《统计自然语言处理》中的定义:形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科

Hanlp自然语言处理开发包:

从事大数据方面工作的人对自然语言处理必然都是不陌生的,在Github上用户量最多的开源汉语自然语言处理工具是HanLP。HanLP的初始版本是在2014年初开发的,3月份的时候开始在Github上开源。2015年的时候集成在了大快搜索的DKNLP中,目前大快已经把DKNLP技术成果已经开源,并且整体装如HanLP项目,HanLP的版本已经到了V1.50。

Hanlp自然语言处理技术优势:

支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词调、词性标注),命名实体识别(中国人民、音译人民、日本人民,地名,实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。提供Lucene查件,兼容Solr和ElasticSearch。

43e85b4d5f8721f512f3b984d85d82a743ed2de1

Hanlp自然语言处理应用领域:

Hanlp已经被广泛应用于Lucene、Solr、ElasticSearch、hadoop、android、Resin等平台,有大量开源作者开发各种查件与拓展,并且被包装或移植到Python、C#、R、JavaScript等语言上去。

b9de25b3192875f91742fc132dff9bbddf5ce1f7 

 

相关文章
|
7月前
|
存储 自然语言处理 数据可视化
自然语言入门:NLP数据读取与数据分析
本章主要内容为数据读取和数据分析,具体使用`Pandas`库完成数据读取操作,并对赛题数据进行分析构成。
323 0
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
39 0
|
机器学习/深度学习 自然语言处理 数据处理
文本数据处理的终极指南-[NLP入门](三)
在这篇文章中,我们将要讨论不同的特征提取方法,从一些基本技巧逐步深入学习高级自然语言处理技术。我们也将会学习如何预处理文本数据,以便可以从“干净”数据中提取更好的特征。
382 0
文本数据处理的终极指南-[NLP入门](三)
|
8月前
|
数据采集 机器学习/深度学习 自然语言处理
nlp入门之基于贝叶斯算法的拼写错误检测器
基于贝叶斯思想简单的实现了一个拼写错误检测器
|
8月前
|
自然语言处理 Python
nlp入门之正则表达式
本文作为nlp开山第二篇,简要介绍了python的re模块及正则表达式的用法
|
5月前
|
机器学习/深度学习 自然语言处理 资源调度
入门自然语言处理(二):GRU
入门自然语言处理(二):GRU
66 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
【Python入门系列】第十八篇:Python自然语言处理和文本挖掘
Python自然语言处理(Natural Language Processing,简称NLP)和文本挖掘是一门涉及处理和分析人类语言的学科。它结合了计算机科学、人工智能和语言学的知识,旨在使计算机能够理解、解释和生成人类语言。
138 0
|
8月前
|
自然语言处理 算法
nlp入门之隐马尔科夫模型
本文简述了隐马尔科夫模型的原理,并且使用hmmlearn库进行隐马尔科夫模型的实验
|
8月前
|
自然语言处理 算法
nlp入门之新闻分类实验
本文使用sougouCy数据集,对收集到的新闻数据进行分类
|
8月前
|
自然语言处理 算法 数据可视化
nlp入门之商品信息可视化与文本分析实战
本文主要演示了在爬取信息后如何将信息可视化及如何进行文本分析