HanLP:面向生产环境的自然语言处理工具包

thumb_up 点赞

在线演示

语言学结构

Dep Tree     
──────────── 
 ┌─────────► 
 │┌────────► 
 ││┌─►┌───── 
 │││  │  ┌─► 
 │││  └─►└── 
┌┼┴┴──────── 
││       ┌─► 
││  ┌───►└── 
││  │    ┌─► 
││  │┌──►├── 
││  ││   └─► 
││  ││   ┌─► 
││  ││┌─►└── 
││  │││  ┌─► 
│└─►└┴┴──┴── 
└──────────► 
Token     
───────── 
2021年     
HanLPv2.1 
为         
生产        
环境        
带来        
次         
世代        
最         
先进        
的         
多         
语种        
NLP       
技术        
。         
Relati 
────── 
tmod   
nsubj  
prep   
nn     
pobj   
root   
amod   
nn     
advmod 
rcmod  
assm   
nummod 
nn     
nn     
dobj   
punct  
PoS 
─── 
NT  
NR  
P   
NN  
NN  
VV  
JJ  
NN  
AD  
JJ  
DEG 
CD  
NN  
NR  
NN  
PU  
Tok       
───────── 
2021年     
HanLPv2.1 
为         
生产        
环境        
带来        
次         
世代        
最         
先进        
的         
多         
语种        
NLP       
技术        
。         
NER Type         
──────────────── 
───►DATE         
───►ORGANIZATION 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
Tok       
───────── 
2021年     
HanLPv2.1 
为         
生产        
环境        
带来        
次         
世代        
最         
先进        
的         
多         
语种        
NLP       
技术        
。         
SRL PA1      
──────────── 
───►ARGM-TMP 
───►ARG0     
◄─┐          
  ├►ARG2     
◄─┘          
╟──►PRED     
◄─┐          
  │          
  │          
  │          
  ├►ARG1     
  │          
  │          
  │          
◄─┘          
             
Tok       
───────── 
2021年     
HanLPv2.1 
为         
生产        
环境        
带来        
次         
世代        
最         
先进        
的         
多         
语种        
NLP       
技术        
。         
SRL PA2      
──────────── 
             
             
             
             
             
             
             
             
───►ARGM-ADV 
╟──►PRED     
             
             
             
             
───►ARG0     
             
Tok       
───────── 
2021年     
HanLPv2.1 
为         
生产        
环境        
带来        
次         
世代        
最         
先进        
的         
多         
语种        
NLP       
技术        
。         
PoS    3       4       5       6       7       8       9 
─────────────────────────────────────────────────────────
NT ───────────────────────────────────────────►NP ───┐   
NR ───────────────────────────────────────────►NP────┤   
P ───────────┐                                       │   
NN ──┐       ├────────────────────────►PP ───┐       │   
NN ──┴►NP ───┘                               │       │   
VV ──────────────────────────────────┐       │       │   
JJ ───►ADJP──┐                       │       ├►VP────┤   
NN ───►NP ───┴►NP ───┐               │       │       │   
AD ───────────►ADVP──┼►ADJP──┐       ├►VP ───┘       ├►IP
JJ ───────────►VP ───┘       │       │               │   
DEG──────────────────────────┤       │               │   
CD ───►QP ───┐               ├►NP ───┘               │   
NN ───►NP ───┴────────►NP────┤                       │   
NR ──┐                       │                       │   
NN ──┴────────────────►NP ───┘                       │   
PU ──────────────────────────────────────────────────┘   

词法分析

词法分析 2.1测试版

句法分析

句法分析 2.1测试版

《自然语言处理入门》

一本配套HanLP的NLP入门书,助你零起点上手自然语言处理。本书基础理论与生产代码并重,Python与Java双实现。从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。

随着对本书的学习,你将从普通程序员晋级为机器学习工程师,最后进化到自然语言处理工程师。

简介

HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。

HanLP已经被广泛用于Lucene、Solr、ElasticSearch、Hadoop、Android、Resin等平台,有大量开源作者开发各种插件与拓展,并且被包装或移植到Python、C#、R、JavaScript等语言上去。 基于深度学习的HanLP2.0已于2020年初发布,面向下一个十年的前沿NLP技术,与1.x相辅相成,平行发展。 详见项目主页

Python

pip install pyhanlp

Java
<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>portable-1.7.5</version>
</dependency>
请将版本号替换为右图所示最新版:Maven Central