HanLP: Han Language Processing

thumb_up Good

Live Demo

Any multilingual sentence within 200 characters
SDP standard
Use multilingual model.

Linguistics

Tok  
──── 
北京   
大学   
计算   
语言学  
研究所  
和    
富士通  
研究   
开发   
中心   
有限公司 
,    
得到了  
人民   
日报社  
新闻   
信息   
中心   
的    
语料库  
。    
NER Typ 
─────── 
◄─┐     
  │     
  ├►ORG 
  │     
◄─┘     
        
◄─┐     
  │     
  ├►ORG 
  │     
◄─┘     
        
        
◄─┐     
  │     
  ├►ORG 
  │     
◄─┘     
        
        
        
Tok  
──── 
北京   
大学   
计算   
语言学  
研究所  
和    
富士通  
研究   
开发   
中心   
有限公司 
,    
得到了  
人民   
日报社  
新闻   
信息   
中心   
的    
语料库  
。    
SRL PA1  
──────── 
◄─┐      
  │      
  │      
  │      
  │      
  ├►ARG0 
  │      
  │      
  │      
  │      
◄─┘      
         
╟──►PRED 
◄─┐      
  │      
  │      
  ├►ARG1 
  │      
  │      
◄─┘      
         
Tok  
──── 
北京   
大学   
计算   
语言学  
研究所  
和    
富士通  
研究   
开发   
中心   
有限公司 
,    
得到了  
人民   
日报社  
新闻   
信息   
中心   
的    
语料库  
。    
PoS      3       4       5       6       7       8 
───────────────────────────────────────────────────
PROPN──┐                                           
NOUN ──┴►NP ───┐                                   
NOUN ──────────┤                                   
NOUN ──────────┼►NP ───┐                           
NOUN ──────────┘       │                           
CCONJ──────────────────┤                           
PROPN───►NP ───┐       ├────────────────►NP ───┐   
NOUN ──────────┤       │                       │   
NOUN ──────────┼►NP ───┘                       │   
NOUN ──────────┤                               │   
NOUN ──────────┘                               │   
PUNCT──────────────────────────────────────────┤   
VERB ──────────────────────────────────┐       │   
PROPN──┐                               │       ├►IP
PROPN──┴►NP ───┐                       │       │   
PROPN──┐       ├►NP ───┐               ├►VP────┤   
NOUN   ├►NP ───┘       │               │       │   
NOUN ──┘               ├►DNP ──┐       │       │   
PART ──────────────────┘       ├►NP ───┘       │   
NOUN ───────────────────►NP ───┘               │   
PUNCT──────────────────────────────────────────┘   

Lexical

                            北京 大学 计算 语言学 研究所 和 富士通 研究 开发 中心 有限公司 , 得到了 人民 日报社 新闻 信息 中心 的 语料库 。
T1 PROPN 0 2 北京
#1	AnnotatorNotes	T1	proper noun
T2 NOUN 3 5 大学
#2	AnnotatorNotes	T2	noun
T3 NOUN 6 8 计算
#3	AnnotatorNotes	T3	noun
T4 NOUN 9 12 语言学
#4	AnnotatorNotes	T4	noun
T5 NOUN 13 16 研究所
#5	AnnotatorNotes	T5	noun
T6 CCONJ 17 18 和
#6	AnnotatorNotes	T6	coordinating conjunction
T7 PROPN 19 22 富士通
#7	AnnotatorNotes	T7	proper noun
T8 NOUN 23 25 研究
#8	AnnotatorNotes	T8	noun
T9 NOUN 26 28 开发
#9	AnnotatorNotes	T9	noun
T10 NOUN 29 31 中心
#10	AnnotatorNotes	T10	noun
T11 NOUN 32 36 有限公司
#11	AnnotatorNotes	T11	noun
T12 PUNCT 37 38 ,
#12	AnnotatorNotes	T12	punctuation
T13 VERB 39 42 得到了
#13	AnnotatorNotes	T13	verb
T14 PROPN 43 45 人民
#14	AnnotatorNotes	T14	proper noun
T15 PROPN 46 49 日报社
#15	AnnotatorNotes	T15	proper noun
T16 PROPN 50 52 新闻
#16	AnnotatorNotes	T16	proper noun
T17 NOUN 53 55 信息
#17	AnnotatorNotes	T17	noun
T18 NOUN 56 58 中心
#18	AnnotatorNotes	T18	noun
T19 PART 59 60 的
#19	AnnotatorNotes	T19	particle
T20 NOUN 61 64 语料库
#20	AnnotatorNotes	T20	noun
T21 PUNCT 65 66 。
#21	AnnotatorNotes	T21	punctuation
T22 ORG 0 16 北京 大学 计算 语言学 研究所
T23 ORG 19 36 富士通 研究 开发 中心 有限公司
T24 ORG 43 58 人民 日报社 新闻 信息 中心

                            
                        

Syntactics

                            1	北京	北京	PROPN	PROPN	_	5	nmod	_	_
2	大学	大学	NOUN	NOUN	_	5	nmod	_	_
3	计算	计算	NOUN	NOUN	_	5	nmod	_	_
4	语言学	语言学	NOUN	NOUN	_	5	nmod	_	_
5	研究所	研究所	NOUN	NOUN	_	13	nsubj	_	_
6	和	和	CCONJ	CCONJ	_	11	cc	_	_
7	富士通	富士通	PROPN	PROPN	_	11	nmod	_	_
8	研究	研究	NOUN	NOUN	_	10	nmod	_	_
9	开发	开发	NOUN	NOUN	_	11	nmod	_	_
10	中心	中心	NOUN	NOUN	_	11	nmod	_	_
11	有限公司	有限公司	NOUN	NOUN	_	5	conj	_	_
12	,	,	PUNCT	PUNCT	_	13	punct	_	_
13	得到了	得到了	VERB	VERB	_	0	root	_	_
14	人民	人民	PROPN	PROPN	_	18	nmod	_	_
15	日报社	日报社	PROPN	PROPN	_	18	nmod	_	_
16	新闻	新闻	PROPN	PROPN	_	18	nmod	_	_
17	信息	信息	NOUN	NOUN	_	18	nmod	_	_
18	中心	中心	NOUN	NOUN	_	20	nmod	_	_
19	的	的	PART	PART	_	18	case:dec	_	_
20	语料库	语料库	NOUN	NOUN	_	13	obj	_	_
21	。	。	PUNCT	PUNCT	_	13	punct	_	_

                            
                        

Semantics

%3 1 北京 2 大学 1->2 compound 6 1->6 orphan 7 富士通 1->7 orphan 12 1->12 orphan 13 得到了 1->13 orphan 19 1->19 orphan 5 研究所 13->5 ARG1 20 语料库 13->20 ARG2 3 计算 4 语言学 3->4 compound 4->5 compound 8 研究 9 开发 8->9 compound 10 中心 8->10 compound 9->10 compound 11 有限公司 10->11 compound 14 人民 15 日报社 18 中心 15->18 compound 16 新闻 17 信息 16->17 compound 17->18 compound 21

Introduction

The multilingual NLP library for researchers and companies, built on PyTorch and TensorFlow 2.x, for advancing state-of-the-art deep learning techniques in both academia and industry. HanLP was designed from day one to be efficient, user friendly and extendable.

Thanks to open-access corpora like Universal Dependencies and OntoNotes, HanLP 2.1 now offers 10 joint tasks on 104 languages: tokenization, lemmatization, part-of-speech tagging, token feature extraction, dependency parsing, constituency parsing, semantic role labeling, semantic dependency parsing, abstract meaning representation (AMR) parsing. See also GitHub

HanLP versions