HanLP

面向生产环境的前沿多语种自然语言处理技术✨

极速安装 🚀使用指南 💡

中文分词

将文本切分为独立语义单位。支持粗分、细分双重标准,高低优先级自定义词典,多语种

词性标注

给每个单词标注语法类别,支持多种词性标注集:CTB、PKU、863、UD、NPCMJ,多语种

命名实体识别

识别文本中的专有名词,支持多种规范:PKU、MSRA、OntoNotes,黑白名单词典、多语种

依存句法分析

分析单词语法上的依赖,支持多种句法体系:SD、UD、PMT,投射/非投射,多语种

成分句法分析

分析句子在语法上的递归构成,并将其表示为树形结构。支持可视化、多语种

语义依存分析

分析句子中单词之间的语义关系图。支持多标准:CSDP、DM、PAS、PSD,支持多语种

语义角色标注

分析句子的谓词论元结构。支持可视化、多语种

抽象意义表示

将句子的意义表示为以概念为节点的单源有向无环图的语言学框架,支持多语种

指代消解

将文本中指代同一事物的提名(mention)聚集到同一个簇

语义文本相似度

判断一对短文本的语义相似度

文本风格转换

将原文本的风格转换为目标风格,同时保持语义不变

关键词短语提取

提取文本中最具有代表性的关键词以及短语

抽取式自动摘要

从文章中筛选出一些作为摘要的中心句子:既要紧扣要点,又要避免赘语

生成式自动摘要

为文章生成一段简短的概括性摘要

文本纠错

改正文本中潜在的拼写、标点、语法等表达错误

文本分类

判断一段文本所属的类别,例如新闻栏目和语种

情感分析

判断一段文本的情感极性,数值的正负代表正负面情绪

      from hanlp_restful import HanLPClient
HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh') # auth不填则匿名,zh中文,mul多语种
HanLP('2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。晓美焰来到北京立方庭参观自然语义科技公司。').pretty_print()

    

量体裁衣,HanLP提供RESTful和native两种API,分别面向轻量级和海量级两种场景。无论何种API何种语言,HanLP接口在语义上保持一致,在代码上坚持开源。以下片段演示了native API的用法:

      import hanlp
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH)
HanLP(['2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。', '晓美焰来到北京立方庭参观自然语义科技公司。']).pretty_print()