中文分词
将文本切分为独立语义单位。支持粗分、细分双重标准,高低优先级自定义词典,多语种
词性标注
给每个单词标注语法类别,支持多种词性标注集:CTB、PKU、863、UD、NPCMJ,多语种
命名实体识别
识别文本中的专有名词,支持多种规范:PKU、MSRA、OntoNotes,黑白名单词典、多语种
依存句法分析
分析单词语法上的依赖,支持多种句法体系:SD、UD、PMT,投射/非投射,多语种
成分句法分析
分析句子在语法上的递归构成,并将其表示为树形结构。支持可视化、多语种
语义依存分析
分析句子中单词之间的语义关系图。支持多标准:CSDP、DM、PAS、PSD,支持多语种
语义角色标注
分析句子的谓词论元结构。支持可视化、多语种
抽象意义表示
将句子的意义表示为以概念为节点的单源有向无环图的语言学框架,支持多语种
指代消解
将文本中指代同一事物的提名(mention)聚集到同一个簇
语义文本相似度
判断一对短文本的语义相似度
文本风格转换
将原文本的风格转换为目标风格,同时保持语义不变
关键词短语提取
提取文本中最具有代表性的关键词以及短语
抽取式自动摘要
从文章中筛选出一些作为摘要的中心句子:既要紧扣要点,又要避免赘语
生成式自动摘要
为文章生成一段简短的概括性摘要
文本纠错
改正文本中潜在的拼写、标点、语法等表达错误
文本分类
判断一段文本所属的类别,例如新闻栏目和语种
情感分析
判断一段文本的情感极性,数值的正负代表正负面情绪
from hanlp_restful import HanLPClient HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh') # auth不填则匿名,zh中文,mul多语种 HanLP('2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。晓美焰来到北京立方庭参观自然语义科技公司。').pretty_print()
量体裁衣,HanLP提供RESTful和native两种API,分别面向轻量级和海量级两种场景。无论何种API何种语言,HanLP接口在语义上保持一致,在代码上坚持开源。以下片段演示了native API的用法:
import hanlp HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) HanLP(['2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。', '晓美焰来到北京立方庭参观自然语义科技公司。']).pretty_print()