词性标注
词性标注
48/800
简介
词性标注(Part-of-Speech tagging、POS)是一种标注句子中每个单词的词性(也称词类、语法类别)的任务。HanLP支持CTB、PKU、863、NPCMJ、Universal Dependencies等词性标注集。
调用方法
创建客户端
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
CTB词性标注集
默认采用CTB,在语言学界被广泛采用:
HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/ctb').pretty_print()
PKU词性标注集
PKU是国内最流行的标注集,被HanLP1.x采用为默认标准:
HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/pku').pretty_print()
863词性标注集
863是国家标准,诞生于863工程中,被国家语委语料库采用:
HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/863').pretty_print()
本地调用
本地调用方法请参考教程。
多语种支持
其他标准用于外语或多语种,请参考文档加载相应的外语或多语种模型。