词性标注


词性标注

48/800
loading

简介

词性标注(Part-of-Speech tagging、POS)是一种标注句子中每个单词的词性(也称词类、语法类别)的任务。HanLP支持CTBopen in new windowPKUopen in new window863open in new windowNPCMJopen in new windowUniversal Dependenciesopen in new window等词性标注集。

调用方法

创建客户端

      from hanlp_restful import HanLPClient
# auth不填则匿名,zh中文,mul多语种
HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

    

申请秘钥

由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥authopen in new window

CTB词性标注集

默认采用CTBopen in new window,在语言学界被广泛采用:

      
HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/ctb').pretty_print()

    

PKU词性标注集

PKUopen in new window是国内最流行的标注集,被HanLP1.x采用为默认标准:

      
HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/pku').pretty_print()

    

863词性标注集

863open in new window是国家标准,诞生于863工程中,被国家语委语料库采用:

      
HanLP.parse('我的希望是希望张晚霞的背影被晚霞映红。', tasks='pos/863').pretty_print()

    

本地调用

本地调用方法请参考教程open in new window

多语种支持

其他标准用于外语或多语种,请参考文档open in new window加载相应的外语或多语种模型。

上次编辑于: 2022/7/3 01:01:57
贡献者: hankcs