中文分词


中文分词

178/800
loading

简介

HanLP线上模型训练自9970万字的大型综合语料库,覆盖新闻、社交媒体、金融、法律等多个领域,是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。自然语义的语言学专家一直在持续标注该语料库open in new window,与时俱进保持最先进的分词质量。 在分词标准上,HanLP提供细粒度open in new window粗粒度open in new window两种颗粒度,细粒度适合搜索引擎业务,粗粒度适合文本挖掘业务。

调用方法

创建客户端

      from hanlp_restful import HanLPClient
# auth不填则匿名,zh中文,mul多语种
HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

    

申请秘钥

由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥authopen in new window

细分标准

默认采用细分标准open in new window

      
HanLP.tokenize('商品和服务。晓美焰来到北京立方庭参观自然语义科技公司。')

    

粗分标准

通过coarse=True启用粗分标准open in new window

      
HanLP.tokenize('商品和服务。晓美焰来到北京立方庭参观自然语义科技公司。', coarse=True)

    

本地调用

本地调用方法请参考教程open in new window

多语种支持

用于外语或多语种时,请参考文档open in new window加载相应的外语或多语种模型。

上次编辑于: 2022/7/3 01:01:57
贡献者: hankcs