中文分词
中文分词
178/800
简介
HanLP线上模型训练自9970
万字的大型综合语料库,覆盖新闻、社交媒体、金融、法律等多个领域,是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。自然语义的语言学专家一直在持续标注该语料库,与时俱进保持最先进的分词质量。 在分词标准上,HanLP提供细粒度和粗粒度两种颗粒度,细粒度适合搜索引擎业务,粗粒度适合文本挖掘业务。
调用方法
创建客户端
from hanlp_restful import HanLPClient # auth不填则匿名,zh中文,mul多语种 HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')
申请秘钥
由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥auth。
细分标准
默认采用细分标准:
HanLP.tokenize('商品和服务。晓美焰来到北京立方庭参观自然语义科技公司。')
粗分标准
通过coarse=True
启用粗分标准:
HanLP.tokenize('商品和服务。晓美焰来到北京立方庭参观自然语义科技公司。', coarse=True)
本地调用
本地调用方法请参考教程。
多语种支持
用于外语或多语种时,请参考文档加载相应的外语或多语种模型。