文本纠错


文本纠错

45/800
loading

简介

文本纠错(Grammatical Error Correction,GEC)任务的目标是改正文本中潜在的拼写、标点、语法等表达错误。由于文本纠错的定义是中文拼写纠错(Chinese Spelling Correction,CSC)的超集,所以我们将二者作为统一整体进行研究。

目前,业界对文本纠错的研究还处于相当初始的阶段,具体体现在模型和语料库仅仅能覆盖简单的拼写和用词错误,而对稍微复杂一点的语病则无能为力。其主要原因并不在于模型,而是归结于语料库的匮乏。文本纠错的语料库主要来源为外国人在学习对外汉语的过程中暴露出来的书面语错误,与母语者常犯的错误往往相差甚远。而流行的数据增强方法伪造的训练数据与真实场景的分布大相径庭,无法达到实用水平。同时用于数据增强的语言模型又是在错误百出的互联网文本上训练而来,更是难以产出高质量的语料库。

提示

为此,HanLP的线上模型和语料库仍然在迭代发展中。当前版本暂时仅支持拼写、标点和简单的语法错误。我们将在下一个版本中,将HanLP的文本纠错能力提升到高考语文水平。

调用方法

创建客户端

      from hanlp_restful import HanLPClient
# auth不填则匿名,zh中文,mul多语种
HanLP = HanLPClient('https://www.hanlp.com/api', auth=None, language='zh')

    

申请秘钥

由于服务器算力有限,匿名用户每分钟限2次调用。如果你需要更多调用次数,建议申请免费公益API秘钥authopen in new window

分析

输入短文本,执行文本纠错:

      
HanLP.grammatical_error_correction(['每个青年都应当有远大的报复。', '有的同学对语言很兴趣。'])

    

返回值为修改后的短文本。

本地调用

敬请期待。

多语种支持

敬请期待。

上次编辑于: 2022/7/31 22:34:48
贡献者: hankcs