错别字校对-第六届自然语法错误诊断大赛结果出炉!

编辑:pitaya02        日期:2020-12-15

最近,第六届中文语法错误诊断竞赛(CGED)研讨会在 AACL会议2020大会面向教育技术的自然语言处理(NLPTEA)会议上顺利举行。本年度有14支国内外团队参赛,共提交44套系统。信息飞,阿里,上交,南大,有道,外研社,新华社等团队都表现出色。在这些指标中,哈工大讯飞联合实验室(以下简称 HFL)取得了综合排名第一,多项核心指标保持领先。火龙果错别字检查

还可以改作文呢,我们拿了好几个冠军!

中文文法错误诊断大赛主页

过去,语文教师语法错误检查作文的情景依然历历在目——从文章中找出冗长、少词、不恰当的语序、不恰当的语意,然后再一一纠正。火龙果错别字检查

近来,这一世界级的竞赛将使用以上的场景作为竞赛点——第六届中文语法错误诊断竞赛(CGED)。主办单位将选取由外国人撰写的中文句子作为考试题目,参赛团队将使用 AII算法技术来识别其中的语法语义错误,纠正部分分类错误,并进行系统性能评估。火龙果错别字检查

可以不要小看这个“文法语法错误检查大赛”,它所考验的能力是非常全面的。参与团队的语病识别能力(识别句子中是否有错误)、语病分类能力(识别特定的错误类型)、语病定位能力(识别错误的位置和类型)、语病纠正能力(就遗漏和不恰当的用词提出纠正意见)等。火龙果错别字检查

疾病错误类型举例表

最后, HFL在疾病识别、疾病分类、疾病定位、疾病修正四大类核心指标中,分别在关键指标中取得了第一名和第二名的好成绩。它是继上届大赛(CGED 2018)之后,又一次连续保持技术领先地位的比赛成绩。火龙果错别字检查

cgd 2020Identification-level指标状况

Position-level指数 CGED 2020状况

CGED 2020 Correctiontop1指数

综观近几年来的竞赛结果,中文语法检错技术不断进步,检错效果不断提高。这背后有什么功劳?

结果表明,随着深度学习相关技术的迅速发展,研究出的模型越来越适合任务本身,并随着预训练语言模型的发展,增加了对模型的外部性,使其表现能力不断增强。基于深度学习技术和预训练语言模型, HFL结合整合学习相关技术,完成对语病的精确识别、定位和纠正。

历年真题实战,看 A. I.冠军怎么练

这次 HFL比赛的评分方案,主要分为检测和修正两部分。对于检测任务,本文提出了 ResBERT检测模型,该模型可以帮助我们更好地检测语法错误类型、位置等。火龙果错别字检查

瑞斯贝特模型结构图

对于修改任务,我们分别采用了以下两种方法对缺漏和误修改进行修改:对于缺漏,我们首先预测缺漏的位置和字数,然后利用语言模型生成候选缺漏的修改结果,最后对多个候选缺漏的修改结果进行综合比较,确定最终修改结果。对于不恰当的使用错误,我们综合考虑音调、字形相似性和语言模型评分等因素来选择最终的修正结果。

如:“请座小朋友将手放在膝上”,我们根据检测模型,可以判断“请座”中间缺了一个字,再根据修正方案,确定在“请”和“座”中间需要加上一个“在”字,即该句最后被修正为“请座”中间缺了一个字。

我们可以看到今年的比赛中,语病修正指数仍然很低,最高的F1值也没有超过0.2,原因是什么?通过对数据的分析,我们发现数据是以一句话的形式出现的,比如“当时我去画廊参观绘画作品。”语病修正的参考答案是:将“试”改为“试”,而实际上合理的修正方法很多,例如也可以改为“常”等等。单句信息本身并不能决定唯一的修正结果,需要更多的上下文信息来决定作者要表达的真实意图。对于评估数据的构建,这也是一个不小的挑战。火龙果错别字检查

为了进一步提高语病修正的效果,并将其应用于实际产品中,很有必要对篇章级文本进行诊断分析,这也就对今后的评价和技术提出了更高的要求。

在技术上的应用使我们使 A. I.更进一步

我们在坚持核心技术研究不断创新和进步的同时,也不断让 A. I赋能于应用,服务于生活的各个方面。

在各种办公场景中,人们长期从事文字工作,难免会出错。不管是编写文档,还是信息共享和存储场景,目前流行的办公工具都无法很好地支持中文文本校对,智能办公系统亟待升级。

基于长期的技术积累, HFL早在2019年12月1日就正式发布了“飞鹰智能文本校对系统”。火龙果错别字检查

“飞鹰校对”包括校对文本的别字错误、语法错误、标点错误和敏感词检测等多种校对模块,并能针对不同领域的文本校对需求,为行业客户提供定制化的解决方案,现已支持通用领域、司法领域和教育领域的文本校对服务。

飞鹰智能文字校验系统

另外,中文语法错误诊断技术还被应用到作文自动语法错误检查中,实现了错别字校正、语法检查等功能,目前已经推广到中小学作业、讯飞学习机等产品中,帮助教师减轻作文语法错误检查的工作量,也能帮助学生在自主学习过程中及时得到作文语法错误检查的反馈意见。

科大讯飞作文自评

今后,随着科技的不断进步,以中文语法错误诊断与纠正技术为核心的文本校对将越来越多地出现在编辑出版、公文撰写、论文语法错误检查和媒体文稿写作等领域,应用前景广阔。

版面讯飞超脑, HFL让机器懂思考

哈尔滨工大讯飞联合实验室(HFL)是由哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)与科大讯飞 AI研究院共同创建,以“信息飞超脑”项目为核心,以引进和布局为重点的核心研发团队。火龙果错别字检查

在共同实验室建设规划下,双方在语言认知计算领域开展了长期、深入的合作,具体包括阅读理解、自动阅卷、类人答题、人机对话、语音后处理、社会舆论计算等前瞻课题的研究,支持科大讯飞实现从“会听会说”到“会读会想”的技术跨越,并围绕教育、司法、人机互动等领域,实现科研成果的规模化应用和落地。

2017-2019年,哈工大讯飞联合实验室先后获得 SQuAD和 SQuAD2.0多项国际权威机器阅读理解评测冠军。其中,2019年3月,在 SQuAD2.0评估中,全球首次超过人类平均水平,成为一个里程碑。2018年度获国际语义测试(SemEval2018)阅读理解竞赛冠军。2019-2020年,在 HotpotQA的多步推理阅读理解测试中获得两项冠军。到2020年,在国际权威自然语言理解测试 GLUE中取得领先地位。


 火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。火龙果错别字检查

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代



错别字校对-让纪晓岚背黑锅的两个错别字引发后人想象