错别字-人工智能中文纠错算法到底有多牛?

编辑:pitaya02        日期:2020-09-08

信息制作的门槛,的确越来越低;能写出“快而准”的文章,也的确越来越难。有成千上万的内容制作坑,这其中,要数让用户怒点负反馈,狂扣编辑鸡腿的“错别字”最让人头痛。

为抓取烦人的“错别字”,火龙果的写作机器人火龙果写作 再扩充功能项,想要用 AI算法将采编助手的工作加到其中。本期的全媒体人就如何运用 AI纠错算法来治愈编辑部的“手癌”一事采访了项目的幕后团队。

人工智能中文纠错算法到底有多牛?

要让电脑进行中文纠错,不如人类在语文考试中用火眼金睛的笔“抓虫”那么简单。

开始拼写检查:如何应用英文领域

对于微软 Word中的红绿波浪线,你应该不会陌生,它是最常见的拼写检查软件之一。微软的 Word6.0在1993年推出了自动拼写校正功能,至今已有25年的历史。在英文拼写检查方面,人们的实践早已取得了很好的成绩,无论是搜索工具还是文档处理软件,英文错误的识别都是快速而准确的。

细致地分析英文拼写错误,可分为两类:

其中之一是英文单词不合法拼写(Non-Word Errors),导致错误的“单词”在字典中没有相应的单词(Word),例如将 artificial拼写为 artificel;

另外一种是拼写合法的词,但是在上下文中出现了错误(Real-Word Errors),例如将 be interested in写为 be interest in。这种错误比拼写违法更难被改正。

前一种方法通常使用上下文无关(Context-Independent Methods)的方法来确定,后一种方法通常使用上下文相关(Context-Dependent Methods)的方法来确定。

视频:算法是怎样识别拼写错误的?源: NBC

2:35

中文版纠错的复杂性?

在中文世界里,错误纠正仍然是一个危险的环节,因为许多中文错误都不会发生在英文语境中。原因在于,英文是由单个字母组成的,没有“输入法”的概念,最小处理单元就是一个“单词”;而对中文来说,我们要依靠输入法来输入,而电脑显示的汉字字形是预先设定好的,不会出现字形“无中生有”的情况,所以,纠错处理单元所针对的中文“单词”,相当于英语的“单词”。

在中文语境中,常会出现错字:有输入法联想错误,导致其他同音词的输入,由此产生的搭配不当;有发音不正确,导致拼音错误;有形近字,几乎是约定俗成的错字等等,这些都很难形成一个成熟规则,一网打尽。由于汉语表达主观性和多样性,如果没有大量的语料来训练模型,实验就很难取得效果。

所以,可以说,汉语中“抓虫”的难度远远高于英语。

鹅厂算法查勘能力全透视

自今年春节后启动,到六月在腾讯新闻 CMS系统全面上线,实现新闻各个信息品类的全面覆盖, 火龙果写作 的勘误算法能力可谓历尽艰辛。本文采用腾讯新闻自研的人工智能算法模型,以权威词典资料为基础,运用强大的深度学习算法,通过编辑反馈自我提升,根据上下文语义解析进行自我修正,实现错别字的勘误与更正。

CMS反馈接口

项目团队从技术到产品,投入了大量的精力,不断地判别错误,修正错误,然后对模型进行优化,才达到了现阶段比较成熟,理想的效果。

由于不断报错,团队成员还对模型雏形阶段的实验方向是否正确产生了怀疑。市场上可供选择的东西很少,这条路只能自己摸索。

核心攻坚点:根据背景,区分搭配失误

要想解决这个问题,最困难的是如何区分上下文语法和搭配错误,这需要使用数亿个数据语料来训练模型。机器只有不断地调试,才能建立对新闻语法表达的概念。

与传统纠错方法相比,该方法采用最先进的 AI算法,利用海量语料训练深度学习模型,使模型能够对多种错误进行纠错。

基于深度学习的核心算法建立了多种不同的模型,每一种模型都能理解各自特有的语义。模式通过语料学习,语义理解深入到单词和单词。它的核心技术是多种深度学习模型的融合,多个模型的协同决策。在语句中出现错误时,模型发现错误与上下文不匹配,从而触发报警,给出正确的写法。

例如我们判断文字是否写对或写错,其实基本的思路是,写错的情况出现的情况比较少,出现的可能性较低。有的情况比较简单,就像高考经常考的那一类,错误的方法很常见,比如‘文雅’就写为‘杉杉’,这类问题可以用现在常见的错误算法来解决。工程技术人员解释说,“而我们这套算法的最大亮点,就是通过判断上下文背景,找出搭配错误。用前和后两个字,预测这个字在中间出现的概率。假如说,这个词在中间出现的可能性很小,和它相近的一些词出现的可能性更大,那么我们就认为它很可能是写错了。

”“我们还发现了一些非常规错误。就像上一次 case报告的‘飞机坠毁’,漏掉了‘坠毁’的提手,这种错误非常少见,但是机器也能认出。

技术员也会举一些例子,例如:

郑爽成铁甲女超能手,成功脱管->脱颖而出一群罗威纳小狗打架,场景感忍->感人无控->控制你有一封信:失忆男字->男人找不到的女孩,没想到真的找到了!

机器学习之真谛

这种算法能力的发展过程还有一个特点,那就是从头到尾不使用人工来进行智能数据标注。

技术员介绍说:“一般而言,做这种纠错算法需要很多人对数据进行标注,告诉机器它是什么,不是什么,都需要人工进行标注,这是很费力的。这次,不用人工标注,直接让机器来学吧。”

运算性能迭代

现在,这套纠错算法已经可以识别出许多类型的错误,包括同音、近义、易错和语境搭配错误,识别率达到90%以上,应用于腾讯新闻图文、视频等场景。另外,它还有一个“举一反三”的超强大脑,不仅能识别错误,而且能快速记录对错误的反馈并进行干预,自我反复,使算法能力调试得更精确。

如今,这套算法仍然在学习中进化。随着信息爆炸的今天,新闻更新速度异常快,“神马”、“外来者”等新名词层出不穷,算法也可以通过积累语料,快速实现对这些热门新词的覆盖。

前景:更大的能力+开放的合作

现在,团队想要继续优化模型,并提高整体水平;此外,要做好通用性,将算法作为工具为更多用户服务。

运算能力项目扩展

已有的算法能力,尽管相当出色,但对漏字,多字和更复杂的句子,却无能为力。技术员坦白说,这也是今后努力的突破方向。例如《我在读书》和《我在读书》,前者多了一个“在”字,后者漏掉了一个动词“看”字,看似简单的错误,如何通过 AI “查漏补缺”,是急需攻克的难题。

团队除了纠正错误之外,还有更大的抱负。该产品经理介绍说,“纠错只是目前算法能力的一个方向,后续还将推出更多技术,希望能够赋能更多合作伙伴。”

开放性合作解放“手癌”

他说:“我们做这种算法能力的初衷是,不仅可以应用到“抓虫”上,还可以让更多的多媒体从业者受益,帮助大家高效地勘误,少出错。这个项目的产品经理介绍说,“虽然这个功能的实现是一个长期的、并且需要不断更新的过程,但我们认为,为了能够给用户提供一个纯净、清晰的文字环境,还是非常有意义的。”

目前,该小组正着手建立对外应用展示平台,非常欢迎更多有此需求的媒体和个人,利用鹅厂的算法工具,希望一是能帮助大家发现和解决工作中存在的问题,二是能通过吸收更多真实的“养分”,帮助 AI更加聪明、更智能,未来识别得更准确。

谈到 AI,人们往往会嗅到它的颜色变化,唯恐因为它的入侵而取而代之。而且作为内容生产者,我们完全可以合理地使用 AI,承担那些产出投入比低的工作,减少内容管理中的风险。聪明地运用科技,增强人类不可替代的核心能力,才是媒体人在技术快速变革的潮流中,缓解工作焦虑的首要法则。


火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代


智能校对-当前计算机校对技术的现状与不足