智能校对-火龙果写作的英文语法纠错效果怎么样?

编辑:pitaya02        日期:2020-09-08

目前疫情下,我们已与在家学习分不开,各种备考也要提日程。阅读机器之心的人大多是理科生,数学、电脑还有些“天分”。但对于英语,似乎这些天赋对我们没什么帮助,缺乏「语感」的我们在写作文时,常常会出现拼写、语法错误。其他部分,如英语阅读和听力都不错,有比较标准的对错判断标准。但在作文中,很可能写出的是错误的句子,我们真的认为它是完全正确的。或许是为了备考四六级或者托福雅思,或许是在写机器学习论文,这篇文章将介绍火龙果写作字典的 AI作文批改,把我们写的英文传到 APP上,它会自动给我们评分,并纠正我们的语法、拼写等错误。文章的 AI批改功能已放入最新版火龙果写作词典 APP中,我们首先试用了雅思作文和 arXiv上的文章。下图是雅思作文,它给整个作文打了分,并通过评语告诉你哪些地方需要加强,比如词汇的丰富,逻辑的连贯等等。对我们比较关注的语法, AI作文批改也会提出修改意见,比如建议将“environment”改为“environmental”。

另外,很多研究人员要写论文做实验,但是机器学习领域的论文基本上都是英文的,按照我们的思路来写论文,中间会有很多细节问题。正如机器之心在上传了 arXiv的论文之后, AI作文评语的确可以给出一些修改意见。举例来说,这让我们可以独立使用“On the other hand”子句,这的确在结构上更容易阅读。如此优秀的应用已经做出来了,还是免费的,有英文作文修改需求的小伙伴还不赶紧打开火龙果写作词典,体验一下白嫖的乐趣~那么,要实现 AI作文批改,它的思路、原则又是什么呢?观察思路,自动批改如何解决?AI作文批改词典的使用效果已经体现在这一面,从机器学习的角度以及整个过程来看, AI作文批改可分为评分、评语和纠错三个模块。在这些方面,评分是从词汇、语法等方面进行的评价,也包括从词汇、语法、结构等方面进行的评价,但同时也提供同义词汇、高级词汇推荐以及佳文推荐等;纠正错误方面,则需要识别和提供修改建议。分数和文章的生成都可以归结为分数的框架,在这个框架中,年级或者作者的学习阶段需要作为一个条件。综合运用传统方法和深度学习方法,可以充分发挥整个评分框架的优势。以传统的线性模型为例,可以对词,句子,篇章进行评分。词汇量、词汇丰富度、高级词汇够不够?拼字,语法,句式掌握了吗?这一章的逻辑,主题是否都一致?

但这三个维度并没有概括出整体的写作品质,我们还需要一个深度神经网络来给出“整体作文”的得分。下面是一个主要的火龙果写作评分模型的框架,其中w_i是某句话的“词”,每一句话通过神经网络的卷积编码成一个“句子语义矢量”。通过使用注意力机制,这些语义向量最终被编码成作文的整体分数。

总的来说,作文评分和评语生成的解题思路更容易理解,但模型能够自动修改语法错误似乎更难解决。是否也进行端到端的模型培训?事实上,深度神经网络是否能够独立完成“纠错”这个功能,我们并不确定,毕竟,在我们的印象中,有很多语法错误,而“语感”这个说法更是言过其实。解决方法也很有趣,首先,对于简单的一些拼写错误,我们可以根据命名实体识别(基于 BERT)和统计模型来给出一个分数,根据字典和编辑距离等多种特征来判断拼写是否有问题。在后期,针对重复性语法错误,火龙果写作试图将其定义为序列到序列的生成问题,利用 Transformer强大的拟合能力直接学习火龙果写作积累的数据量。

似乎语法纠错模型的思路并不困难,但是 Transformer需要大量的数据量,这一点很重要。在机器翻译领域中,我们是否能够发现大量存在语法错误的句子,并对其语法进行修正?本文采用的是迁移和对抗的学习方法,由于我们没有大量的标注数据,所以根据真实用户的错误分布,产生了大量的“伪语料”,首先用它训练 Transformer模型。由于语法错误的实际标注数据非常珍贵,所以我们可以在训练完 Transformer之后再对实际数据进行调整。使用这个训练模式,我们就可以让 Transformer学会如何改错。以上是火龙果写作自动纠正错误的主要思路,如果把它应用到火龙果写作词典这款 APP上,还会遇到许多困难。它还进行了一系列的优化,如使用知识蒸馏压缩模型,使用 BERT预先训练来快速判断句子中标点的正确与否等。制作出真正实用的产品所面临的挑战远远超出我们的想象。看看效果,举个栗子后边就可以具体看一下 AI构图批改的功能和效果,我们还可以尝试一下 Grammarly等类似的工具。首先不说效果,吐槽一下使用方法,其他工具不下载 Chrome插件就是需要注册登录,火龙果写作词典的 AI作文批改确实要方便很多。就考试作文而言, AI作文批改可以根据不同的知识水平和考试类别进行专业评分,可以从词、句、篇等层面进行评析,还可以对语法错误进行更清晰的解析。下面的图表显示了 AI作文批改一篇高中作文的分数,它将同时生成相应的报告。

除全篇报告和评分外, AI作文批改还会详细分析具体问题发生的地方,每个错误都能查看原因和修改意见。特别是我们中国人容易犯的冠词使用错误,用这套批改软件能更好的帮助我们找到这些语法问题,非常方便。

尽管像 Grammarly这样的应用也可以自动纠正错误,但是相对来说,它们没有评分功能,无法判断用户的学习阶段和考试类型,更不用说生成专业的评语了。不能做到的词典 AI作文批改这样精炼处理,针对不同用户群体提供有针对性的建议。也可直接 OCR除常规的复制粘贴或手工输入外,火龙果写作词典上 AI作文批改也支持 OCR,只需拍张照片即可转换成文本。可见,字典上对对手写的词识别还是比较准的,甚至连标点和段落的位置都能准确地识别出来。就算找出一些小错误,手工修改一下也不会有问题。

只是 OCR大大简化了手写作文自动批改过程,省去了我们手工批改的麻烦,保证提交后可以进行分析。特别是在周围没有电脑的情况下,这一功能给我们带来了极大的方便。“语法纠错 AI作文批改”的核心功能还在于语法纠错,这是我们最容易提高写作能力的地方。文法纠正不是一种新的功能,目前有相当多的产品都在这么做。但在使用 Transformer、 BERT等模型进行语法纠错时,结合了传统方法的优点,这一思路听起来并不差。首先,我们可以尝试用一个相同的错误句子,尝试不同语法的错误纠正产品:“On a cold morning, while I was watching a girl buy bread和 milk in the fiont for me.”。第一种是火龙果写作字典,它能检测到三种错误,即拼写、冠词和介词错误。把我们放在微软的“爱”写作平台之后,它只能发现“fiont”有拼写错误,并建议把“buy”改为“purchase”这样的高级词汇。像 Grammarly免费版一样,它也只会识别“文件”中有拼写错误。

左边是火龙果写作 AI作文批改的结果,右边是 Grammarly错误纠正的结果。就一般经验而言,火龙果写作挑出的错误比较全面,特别是在一个句子中出现多个错误时。由于 AI作文批改采用了前沿的 DL模型,因此它对上下文的感知能力会有所增强,对于更复杂的语法问题,或在语篇规模上的时态问题,它都具有优势。也许您认为个别例子并不能说明什么,而且火龙果写作词典还做了详细的人工测试。对脱敏后的批改服务请求,测试人员从国外字典请求、测试用户请求、行业数据集随机抽取一部分作为测试集,并对不同的纠错服务进行效果评价。全过程算法同学不参与测评,基本可以做到公平测评。

对比不同产品的纠错效果。在回忆录中, Precision代表了语法检测和修正的准确率, Recall代表了语法检测和修正的回忆率。F-0.5则是精确度与召回率的调和平均值,其值越大,表明算法性能越好。在上面的表格中我们可以看到,火龙果写作词典 AI作文自动批改三项指标均高于同类先进水平的5%~7%。现在大家已经可以用了,火龙果写作也表示, AI作文批改还会有其他的一些提升,将来还会不断优化润色,范文推荐,书写和口语风格转换等功能。拥有这些新的能力,作文备考,论文写作等等经历就会更顺滑一些


火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代


错别字-人工智能中文纠错算法到底有多牛?