语法检查-智能写作掀起人工智能技术创新浪潮

编辑:pitaya02        日期:2020-09-08

近几年来,人工智能在国内外掀起了新一轮的技术创新浪潮,人工智能正成为产业变革的新风口。根据 BBC的预测,到2020年全球人工智能市场将达到1190亿美元。Arey预测,到2020年,中国人工智能市场将达到91亿人民币。

当前,政策、经济、人才、科技等诸多因素为人工智能发展提供了有利条件:

政策一:人工智能进入国家战略层面。《关于积极推进“互联网+”行动的指导意见》把人工智能提升到国家战略高度。智能制造和机器人是国家“十三五”科技创新项目“2030计划”中的重点开发项目。为了加快人工智能产业的发展,2016年,国家发改委、科技部、工业和信息化部、网信办等部门联合制定了《互联网+人工智能三年行动计划》。2016年,科大讯飞和华为等业界知名企业,在深圳共同发布了《中国人工智能深圳宣言》,积极探索政、产、学、研、用合作机制,促进人工智能产业协同发展。国务院总理李克强在2017年十二届全国人民代表大会一次会议上提出,要推动内地与港澳深化合作,研究制定“粤港澳大湾区”城市群发展规划,提升内地经济发展水平和对外开放功能。

经济:因特网经济高速发展,据艾瑞咨询估计,2015年中国因特网经济增长33%左右,市场规模超过千亿,且呈持续增长趋势。从2014年起,投资机构对人工智能的投资金额、数量都大幅增加。根据咨询公司 VentureScanner的数据,2016年全球人工智能公司已经超过了1000家,获得了高达48亿美元的融资。

人才:在中国,科研投入占全球的20%,仅次于美国,信息技术互联网领域是国家重点投资的领域,近5年来,科研投入持续增加20%,为人工智能的发展提供了充足的人才支持。

技术方面:目前我国在计算机视觉、智能语音等领域已经取得了技术突破,处于国际领先水平。在国内有代表性的企业和机构有:百度、阿里巴巴、腾讯、科大讯飞、旷视、商汤等。

智能语音技术是人工智能领域的一个重要分支,是人机交互过程中不可缺少的组成部分。语音学包括:语音识别、语音合成、声纹识别、语音评价、语音转换等,最近语音检错与语音转换技术有了新的突破。

语音检错纠错法

在当今世界最通用的语言中,英语的重要性已经被大家所深切理解。目前,有100多个国家把英语作为第一外语进行教学,这是英语的优势所在。根据 EF英孚教育发布的2015年英语熟练程度指数报告,每年中国人花费千亿元用于英语培训,但实际效果仍不尽如人意,在世界上70个国家和地区中,内地排名47位。尽管英语水平还处于较低的水平,但近几年出现了明显的增长趋势。根据中国社会调查局发布的中国居民消费调查报告显示,中国已经成为世界上英语培训发展最快的国家之一,每年增长12%。面对如此广阔的英语培训市场,英语离线培训面临师资短缺、口语水平参差不齐、“增鸭式”和“应试式”教学等诸多矛盾,难以有效提高口语听力水平。

此外,中文拼音与英语音标的发音方法及位置也有差异,但许多中国学生刚接触英语时,习惯于以熟悉的中文拼音来标注、记忆英语单词的发音。长期以来,中国学生普遍害羞,上课时口语训练时间不足,课后口语练习得不到反馈,以及许多英语教师的发音不标准等都是导致中国学生发音不标准的主要原因。一直以来,发音都是中国学生学习英语的一大难题,有很多人为了纠正发音,付了很高的学费,要求外国老师纠正自己的发音。手机在线语言学习的兴起,催生了 AI语音评价的出现,推动了 AI纠音技术的发展。

尽管现在市场上有很多在线英语学习软件,但大部分学习材料都是简单的音视频播放,学生跟读,系统录制。只有几款软件具有评分评分功能,而且评分的准确性,一直被学生诟病。所以市场迫切需要提供高可靠性的评分评分技术。

图1当前市场上的相关产品

此外,除了提供高度可靠的评分技巧外,学生还迫切需要针对发音诊断的具体反馈建议。由于简单的评分技巧,只能说明学生的发音不够好,而学生却不明白自己的发音错误在哪里,以及应该如何改进发音。例如,将读错的单词标红,需要对原声进行反复对比,以分析错误的细节,这一点可以在明显的读错时实现,例如: steak/steik/,而读错是/sti: k/。

但是下面的例子很难,尤其是对于不熟悉英语拼读和发音规则,语法的学习者。

(1) records/' reklands/' rek lands/读错/' rek lands/。

如 the apple/hi/,读错的是(the在辅音前发/hi/,元音前发/hi/)/hi/。

长度音在 book/b. k/等长度音中,读错为/bu. k/; Lily/' l. li:/,读错为/' li: li: li: li:/。

在反复练习过程中,如果不能及时发现具体的错误细节,就会影响学习的效率和兴趣,甚至导致重复发音,产生错误肌肉记忆。在学术研究中,这一问题被称为“误读检测与诊断”。为解决这一问题,十多年来,世界上众多顶尖的研究机构投入了大量的人力、物力,其中最有影响的就是香港中文大学、清华大学、台湾大学、美国麻省理工大学、新加坡信息与通信研究院、微软亚洲研究院、 IBM等。

多任务学习的声学音位模型。

错音检测与诊断的难点在于,它们与一般的语音识别技术不同,对训练模型和训练数据的要求更高,而且不同母语的人学习英语时容易出现不同的错误。所以收集了大量以中文为母语的人群的英文录音,并请专业人员手工标注数据。伴随着深度学习的发展,以及多年的技术积累,李坤博士等声希科技人员在这方面取得了重大突破,采用深度神经网络预测声学特征和标准发音,输出后验概率(见图2)。不但可以实现对误读的检错与诊断,还可以实现对重音、语调、流利度等进行评价(见图3)。

图3发音、重音、检错和纠错的技巧展示

在语音评价技术上的突破,使 AI系统可以成为个性化的语音教师。在系统了解了学生的具体错误后,可以自动匹配相应的教学内容和练习题目,达到更加精确的自适应推荐。如能推广使用新技术,将极大地改善中国学生的语音状况,尤其是解决农村乡镇地区的教育资源和语言环境问题。

此外,随着中国国际地位的提高,尤其是“一带一路”的推进,越来越多的外国人开始学习汉语,资料显示,全球学习汉语的外国人已超过1亿人。然而,中文发音是中文学习中的一个重要难题,新的发音评价技术能够针对中文发音错误的特点,采用可靠的自动发音评价方法及时准确地纠正发音错误,可大大提高中文语音辅助教学系统的教学效果。

声音转换

伴随着语音信号处理技术(包括语音识别和语音合成)的发展,语音已经成为人机交互中最自然、最便捷的一种方式。声音不仅能传达信息,还能传达说话者的情感、态度和个性。在这一点上,说话者的个性在我们的日常沟通中起着重要作用,它使我们可以通过电话、电台、电影等媒介来区分说话者。此外,智能语音助手也越来越受欢迎,如 Apple Siri, Microsoft Cortana, Amazon Alexa。大部分人对语音助手的音色有强烈的偏好,所以产生具有特殊音色的语音在人机交互领域具有重要意义。

图4语音转换图解

上面的场景可以归结为语音转换(Voice Conversion)的问题,目标是修改非目标说话人Non-target (NT) Speaker的语音音色,让它听起来与目标说话人 Target (T) Speaker的语音一样,但同时保持说话人T- Content的内容不变(见图4)。

深度学习是人工智能领域划时代的革命性技术,深度学习的应用极大地促进了语音合成的自然度和流畅度。2016年 Google Deepmind推出的 Wavenet模型,使语音合成领域的自然度提高了50%。2017的 YoshuaBengio等提出了一种端对端合成模型,使模型能够直接从文本生成语音,而无需前端预处理。2013年,康世胤等在国内利用深度信任网(DeepBelief Networks)进行语音合成,这是业内最早的一次。2017百度研究院提出的 DeepVoice模型改善了语音合成的速度,实验表明该模型可用于实时语音合成。

1988年, Abe等学者首次尝试了语音转换技术。1988至2013年间,大多数算法都是基于 CodebookMapping, Frequency Warping, Unit Selection, Gaussian Models的。自2013年起,深度学习已应用于语音转换, Nakashika等人使用了深度神经网络(Deep Neural Networks)等技术,在高维空间将非目标说话人语音映射到目标说话人语音。尽管语音转换技术比以前有了很大的提高,但在语音自然度和音色相似性方面还有很大的改进空间,而且在实用性方面也不够完善,例如只能支持将一个人从一个特定的人转换为一个特定的目标人(一转一),以及需要严格的数据条件,需要目标人上千句的语音数据。

图5深度循环神经网络(DBLSTM-RNN)图解

声希科技联合创始人孙立发博士团队等在2015年,利用深度循环神经网络(DBLSTM-RNN)来提高转换语音的自然属性和流畅性(如图5所示),传统深度神经网络的 DNN只能映射单个帧到单个帧之间的关系,而忽略了语音连续信号帧之间的相关性,DBLSTM-RNN很好地解决了这一问题,从而提高自然属性和流畅性。

图6.非平行语句的多对一语音转换框架

孙立发博士等在2016年通过从语音识别模型中提取后验概率(如图6所示)对非目标说话者和目标说话者进行映射,可以实现多对一转换,减少对训练数据的需求,大大提高了语音转换技术的实用性。话音变换有广泛的用途:

A.个性化语音合成。结合语音转换技术和已有的语音合成系统,产生用户需要的音色。

计算机辅助语言学习过程中的个性化语音反馈。现有语言学习者学习时所参考的标准发音都是统一录音,而语音转换系统能合成标准发音与使用者自身音色相比较,帮助使用者跟读。

三、机器翻译。计算机翻译技术能把一句话从一种语言翻译成另一种语言,语音转换技术能帮助机器翻译,使翻译后的语音仍然保持说话人的音色。

四是语言障碍患者的个性化辅助治疗。言语障碍是中风、帕金森病等常见的后遗症。言语障碍可影响患者的日常沟通、个体化及情感表达。语言转换技术结合语言合成技术能够帮助病人进行正常的语言交流,并恢复自己声音的音色。

(5)娱乐区域。可能的应用领域包括电影电视、游戏、导航等方面。

火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代


语法检查-微软实验结果表明,智能语法纠错模型已达到人的水平