智能写作-智能写作机器人:不抢人类饭碗,我们只想人机协作
编辑:pitaya02 日期:2020-09-23
2016年,百度在内容生态领域取得了突破性的进展,借助人工智能(AI)、自然语言处理(NLP)、深度学习(Deep Learning)等技术以及百万级用户标签,推出了个性化信息流,同时,百度战略级产品“百家号”预计在2017年将对内容生产商进行分成100亿,以此鼓励个人和机构参与内容创作。火龙果智能写作
而且,在众多内容生产者中,有一个特殊的「作者」特别引人注目——百度智能写作机器人(Writing-bots),它于去年上线。据悉,目前百度智能写作文章可以覆盖社会、金融、娱乐等15个大类,并可实现体育新闻、热点新闻等多个领域的全机器写作。
图1:百度智能写作机器人文章的例子
并且从目前写的文章来看,百度智能写作机器人已经具备了相当的语言组织、语法和逻辑处理能力,甚至能用专业术语熟练地分析新闻事件,写作质量几乎可以接近人类水平。
那百度的智能写作机器人到底怎么写?机器人写作将来会取代人类吗?出于对这个“神秘作者”的好奇,我们和百度智能机器写作小组进行了一次对话,试图揭开机器人写作的秘密。
为什么会想到让机器人来写作呢?开发研制的百度智能书写机器人背景如何?
回答:2016年,百度建立了「搜索+信息流」的双向智能匹配的信息分发2.0模式,由于资讯流产品和百家号的迅速发展,用户对资讯阅读的需求也有了较大的增长,同时,我们发现,有些用户感兴趣的内容,如彩票、股票、旅游等话题,却很少有资讯文章涉及,因而存在着大量的资源短缺,因此我们希望结合百度的自然语言处理、大数据分析、人工智能等技术优势,聚集全网信息和优质资源,快速生成满足用户需求的资讯文章,实现用户兴趣点的快速(分钟级)、高覆盖(中长尾)满足、资讯内容的深度定制及个性化推荐,从而促进内容生态内部的生态自建。火龙果智能写作
现在百度的智能写作机器人能写出什么样的文章呢?能否实现原创?
回答:目前我们的智能写作机器人主要输出三种类型的文章:信息类、知识类和信息聚合类。快速消息类,如比赛信息、股讯快报等,要求较高的时效性,需要即时生成文章的结果。知识性文章以科普为主,如教育(诗歌、历史知识)、生活(菜谱、保健知识)、旅游等。知识型文章的数据内容主要来源于百度知识库和全网优质资源,通过组织对优质数据资源的聚集和推理,为用户提供更丰富的知识和信息。信息聚合类则是基于全网实时的信息数据,根据用户的关注点,生成用户感兴趣的、以主题为中心的信息文章,例如某一部电影的热映,我们将对该电影的主角、前一部作品等信息做一些扩充和盘点;对于热点事件,我们将对事件的发展过程和关键信息进行分析汇总,形成事件脉络,方便用户全面了解事件等。这种文章是基于已有的信息,重新智能地聚集产生新的文章。
就技术方案而言,主要分为两类:
一个是直接基于结构化数据、知识库或高质量资源产生的文章。简讯和大多数知识性文章都以这种技术方案为基础。这种文章由于直接由数据通过分析进行聚合或知识推理而产生的原稿,可以说是原创的。另外一类是基于现有稿件通过内容分析进行聚合而产生的新文章。本文以主题盘点、事件脉络、热点要闻回顾等为主要内容,对本文进行了梳理。由于是在现有稿件内容的基础上创作的新稿件,所以可视为二次创作。自然地,我们也可以将上述两种技巧结合起来,在文章生成时进行混合创作。
Q 3.百度智能写作是如何技术实现的,有哪些基本的写作流程?
回答:我们整个写作过程都是在大数据分析、内容理解和自然语言生成技术的基础上进行的,基本的写作流程主要分为数据收集、数据分析、自动撰写、审核发布等。在核心流程的“自动撰写”部分中,通常还包括文档规划(document planning)、微观规划(micro-planning)和表层实现(surface realization)三个阶段,分别用来解决稿件撰写过程中的撰写内容、撰写方式和渲染方式。例如文件计划,需要决定写什么,用什么结构来写,而微观计划则更为细致,具体地要决定如何写每一段,每一句话,每一个标题,以及内部结构,等等。表层生成,则是对整个文章进行润饰和重写,例如,如何调整文章格式,配图等等。
图2:百度的智能文章生成系统
Q 4.百度智能写作的特点和优势是什么?具体使用情况怎么样?
回答:目前媒体报道的写作机器人主要是针对体育、金融等特定领域的,我们智能类的文章类型比较多,涵盖的范围比较广,而且可以实现个性化推荐和订阅。从整体上看,真实的用户需求、大量的数据资源、先进的技术积累、产品应用的回馈迭代,构成了百度智能写作的独特价值和优势。火龙果智能写作
本文的类型和主题都是根据用户和产品的实际需要而设计的。在分析信息流产品内容分布和用户兴趣点分布的基础上,我们确定了三种文章类型:速报类、知识类和信息聚合类,分别用来改进满足产品问题的三种需求:高时效性需求、中长尾需求和有效获取热点话题信息需求。对于特定主题的选择,我们根据用户兴趣点的分布对话题覆盖进行排序。现在百度写的文章已经涵盖了电影,美食,旅游,汽车,创业,房地产等50多个主题,涉及了社会,金融,娱乐15个领域。火龙果智能写作
百度积累的数据资源和人工智能技术为智能机器写作的研发提供了强有力的支持。
从数据方面来看,除了海量的全网优质数据外,百度也拥有大量的自建高质量数据,包括百度阿拉丁(开放优质资源平台)、百度知道、百度百科、知识图谱等,它们不仅能够生成基于结构化数据的文章,而且能够生成基于内容聚合方式的文章。体育比赛、彩票、股票信息、恶劣天气预警等百度阿拉丁时效性结构化数据,是速报类文章生成的数据基础。在知识类文章生成中,百度百科、百度知道和知识图谱是重要数据来源。例如,在百度百科中,城市百科包含了大部分城市的景点、美食、文化排行榜数据,将这些数据和相应的景点、美食的描述数据结合起来,就能生成城市旅游、美食、文化的简介文章。而基于海量用户行为日志数据,能够准确捕捉对这些内容感兴趣的用户,从而实现个性化推荐并满足生成内容的需求。
从技术层面看,百度在内容理解、语言生成、知识推理、机器学习等方面的技术积累是智能机器写作的重要技术基础。例如,信息聚合体文章的生成:首先,信息聚合体文章的主题选择和信息内容获取基于内容理解和用户理解技术;运用百度自建的关注点地图(主题、实体、事件标签、标签之间的关系)和标签预测技术,对每一条信息内容进行标签化标注,同时基于用户的搜索或阅读行为,获取用户的关注点标签,即用户的兴趣点。从而获取用户感兴趣的主题,同时根据内容标签获取相关主题的信息内容。基于内容理解与生成技术对同一篇文章的内容进行压缩与聚合,其中涉及到的技术有:事件分析、话题聚类、事件脉络提取、自动摘要、标题生成、结构生成等,其中机器学习和知识推理是基本的实现方法。图3展示了用事件线索产生的文章作为例子,来编写聚合类文章的主要技巧。可见,百度深厚的技术积累为智能机器写作提供了强有力的技术支持。
图3事件背景文章生成的主要技术
现在,我们的智能写作机器人已经累计在百家号和百度信息流产品中发表近万篇文章,阅读量超过千万。图片4是智能机器人撰写的新闻实例,包括一般领域新闻、生活新闻、体育新闻等等。通过对产品的应用,我们可以积累更多的数据和用户的反馈,不断实现技术的更新换代。
图例四:百度的智能机器人写作应用
Q 5.智能写作技术的最大难点在哪里?今后百度是否会尝试撰写深度文章?
回答:作者在写文章时,通常会对资料、内容和主题有一个深刻的理解,并能进行推演、推理和联想,因此能完成更深入的报道,充分地表达自己的观点和立场。与之相比,机器的写作时间更长,数据分析和规范更多,在自然语言的深度理解上,以及让稿件拥有自己的观点和立场,都有很大的提升空间。
对于深度文章的写作,我们也进行了一些探索与尝试,如情感分析等研究,力求使机器写作与人更接近,甚至希望有一天它能有自己的立场与视角,更人性化。但是现在,我们的智能写作机器人将更加关注用户需求,注重数据分析和客观文章的撰写,致力于帮助内容创建者减少重复劳动,节省更多精力写出更有深度的内容。
Q 6.百度智能写作机器人的团队组成是什么?
我们的智能机器写作研发团队成员分别来自百度阿拉丁团队, NLP团队,知识图谱团队,因特网数据研发团队,质量保证团队等不同的部门。研究开发初期主要是通过小规模数据样本和简单人工处理来实现技术探索和原型设计,随着技术的进步和用户需求的增长,多个团队如产品、技术、资源、平台等展开合作,着手开发更成熟的产品落地。
Q 7.在内容创业迎来新风口的当下,百度推出战略级产品百家号,并以百亿分成激励内容原创,如何看待智能写作机器人与内容生产者的关系?下一步百度智能写作的发展目标是什么?
回答:我们认为,智能写作机器人与内容生产者的关系主要有两层:一是「取代」,用机器取代了作者重复、规范的写作和客观数据聚合类劳动,使作者能更好地从事深度文章的创作。另一种是「服务」,人工智能可以协助深度文章作者撰写大量的数据,对语料、素材进行高效的收集和初步处理,还可以根据行业的深度结构化数据,完成基础数据分析和文章生成,为内容生产者提供服务,提高其写作效率。同时也是我们未来智能化写作的发展目标——人机混合编辑。
Q 8.百度的智能书写机器人和人类有什么不同?将来会完全取代人类吗?
回答:智能写作机器人与人类相比,可说是各不相同,智能写作首先一定是速度快,能在短时间内收集大量的数据和信息完成创作,其次具有很强的数据分析、收集能力。人们每天阅读一百篇文章的次数很多,但机器却可以不厌其烦地学习,随时随地收集和制作内容。虽然人类写作相对于机器来说,花费的时间更长,成本更高,但是人们可以将一件事演绎、联想起来,从更丰富的层面上去创作,表达自己的观点和立场,因此对于深度写作来说,具有不可替代的优势,所以在可预见的将来,机器完全取代人类的可能性很小,而智能写作机器人对于能深入挖掘文章内容,拥有独立见解的内容创作者来说,它不但不会成为「抢饭碗」的替代者,反而成了帮助创作者制作优质内容的贴心助手。
创业总部
公司成立于2013年,由北大校友、联想之星创业联盟成员企业发起,致力于实验室技术投资与孵化,是科技成果转化的第一站,专业投资孵化高校、科研机构的前沿技术与技术精英,提供早期投资、产业链业务对接、办公场所等服务,帮助技术项目与大企业建立业务合作关系,同时将前沿技术引入大企业,促进大企业转型升级。是中关村创新孵化器、国家级众创空间。主要投资孵化领域有:人工智能,新材料,医疗保健,消费升级等。到2017年1月,共有275个通过审核进入孵企业,122个获得投资,总投资额为11.3亿元人民币,单个项目获得最高融资2.3亿元人民币,其中,创客总部投资50个项目。
火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。
火龙果智能写作官网https://www.mypitaya.com
积极拥抱变化,才能更好的应对这个时代