智能写作-智能写作能给新媒体内容创作带来什么价值?

编辑:果妹        日期:2020-08-14

1月20日,百度脑与数据风联合清华经济管理企业家加速器与act实验室举办技术沙龙。百度高级研发工程师王凡、百度首席研发架构师彭卫华应邀与百度高级研发工程师付志宏分享“百度自然语言处理与知识图谱技术应用实践”。让我们回顾一下彭卫华先生的《智能写作:人工智能为媒体内容创作赋能》分享!百度知识地图致力于打造一个好的中文知识地图,收集知识,连接一切。通过知识映射现实世界和解决世界,复杂的世界变得简单。彭卫华,百度首席研发架构师。毕业于哈尔滨工业,是百度知识地图部研发架构师。目前负责复杂知识地图、行业知识地图、智能写作等知识建构和认知方向的研发。擅长搜索推荐算法、机器学习、自然语言处理等技术,具有9年以上相关行业实践经验。百度知识地图致力于打造一个好的中文知识地图,收集知识,连接一切。通过知识映射现实世界和解决世界,复杂的世界变得简单。今天,我主要分享知识地图系智能写作的相关研究工作和应用实践。近年来,国内外各科技公司、媒体公司纷纷安排智能写作,如国外美联社、国内新华社、科技公司bat等。为什么智能写作如此受欢迎,它能给媒体内容创作带来什么价值?让我们一起分享吧。随着科学技术的发展,人工智能已经进入认知阶段。人工智能不仅是一种算法、平台和解决方案,更是一种生态和生产力,可以促进传统产业的转型。从最初的计算智能,到后来的感知智能(人脸识别、语音识别),再到目前对认知智能的探索,都有了长足的发展。然而,机器不能像人类一样理解和思考,也不能凭空创造新的知识。目前,我们正处于人工智能的薄弱阶段。尽管如此,人工智能已经显示出它强大的生产力,涉及到我们生活的所有场景,包括智能搜索、智能推荐、智能医疗等,包括我今天要介绍的智能写作。作品的构思和表达分为三个阶段。它关注的是权威的机构媒体,这是自媒体的一种独特风格,也饱受创作效率的困扰。受选题、写作过程中的敏感词、打字错误等因素的限制,创作内容的成本一直居高不下。在自媒体领域,由于消费者关注的马太效应,一些自媒体作者为了摆脱热点而追求利润,导致了中长尾内容的缺失。比如,一些创作者利用文章的图片直接搜索百度图片并粘贴到文章中。这种创作效率极低消费者的马太效应对整个内容中长尾的生态影响很大。从长远来看,它损害了内容和流量的生态价值。从内容价值的角度,可以简单地理解为:1。内容本身的价值(质量、深度等);2。有价值的组织形式(专题、脉络、知识图谱等)。智能分发内容(个性化、场景化)。对于这三种情况,智能写作可以发挥作用。在创建过程中,可以提高效率;在组织过程中,可以实现组织的自动化;在智能分发中,可以应用动态内容生成技术,使用户对分布式内容感兴趣。目前,智能写作与人类有着很大的差距。人类善于写长而感性的文章,写高质量、个性化的文章。智能写作在信息和数据的处理中起着重要作用,可以进一步提高文章的聚合效率和及时性。智能写作可以通过人机合作的方式,将智能的效率优势与人工的创造力和深度有效地结合起来,减少繁琐的人工和机械劳动,不断补充和优化内容生态。从技术布局的角度,主要分为基础技术和智能写作两部分。其中,语言理解与生成、素材清理与检索、知识认知与主题挖掘等基础技术需要质量控制来保证。语言技术是核心,它超越了非文本数据,是多模式理解和多模式生成的技术。智能书写部分主要包括自动书写和辅助书写。前者主要用于数据写作和聚合写作,后者主要体现在创造性激发、素材推荐和质量评价等场景中。它可以自动登录并编写各种商业地图。根据文章的类型,它可以分为两类:新闻快讯和聚合。此外,它还包括一些科普和视频转录内容。从写作过程来看,第一是写作的触发,第二是文章的生成,是质量的控制,最后是文章的发布。它从编写触发器开始,包括热点发现、话题分析、观点分析等,生成满足用户需求的文章。本文共分为三个部分:1。宏观规划包括材料组织和文本结构规划。微观规划包括词汇选择和句子结构规划。表面实现,包括文本生成和装饰。材料的组织依赖于知识驱动的主题联想,文本生成依赖于自然语言生成。结合通用知识地图和行业知识地图,以及包含事件等因素的复杂知识地图,完成了文本到文本、数据到文本、多模式文本的文章生成。在讨论关键技术之前,我们首先讨论了知识地图的定义。总之,知识地图就是对知识的收集、整理和加工。它们是一个基于语义的链接和一个复杂的知识语义网络。事件地图与传统的知识地图完全不同。它不断地、动态地获取客观世界中的事件,丰富事件属性,建立事件之间的关系,从而形成以事件为基本单位的知识网络。目前,百度知识地图数据包括上千个实体和数千个事实。它由专家权威、百科全书实体、垂直类别挖掘和全网络属性挖掘组成。它在二级赛事中达到了很高的及时性。它在智能写作中起着关键作用,贯穿于智能写作的全过程。以下是主题挖掘的简要介绍。主题挖掘是提取用户需要并适合机器写作的主题。首先,通过知识映射,从微博、提要内容等资源中提取并匹配热点事件和概念,判断是否适合机器写作,过滤掉分散的、广泛的de主题;de主题包括非个性化和个性化的de主题,个性化主题通过用户肖像。第二部分主要介绍了材料组织。以及融写作为例,传统的写作方法是挖掘写作主题和相关关键词。通过查找相关资料,人工模板中嵌入的文章往往分散、不合逻辑、漂浮在浅层。在我们的事件中,我们在知识地图的驱动下,通过事件触发器匹配金融、市场、板块等领域的数据,进一步整合理论知识和权威评论,考虑一些归纳分析方法,最终得到材料的相关性和组织形式。第三个关键技术是文本生成。文本生成的关键技术是自然语言生成(NLP)和知识地图(kg)自然语言理解和自然语言生成是自然语言处理的两个主要方向。NLP主要包括text2text、data2text和multimode to text。其知识地图作为先验知识生成关联。从手工方案来看,主要有两种手工规则和模板。在机器学习方法方面,深度学习方向主要包括:seq2seq、DRL、VAE、Gan等相关技术,非深度学习技术方向包括排序、基于语法、规则/模板学习、概率图模型等,下面介绍文本生成的相关技术,主要以text2text的形式出现。首先从实体图、事件图、文本和评论集等数据源中获取文本集,通过文本生成和摘要算法得到相应的文章。基于seq2seq很难生成高质量的长摘要、短句和标题。并通过摘要方法生成相关的简短摘要内容。可以看出,seq2seq主要依赖于两个步骤:编码器和解码器。序列的表示贯穿其中。学习这种表征的方法称为表征学习。近年来,表征学习发展迅速。与早期的word2vec模型相比,它能有效地计算词与词之间的语义相似度和bag模型中缺失词的相关性;CNN模型不能通过局部建模词与词之间的依赖来解决远程依赖问题,因此RNN模型和支持LSTM和Gru的方法应运而生。去年的重大成果Elmo提出了解决多义问题,突破word2vec单一嵌入的局限性。然而,基于RNN的方法的并行性还不够,各种基于RNN的改进方案不能显示出与人类相似的注意感知机制。变压器法和GPT模型诞生,并考虑了单向学习。最后的合成器是Bert模型。结合前人的一些创新和改进,得到了计算复杂度较高的最佳表示学习模型。下面是我们正在探索的摘要生成方法。在seq2seq+注意模型的基础上,引入指针网络机制,构造了一种新的文本摘要模型。该模型从源文本中选择并复制单词,保留了从固定词汇集中生成单词的能力,抑制了重复单词对丢失的影响,取得了良好的效果。描述如何从事件上下文生成聚合项目。根据嫦娥四号的发射时间,从事件地图中提取相关的时间点和事件,生成相应的事件上下文。通过文本规划和自动文摘,生成相关的聚合文章,为娱乐明星的新闻生成服务。稍后介绍data2text方法。该方法主要基于模板法。首先,通过学习已有信息的文本组织形式,采用bootstrap算法自动生成相关模板,手工修改模板,设置触发条件。录入新数据时,根据模板生成相应的文章。介绍了一种多模式文本生成方法。主要依靠知识地图和视频理解技术,通过视频分析,可以从标题、关键帧、字幕等数据源得到相应的多模式实体分析。知识地图用于关联和推理相关词汇。一般来说,内容生成技术主要考虑两个方面:多模式理解和跨语言内容生成。多模态包括多种数据到文本的技术,包括视频、图片、数据等。跨语言的内容主要包括跨语言翻译的各种生成技术。目前,中长尾内容在自动写作中的比重提高了2倍多。发表论文1万篇,阅读图书1亿册。日均产量1000篇,涉及10个技术领域,达数百万个数量级。阅读完成率低于手工作业。辅助写作主要指智能写作技术的输出,它使内容创作者能够提高写作的效率和质量。在百佳等媒体推出。与智能写作不同,它关注的是人们在完成写作的相关步骤时的合作。辅助写作的主要功能有:1。写作前:主题挖掘(热点发现、观点提取等)、素材组织(专题分析、知识关联等)。书面形式:数据查询(图片关联、观点检索等)、内容关联(专题分析、知识关联等);写作后,三项:自动覆盖、内容、智能重写、质量水平测试。与自动写作不同,人们愿意创造深刻的文章第一个关键技术是主题挖掘。长尾用于发现新主题和提取相关主题。通过对实体的注意面分析,得到用户对实体的注意,从而生成与实体相关的关系和感兴趣的话题。然后,通过主题生成、稀缺性判断和领域分类,得到用户感兴趣的主题,并最终推出相关主题。第二部分是智能页面质量检测的关键技术。这里没有技术介绍来通过应用程序中的各种技巧来提高作者的写作体验。在话题推荐方面,基于全网热点挖掘,每天发现上千个热点事件,覆盖20+个领域,并准实时发现热点。基于对热点事件和知识地图的理解和扩展能力,从多个角度挖掘主题,每天添加数千个主题。每天90%以上的推荐主题被创作者采纳。以下是对智能写作挑战的简要介绍。它包括以下六点:1。文本生成的连贯性:如何帮助检测平滑度。真实性:如何保证信息的真实性、来源的真实性、生成过程的逻辑性。在写作过程中,提高写作质量有两种途径:一是利用反馈渠道;二是评价写作情感质量;二是保证写作质量。目前,智能写作的价值主要体现在解决媒体内容创作的痛点,改善内容生态,提升内容价值。在技术布局上,智能写作的基础技术主要依靠语言和知识;通过对材料、主题和质量的控制,保证智能写作的顺利进行;智能写作的应用技术主要体现在自动写作和辅助写作两个方面。前者擅长写表达性和聚合性文章,而深层次的文章生成仍面临巨大挑战,后者提高了作者的写作效率和质量,得到了广泛的应用。展望:在后续的展望过程中,希望继续培育智能写作技术,深化对内容产业的影响,向全行业自媒体和机构媒体辐射。我们不仅要了解内容、写出内容,还要考虑创作者和用户的需求,使智能写作自动化、智能化,让智能写作无处不在。

火龙果智能写作是全球第一款中英双语语法校对产品,运用人工智能技术进行错别字文本校对,除错别字以外,还可以对语法、标点等进行校对。

火龙果智能写作官网 https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代

校对-智能写作的文章质量如何?