语法检查-智能写作工具的类型
编辑:果妹 日期:2020-08-25
AI (AI)内容生成或辅助内容生产这件事,目前有几种典型的场景应用类型,即生成文章、内容创作辅助工具、生成短文、写诗、写摘要等,目前市场上已有不少相关领域的公司,从不同角度进行探索,并取得了一定成绩。
当前机器人写作领域的主要商业模式
根据当前机器人写作输出的内容角度,可以分为以下几类:
一、简讯,报导,速报,报导。
使用模板+算法+数据,合并起来生成文本内容。这种类型的创作是基于数据类文本内容,如目前应用最多的财经、体育、新闻资讯、金融商务等领域,当然在机器人写完后,人工会进行操作处理和完善,才会发布给大众。现在这种产品在市场上比较多。
二是故事和连续语义的创造,例如恐怖故事 Shelly (MIT媒体实验室), openAI文本生成器,以及各种网文小说生成器,这些生成器都可以在搜索引擎中找到。
三是文本生成,如写诗写对联,摄影写诗,文摘生成,客服会话语言文本生成等短文生成,目前一些信息流类产品,他的标题就是个性化地用短文生成,一些电商平台也在用短文生成引文标题。
四是写作类辅助写作,目前也有不少,典型的写作助理,文章查重,标题生成,摘要自动生成,自动更正,语料及参考提示等。
五、其实目前很有“建树”的领域是,洗稿、盗版别人的内容,生成低质垃圾内容的搜索引擎、推荐引擎里混杂着流量,就是你经常在某网站或某网站看到的那种,标题或图狂吸引人,其实内容渣渣的大部分都是这样。
大企业产品及其生产能力
Bloomberg的 Cyborg写作机器人撰写金融、通讯类文章,快速提取商业金融新闻领域(business financial journalism)的数据信息,帮助信息发布者或处于竞争环境中的消费者及时获得相关信息,在商业竞争中为对冲基金人工智能提供新鲜的事实 fresh facts。
基于出版商内容管理系统的半自动主题推荐功能,为记者提供了一种粗略的草稿和故事模板,该工具可根据记者先前的记录、工作成果生成写作提示,作为写作的辅助工具,提高写作效率和质量。
Lynx Insights由一家路透社发起,该公司将使用与报道相关的关键数据,例如,帮助记者快速分析大宗商品价格历史走势。
据美联社2014年6月采用 Automated Insights公司开发的机器新闻写作软件 Lou Ferrara介绍,在使用了基于算法的机器新闻写作软件之后,在不增加人手的情况下,美联社商业新闻中关于企业季度运营状况的报道,增加了10多倍,从原来的每季度300篇增至4400篇,产生了14倍的人效增长。
成立于2007年的 Automated Insights (Automated Insights)是一家技术公司,专门提供语言生成软件,为客户和合作伙伴提供大量的通信报告,同时也提供公司财务收益分析。该公司开发的 WordSmith软件能够自己编写一些简单的新闻事件,如体育、金融等新闻信息。美联社报道,雅虎新闻的一大部分都是由这个 WordSmith写的。根据 AutomatedInsights, WordSmith在2013年制作了3亿份各种形式的报告,2014年制作了10亿份新闻。
“The Post”有一个名叫 Heliograf的内部机器人记者,通过对2016年夏季奥运会和2016年美国大选的报道来展示其实用性。
Patch公司的“写作机器人”为它的110名雇员记者和大量自由撰稿人提供帮助,这些撰稿人在美国约800个社区里,尤其是在天气方面。WarrenSanton John,公司的首席执行官说5%-10%的内部容量是由机器产生的。
“腾讯写作机器人”(Dreamwriter)是一种由腾讯财经开发的新闻写作自动化软件, Dreamwriter根据算法在第一时间自动生成稿件,即时输出分析和研究结果,一分钟内为用户提供重要信息和解读。
Writing-bots由百度智能写作机器人输出的文章主要包括速报类、知识类和信息聚合类。快速消息类,如比赛信息、股讯快报等,要求较高的时效性,需要即时生成文章的结果。知识性文章以科普为主,如教育(诗歌、历史知识)、生活(菜谱、保健知识)、旅游等。知识型文章的数据内容主要来源于百度知识库和全网优质资源,通过组织对优质数据资源的聚集和推理,为用户提供更丰富的知识和信息。信息聚合类是基于全网实时的信息数据,根据用户的关注点,生成用户感兴趣的、以主题为中心的信息文章,如某一部电影的热映,我们将对该电影的主角、前一部作品等信息做一些扩充和盘点;对于热点事件,我们将对事件的发展过程和关键信息进行分析汇总,形成事件脉络,方便用户全面了解事件等。这种文章是基于已有的信息,重新智能地聚集产生新的文章。
今天的头条是张小明的 Xiaomingbot,他不仅可以写体育文章,还有金融,地产等等。金融新闻有“小明看金融”,地产是“地产情报站”,各个领域的世界热点有“小明看世界”,这些标题会自动放出一系列内容。2016年里约奥运会期间,“张小明”对乒乓球、网球、羽毛球和女子足球赛进行了6天报道,共产生200多条新闻信息,其中 xiaomingbot能在2秒内生成稿件并发布,24小时不间断生产,产量惊人,大大减少了采编人员的工作量,提高了新闻信息的生产能力。
《第一财经 DT稿王》(背后是阿里巴巴),2016年发布的 DT稿王,其“任职”之路就是通过大量抓取、大量分析,主要针对上市公司公告、财务报表、官方发布、社交平台、证券行情等信息源,每天阅读3000万字,对内容进行精炼输出,将数千字的文章转化为重要概括,大大提高了效率。
「快笔小新」2015年11月7日,新华社推出速写系统,正式投入使用,实现采编业务与技术手段的深度融合,适用于体育赛事、经济行情、证券资讯等速写、简讯类稿件。
《南方都市报》的机器人“小南”,写出了第一篇有关春运车票动态的稿件。小南于2017年1月18日正式“上岗”,由“智媒云图”与北京大学计算机科学与技术研究所联合成立,从事机器书写、文本实体识别、智能摘要、定位分析、智能服务等研究与实践。在机器学习算法、自然语言生成技术和自动摘要技术的基础上,小南以秒为单位将领域知识融合在一起,深入分析数据,挖掘重要信息和事件,并用自然语言表达,得到快速有效的报道。涉及民生,科技,金融,体育,娱乐,消费等领域的写作。完成了自然语言的多域智能理解和自动生成。
一些典型的技术手段
利用深度学习法,机器在阅读大量古诗文对联的基础上,根据我们的 NLP分析结果,通过“平仄”规则自动生成诗文对联。这就导致诗歌有韵律,但缺少内在的精神内核。2017年Q3有一次做过这样的小型产品。
模版生成,机器人根据预设的结构自动捕捉情报信息,成稿速度极快,但却无法分析新闻事件发生的原因和影响。它的基本设置是,人工准备素材,制作模板,设定条件,机器自动生成。其中材料的收集,模板的讨论,创作性的运行条件这些都还需要大量的依靠人力的工作。
xiaomingbot在今天的头条新闻中是通过语法结构和模板生成的实时比赛数据。对图像来说,通过计算机视觉分析图像内容,并与文本进行匹配。三是知识库的建立,如比赛队伍的历史,球员信息等,作为附加信息加入。四是网络上有些即时文字抓取过来的信息,通过机器学习中的排序学习技术选取最重要的内容,融合到文章中。在线实时文字信息其实很复杂,有一些不重要的信息,甚至会夹杂着网友的评论。当产生消息时,我们希望能找到比赛中最重要的部分,比如进球、判罚等等;此外,还需要考虑所选的句子彼此间的相似度要尽可能小,但是包含的信息要尽可能多。利用 DPP算法能有效地发现直播中的焦点信息,并能覆盖最大信息量。
当然还有第三种,就是算法+规则混合,不同的场景路由到不同的策略。根据特定的场景和领域的特定限制,可以确定用于内容生产、处理或输出的方法。
另有第四种,算法也是人工的辅助,在帮人找资料,找图,做对比分析的可视化,建立联系,甚至结构定义,表达错误,优化等方面也能给出建议和参考。
信息内容的机器人写作在特定领域还是有很大价值的,限于技术和算法的实现能力,大部分场景都是人工+规则+算法完成的。
机器书写的一般程序
每篇文本创作类写作流程都是由算法驱动的“自动生成”,分为以下步骤:
获取数据、信息输入等。了解整理关于资料与写作输出有联系的各种资料,并能从各种形式的资料和材料中找到与目标输出有关的资料。它可能是 API,也可能是各种格式的数据,算法,服务。
二是分析数据,分析数据及其内部的关联、关系,并找出合理的数据结构表达方式,归纳出数据和目标输出的表达方式。
第三,建立输出结构,对于不同类型和目标需求的输出,需要在输出结构的定义、输出结果的语义表示等方面进行合理化,当然引入用户画像来实现个性化表达更为合理。在知识图谱的背景框架下,将数据置于输出对象的知识图谱上,而进行语义表示离不开知识图谱的约束和支持。
展示优化、遣词造句、语言修饰、是否装饰着视觉元素等,特别是这几种场景中比较典型的闲聊会话、长文、摘要、短文、通讯报道、故事、视觉图表为主的内容、微博、标题等等。采用的优化方向和方法因应用方式而异。
五是根据内容特性,选择内容发布途径,并自动输出到相应媒体,个性化展示,个性化分发,向用户和消费者传递价值。
机器书写的价值
写出的事实确定性好,错误率较低;
二、生成内容的速度更快,跟踪时间性内容的速度远远超过手工处理,达到极致。生产率提高了,使得新闻事实始终领先于恐惧和谣言。
书写机器人能够通过统计所有数据,最终提供准确可靠的统计信息。与人工智能处理统计样本相比,可信度大大提高。
四是能够解放人的劳动,使人在更多的适合自己的领域发挥价值,提高人的工作效率,使人能够从事更具创造性和挑战性、开拓精神的工作。
个性化的内容制作,让每个人都能看到自己喜欢看的内容,只需要看自己喜欢的风格就可以展示出来。以往的内容生产是为数百万人生产同样的内容产品;而新的出版模式,则是为单个客户,无论是个人还是集体,提供个性化的定制内容产品。
机器人帮助人类发现报道,发现线索,发现有趣的故事。利用机器人学对大量数据和信息进行分析再处理,可以发现许多新奇的角度和线索,发现新闻内容中意想不到的趋势。
第七,尽管机器人可以制造令人信服的捏造图片、视频和声音,但识别欺骗、伪造和恶意攻击的技术却在迅速发展,世界是两面性的,伪造和伪造的识别结果相互关联。
机器写字有什么问题
其中之一是公共和私人数据的访问边界,隐私和服务价值的协调。
数据输入不足,没有
火龙果智能写作是全球第一款中英双语语法校对产品,运用火龙果智能写作写作技术进行错别字文本校对,除错别字以外,还可以对语法、标点等进行校对。
火龙果智能写作官网 https://www.mypitaya.com
积极拥抱变化,才能更好的应对这个时代