在大数据技术飞速发展的时代背景下,数字出版行业通过对人工智能的应用,服务于自身的历史使命与社会价值。在采集环节,数据化挖掘内容快速地提取发现新闻线索,进而对数字出版内容加工制作;在写作环节,可以快速提取核心观点、事件发展趋势、舆论情感导向、分析事件传播路径;在编辑环节,通过多种形式的多媒体学习,为用户提供多介质、立体化、动态化的资源服务;在评论环节,精准化评估阅读者对出版作品的感受,从而达到的良好辨识效果。
人工智能(Artificial Intelligence,简称AI),作为计算机学科的一个重要分支,是由McCarthy于1956年在Dartmouth学会上正式提出的。学术界认为,人工智能是一门研究运用计算机模拟和延伸人脑功能的综合性科学,它假设电脑系统具有人类的知识和行为,并具有学习、推理判断来解决问题、记忆知识和了解人类自然语言的能力。近年来,“人工智能”成为各行业积极探索的方向,2017年7月20日,国务院印发《关于新一代人工智能发展规划的通知》,明确提出把人工智能发展放在国家战略层面系统布局,牢牢把握战略主动。
在数字出版领域,人工智能也带来一系列创新应用,给数字出版的生产、编辑、服务模式带来了全方位的变革,数字出版变革的领域不仅包括书籍、杂志、报纸等传统出版物的网络版,还包括网络新闻、各网站的网络服务信息等内容。未来,这些变革将会持续发酵,尽快了解这些新技术、顺应新技术的发展趋势,在思维与模式上创新应用,是数字出版领域赢取未来的保障。本文从“采、写、编、评”四个环节来探讨人工智能在数字出版行业的具体应用。
采集环节:数据化挖掘内容
传统的新闻出版内容生产,需要从业者深入现场实地调查寻找内容。在这个过程中,从业者需要发挥主观能动性自主甄别信息的传播价值及真伪,这就导致出版内容的生产耗费时间长,并且内容的真实客观性很难保证。在大数据时代,“人工智能”通过网络爬虫,获得实时的消息和信息,然后进行内容特征词的抽取计算,快速地提取发现新闻线索,再通过多渠道验证和排重等方式来排除无效内容和判断消息的真伪性,进而快速准确地对数字出版内容进行加工和制作,减少了出版从业者前往现场获取线索需要消耗的时间,提升了出版内容生产的时效性,从而越来越站在数字出版行业的前台。
在国外,机器人编辑已经可以进行数据化信息挖掘,《卫报》、《纽约时报》、路透社等已经在新闻编辑流程中进行了一些尝试,难度、深浅不一。
例如《纽时时报》数字部门的科学团队研发机器人Blossomblot的初衷是为了解决一个问题:在《纽约时报》一天推送的300篇文章中,哪些真正适合推荐到社交媒体网站?Blossomblot通过对社交平台上推送的海量文章进行大数据分析,能够预测哪些内容更具有社交推广效应,并帮编辑挑选出适合推送的文章和内容,通过机器学习甚至可以独立制定标题、摘要文案、配图等。虚拟编辑Blossomblot上线后,《纽约时报》内部统计数据显示,经过Blossomblot筛选后自动推荐的文章的点击量是普通文章的38倍。
在国内,2015年底科大讯飞股份有限公司研发明语音识别技术,让计算机能够“听懂”人类的语言,提取语音中的文字信息,即时迅捷地将语音信息转化为文字信息,其具有领先的准确率、方便快捷的信息沟通、人性化的语音服务、个性的语音识别等四个方面优势,从而大大地提高了采访资料整理的效率。
2017年3月21日,微软小冰正式以“互联网大数据播报员”的身份,出现在东方卫视融媒体新闻直播节目《小冰摇摇吧》中。《小冰摇摇吧》是历史上首档全程以人工智能为主线,并以人工智能命名的新闻栏目。在节目中,微软小冰利用大数据梳理热点话题,收集筛选网友评论、通过线上视频采访网友、全程与人类主持人搭档互动。截至2017年5月,该栏目已经播出50余期,微软小冰已为栏目筛查分析网络热点新闻话题数十万条,并获得与人类专业主持人同等的出镜时长。
写作环节:可视化呈现内容
传统的作品创作方式是纯粹靠采编人员以人工的方式去进行稿件创作,记者需要自己去寻找素材、数据、相关资料等,然后手工码字写稿。以这种方式进行稿件创作存在着效率低、出错率高等问题。而随着人工智能在语言文字写作方面的技术日益成熟,其在数据处理能力和写作速度上的优势是传统算法技术所无法比拟的,通过对相关数据库所需数据的自动化采集、处理和分析,经过人工智能算法把数据内容产品化,即时输出准确、客观的信息产品。在对资料数据进行分析后,人工智能可通过分词法和语义理解来进行基本的情感分析,进而进行数字出版角度的选择,可以快速提取核心观点、事件发展趋势、舆论情感导向、分析事件传播路径,让读者快速了解整个事件的来龙去脉。需要强调的是“机器人写稿”并不是取代记者和编辑,而是解放了劳动力,让写作者将精力集中于社会更深层级的思考、对情感诉求的挖掘,作品创作过程中的人文价值思考是人比机器更有核心竞争力之处。
目前,“机器人写稿”可视为“人工智能+传媒”的初步应用。关于“机器人写稿”的尝试,在国外,美联社、路透社等传媒机构在财经报道、体育评论、灾难报道等领域早已开始应用。
以美联社为例,2016年,他们开发了一个把文字新闻自动传换成广播的程序。虽然美联社目前还没有对此程式进行过实际演练和质量控制试验,但可以肯定的是,这个程式己经可以识别一些篇幅短、语句偏简洁的条目。因此,文字新闻与广播格式新闻的自动无缝转换将是人工智能在新闻产业的发展趋势。
同年,在里约奥运上,《华盛顿邮报》也派出了机器人团队进行赛事报道。写稿机器人Heliograf从体育数据公司Stats.com和美联社获取奥运会的最新信息,并自动组成短消息作为即时新闻发布,比如奥运会的积分榜、奖牌榜以及其他以数字为核心的报道。
在国内,同样有不少传媒机构开始尝试“机器人写稿”。在财经领域,腾讯等互联网公司也自行开发了Dreamwriter软件来批量撰写财经类新闻报道,并已能根据不同受众群体生成差异化的风格和版本,由此引发了人工智能将代替记者的讨论。在新闻媒体领域,2017年8月8日晚,四川阿坝州九寨沟县发生7.0级地震,“中国地震台网”公众号随即发布了由机器人用时25秒自动编写的消息,这则消息共540字配发4张图片介绍了速报参数、震中地形、人口热力、周边村镇、历史地震等大众普遍关注的内容。
在音乐和视觉艺术领域,人工智能介入自然人的创作行为也早已出现,在人的指导下,谷歌提供的人工智能设备DeepDream所生成的绘画已拍卖成功。与此同时,计算机游戏软件在人工智能的帮助下,也能自行生成全新游戏界面供玩家使用。
编辑环节:定制化推送内容
在传统的文化产品营销活动中,由于营销资源有限,出版商往往先选定产品进行资源的重点分配,通过广告宣传和联系评论人(如书评人、影评人、乐评人)等造势手段,开展对新产品的营销活动。但由于近年来文化产品过量生产,营销资源难以平均分配到所有产品中,导致部分产品乏人问津;而另一部分投入大量资源重点推广的产品,也可能由于不符合市场需求而导致营销失败。而现代信息技术的发展和人工智能的普遍使用,出版行业可以基于大数据分析,进行产品广告和试用体验的精准投放,从而使精准营销成为可能,增加用户黏性。
对于用户而言,大数据时代每个人于何时、何地、做了何事都在网络中形成记录,这些记录共同构成人工智能的基础信息,网络技术与数字出版商可以利用这些数据分析得出其所需的有用信息,例如消费者偏好。对于出版商而言,一方面可以通过线下版权作品的提印、入库、发货、退货、结算、库存等关键环节的核心业务数据,可以估算出各作品的市场规模以及生产周期;另一方面再结合线上数据,如图书门户网站、社交平台、运营平台上用户消费行为数据(浏览足迹、订单信息、点赞意愿、评论偏好)等,进一步分析出不同用户群体的需求和喜好。在此基础之上,人工智能有助于实现知识的提纯,内容的关联,资料的拓展和链接,综合文字、图片、音视频、动画、软件模拟、数值模拟等多种形式的多媒体学习与研究产品,为用户提供多介质、立体化、动态化的资源服务。
“今日头条”是一款基于数据挖掘的推荐引擎产品,为用户推荐信息,提供连接人与信息的服务的产品。它不是传统意义上的新闻客户端,没有采编人员,不生产内容,运转核心是一套由代码搭建而成的算法。用户可使用微信,微博,QQ账号或注册今日头条账号登陆今日头条。根据其社交行为、阅读行为、地理位置、职业、年龄等挖掘出兴趣。通过社交行为分析,5秒钟计算出用户兴趣;通过用户行为分析,用户每次动作后,10秒内更新用户模型。截至2017年7月,头条号平台的账号数量已超过80万个。通过社交数据挖掘加个性化推荐的新闻生产模式,给用户塑造一种“更懂我”的使用体验,这也正是今日头条成功之所在。
盛大文学在其举办的国内首届网络文学游戏版权拍卖会上,一共拍出了6部作品的“手游”改编版权,累计拍卖价格达到2800万元,单件作品版权费最高则达到810万元。盛大文学商业模式取得成功的关键在于大数据和人工智能的运用:在销售每一个版权作品的背后,都已经对该版权作品相关的数据,例如小说受众是什么年龄层次、购买力如何、消费行为有何规律等进行了提炼和分析。出版商可以选择完整、真实、干净的数据分析出用户的消费倾向,为玩家量身打造游戏、为观众制作影视剧,进而为非知名版权作品提高价值、开拓市场。
评论环节:精准化效果评估
近几年,在各级政府的大力扶持下,出版产业取得了不俗成绩,并呈现出蓬勃发展的迅猛势头,但与此同时,我国出版市场上的供需脱节问题日益严重。“十二五”期间,我国电视剧产量每年在1.5万集左右,居世界第一,但除少数精品外,大多为重复的、扎堆创作的题材;每年图书出版约30万种,但产生影响力的非常有限;近两年电影产业也迎来了爆发式增长,但影片质量良莠不齐广受诟病。我国出版产业面临着从增量到提质的严峻考验。对此,出版行业亟待进行供给侧改革,而人工智能无疑是推进这场改革的助推器,传统的通过媒体推广和广告发布等常规化出版营销活动,观众都是被动接受出版方提供的版权作品,对于作品故事走向和结局没有决定权,缺乏互动,难以吸引终端读者,这种方式不足以帮助出版商准确把握受众的需要和诉求,且对评论人的公关及广告的全面铺开耗费极大的成本,对销量的投资回报较低,而通过人工智能深度学习技术,在量化分析的基础上予以间接识别甚至是预测目标用户对数字出版的角色定位、情节切换、场景布置、最终结局等的基本态度和原则立场,从而提前做出相应的预案,从而达到的良好辨识效果。
在国外,美国电视剧《纸牌屋》的横空出世正是人工智能在出版大数据技术在内容产业领域应用的典范。从内容创作到营销方式选择的每一个决策,出版方奈飞公司(Netflix)都是基于对用户行为特点以及规律的充分数据分析。奈飞的数据库包含了3000万订阅用户的海量信息行为,譬如视频的搜索、观看视频的时间与使用的设备,以及观看视频的暂停、快放、倒退等播放行为。通过挖掘这些大数据背后的用户消费行为以及需求特点,奈飞最终决定电视剧的内容设定、角色挑选以及营销方式等。
在国内,浙江卫视电视剧《步步惊情》在拍摄时准备了三个结局,将根据收视率和观众的呼声来决定播出其中一个版本。湖南卫视电视剧《爱的妇产科》也采用了观众投票决定最终结局的方式。这种基于大数据的人工智能分析让剧情更贴近观众口味,增强国产剧的竞争力。从实践效果来看,观众的热情很高,很多观众创作的结局,想象力和趣味性让专业人士都惊叹,这既能激发观众的兴趣,又能给制作方带来灵感,帮助他们摸准观众喜好,让作品最终符合多数人的口味,从而实现数字出版的利益最大化。
未来与展望
在这个充满无限可能的大数据时代中,人工智能进入数字出版领域已经成为文化产业发展的重要趋势之一,而对于内容的生产与营销一向难以预料的数字内容企业来说,如何将这些不断产生的海量用户数据转化为有用的决策信息,如何利用大数据资源对消费者的消费行为特点及其规律进行更深入的了解,进而推动出版商持续长久发展,是新环境下数字出版商面临的重要挑战。事实上,人工智能对数字出版行业的价值不在于大数据技术本身,而在于为数字出版行业提供新的思维方式和思考模式。
当然,人工智能对数字出版商而言是一把双面刃,一方面我们关注到人工智能所产生的积极影响,合理应用人工智能将有利于数字出版行业深度定位市场需求、创新营销策略,实现从低层次传播到高层次服务的价值功能转型升级。但与此同时,同时也要注意其所带来的负面影响。但正如微软研究院首席研究员Kate Crawford所说的,“对大数据的过度解读,会导致分析结论的不切实际”譬如,过度依赖大数据挖掘下的用户需求,可能会引致数字出版商被用户需求“俘获”而变得疲于应付,忽视了对于版权作品质量的把握与控制,如此反而会丧失内容产品的本真;利用人工智能生成的内容似乎就有了智力创作的痕迹,那么,对这些内容在版权法中的性质如何界定,能否作为版权法意义上的作品受到保护,这一问题与版权法未来发展息息相关;人工智能背景下用户个人隐私的保护及其管理,也需要社会和学界给予足够的关注与重视。
作者
彭辉
上海社科院法学所,副研究员,博士