您当前位置: 必胜印刷网 > 新闻中心 > 出版 > 正文

出版业大数据建设:解决数据问题 用数据解决问题

时间:2016-03-30 来源:商报

摘  要:
出版业的数据每时每刻都在产生,然而出版领域究竟包括哪些数据?如何采集?不同的数据又指向何种应用?这些问题的解决是出版业大数据建设与应用的关键。

关键词: 出版业 大数据建设 

  大数据分类的五个层面

  出版业的数据每时每刻都在产生,然而出版领域究竟包括哪些数据?如何采集?不同的数据又指向何种应用?这些问题的解决是出版业大数据建设与应用的关键。

  出版业大数据模型构建

  出版业数据具有多种分类方式。从数据产生的业务来源看,有出版社数据、发行单位数据、图书馆数据、技术服务类数据等;从数据结构化的程度看,出版产品数据等结构化数据较少,图片、文档、视频等非结构化数据比重较大;从数据产生的环节看,包括过程性数据(如销售条件、库存)和结果性数据(如畅销排行等)。从数据的所有权看,还可分为甲方数据(数据生产者的原生数据)、乙方数据(技术服务的沉淀数据)以及第三方数据(通过网络爬虫等手段获取)。

  为了更清晰地认识出版业大数据的面貌,国家新闻出版广电总局数字出版司对出版业大数据进行模型构建,整体分为五个层面,由内而外分别是核心层、产品层、业务层、市场层和用户层。

  核心层即出版生产过程中产生的各种内容资源数据;产品层是指产品信息的基础数据,目前以书目信息为主;业务层是指出版产品流通的数据,记录着整个出版业务运行状态的信息;市场层和用户层分别包括产品消费数据和消费反馈数据,记录了广大用户的行为数据和评价信息。这种划分从宏观层面可以更好地理解出版业大数据的发展整体状况,对制定大数据扶持政策、推动大数据发展具有积极的作用。

  不同层面数据采集特点

  不同层的出版数据的主要采集与生成方式、应用场景也有所不同。数据的采集难度相应由内而外逐步增加,尤其是针对用户层的数据采集最为复杂多变。

  核心层:总量巨大,形态多样,且大都属于非结构化数据。核心资源数据的采集可通过系统加工的方式,最终形成知识服务体系,构成出版业大数据的基础。

  产品层:按照统一的数据交换标准,通过系统间的数据交换实现产品基础数据的采集与更新。产品层数据属于高度结构化的基础数据,某些用于政府监管和行业公益性服务的基础数据可通过定期的人工采集方式,实现国家规定的基础数据逐级上报要求。

  业务层:采集方式大都以系统记录为主。随着产业链各业务系统之间的互联互通,未来业务层的系统设计将更趋于一体化的解决方案,全面掌控各业务运行情况,打造高效管理的大数据监控环境。

  市场层与用户层:出版业用户行为有很多种,包括出版社、图书馆、书店、政府、研究机构、学校、个人等,其中个人用户的行为数据在所有行为数据中将占主导地位。目前个人读者的数据采集大都采用阅读器、销售平台、社交媒体、读者数据库、门店采集等方式,但效果并不理想。出版业历经数字化转型升级的洗礼,很大程度上依然还是一个需要依靠直觉的产业。随着技术的发展,市场层与用户层的行为数据采集手段将会更加成熟和稳定。

  大数据发展需要解决的四个问题

  与教育、医疗、旅游、交通等领域相比,出版领域具有更强的独特性和复杂性,因此大数据在出版业的应用推广存在诸多困难,主要面临着标准、治理、应用、安全等若干问题。只有正视并深入研究这些问题,才能更好地推动出版业大数据持续健康发展。

  标准问题:制定和推广仍需加强

  大数据标准化工作作为支撑大数据产业发展和应用的重要基础,目前显得更为迫切。当前对出版业大数据工作的实践更多是从可能性的角度进行讨论,离可行性还有不少差距。要将可能性变为可行性需要进一步的顶层设计和研究,因此标准体系的构建成为了前提。

  当前出版业大数据标准化工作的路径是:首先对出版发行大数据工作进行定义,然后寻找已经有的一些现成标准基础,这些标准可以被我们利用。这些工作完成后需要建立一个数据流程的标准化模型,因为这是一个复杂的体系。

  以出版业数据交换工作为例。2013年我国颁布了第一个出版业数据交换国家标准,即《中国出版物在线信息交换图书产品信息格式规范》(CNONIX)。国家新闻出版广电总局(以下简称“总局”)以该国家标准为抓手,大力推进CNONIX应用示范工程,力图改变行业内数据格式不统一、交换共享不畅等现状。通过应用示范工程,我们发现CNONIX国家标准的出台为出版业大数据交换工作提供了一定的基础,但是无法满足出版业大数据的采集、存储、分析和应用等工作的实践需要。因此,总局以CNONIX国家标准为本,根据应用示范的不同工作环节特点,推出了19项CNONIX应用示范项目标准,以解决当前工作面临的难题。

  通过对现有CNONIX应用示范标准情况进行分析可见,一方面,已经发布和在研的一些标准,适用于出版业大数据环境,提供了一定的基础,但是缺乏系统的标准化整体规划;另一方面,从标准分类上来看,大多集中在数据基础管理、采集、接口和存储等方面,而针对开放数据集、数据服务平台、数据分析、数据应用等产品和服务形态的标准缺失。此外,数据接口、数据质量标准中尚缺乏数据导入、导出、安全框架、隐私、访问控制类标准。因此,出版业大数据标准制定和推广工作还需要进一步加强。

  随着政策顶层设计越发清晰,以及行业、团体标准逐渐形成,困扰出版业大数据发展的瓶颈问题将会得到改善,对于出版业大数据的未来发展,也将有更明确的判断。

  治理问题:亟待建立完整治理模式

  信息时代每时每刻都在产生大量的、各种来源、多种类型的出版数据,如何协同多方力量进行高效的出版业数据治理是现实问题。数据治理的目的是提升出版业数据质量,保护数据隐私安全,保障数据合理应用,促进数据合法共享。因此,出版业应加强“数据治理”的理念,发挥政府、企业、研究机构、公众等多主体在发展出版业大数据上各自的优势。行业应尽快出台大数据治理的相关办法,建立完整的大数据治理模式,指导出版业数据的获取、存储、互换以及重复利用;将数据库、服务平台、资源平台等产生的数据进行规范化采集与汇聚共享,形成全国一体化的大数据中心,共同参与到数据的治理与创新应用中。

  数据治理工作在出版领域的意义重大,需要出版业从各个层面练好内功。出版企业建立和形成数据管理的习惯至为关键,从版权购买、产品营销和用户沟通等方面入手,更好地将大数据治理嵌入出版运作流程中,使之成为一种经营资产和管理要素。

  应用问题:缺乏可推广模式是短板

  当前出版业已越来越认识到大数据在推动出版产业发展方面具有重大的应用价值,行业内逐步出现了一些大数据应用案例。然而,出版业大数据应用工作还比较零散,相关出版发行单位主要工作集中在系统改造、平台建设等方面,政府公共服务等发展还在初期探索阶段,可以说应用方式单一、思路局限、缺乏可推广的成熟模式,这些仍是出版大数据应用发展的一大短板。建议相关部门应尽快组织大数据专家等制定《出版业大数据发展建议与应用指南》,从国家层面加大对出版业大数据应用和推广的支持力度,将出版业大数据应用提升到更高的战略层面。

  如果说大数据的应用是大数据产业的商业价值终端,那么出版业知识服务体系构建与数据分析是当下行业公认的大数据产业的核心,是出版业大数据能够点石成金的两大利器。在知识服务体系构建方面,出版企业要认识到出版的核心价值取决于以内容为底蕴的知识、信息价值,这是出版的基本原理。出版业要善于利用大数据技术加强对信息、知识的序化、组织、整理能力,生产转化出可向受众传播的知识信息产品,构建未来新的核心竞争力。在数据分析方面,特别是在政府管理与公共服务体系建设层面,出版业数据分析工作需进一步扩大行业覆盖面,完善统计指标体系和数据监测系统,规范与出版统计有关的术语用法,健全数据信息公开制度,使数据信息更加科学、全面地反映行业发展态势,为政府和业界科学决策提供参考。

  安全问题:确保合法使用

  且有利融合创新

  对于传统出版业来说,大数据在相当长的时间内仍将是一个概念,但即使目前没有大体量的数据,出版业仍有必要为大数据实践做好准备,其中最大挑战之一是数据所有权、隐私保护等安全问题。

  目前公共数据开放已经是国际趋势,出版业是公益性文化事业的重要组成部分,出版业大数据也应适度向公众开放,建立行业大数据交换平台,为政府、机构、企业和社会公众提供公益性服务。在大数据环境下,对于数据的垄断会给企业占据优势地位提供强力支持,这是一把双刃剑。例如一些发行集团通过业务平台积累了大量出版产品信息数据和交易数据,从而具备了辐射行业的能力。出于维护行业地位的考虑,这些优势企业必然会强化自身对数据的掌控乃至垄断。因此,一个并非多余的担心便是,未来推进行业大数据平台建设的工作时,对数据的访问、使用将会受到数据所有权影响,数据更加难以获得。在这种情况下,出版企业内部及出版业各环节之间极易出现新的“数据鸿沟”和“数据孤岛”。

  此外,大数据的兴起为出版业重塑商业模式、预测市场风险等提供新契机的同时,也会引发滥用数据与侵犯隐私等法律、政策问题。特别是数据资产化后,数据治理——对数据的产生、收集、保存、维护、分析、应用的整个生命周期的管理将成为一个新的课题,其中数据安全与隐私保护便成为行业普遍担心的重要问题。

  因此,相关部门有必要从数据安全的角度,对数据的开放程度、开放范围、开放对象都进行深入论证,以确保数据的使用是合法的,是有利于出版融合创新发展的。管理部门应对出版数据加强监管,制定数据运营商准入标准,授权运营资质。非官方机构在使用数据进行研究时,需要满足相关规定并取得相关许可,才能获得数据的使用权力。

  说了这么多有关出版业大数据的问题,简而言之,当我们谈论出版业大数据时,在谈什么?无非两件事:第一个是解决数据的问题,不要成为热词奴隶,做好自己的数据;第二个是用数据解决问题,从政府监管、企业决策到读者购买遴选等方面善于用大数据技术解决应用过程中的热点、难点问题。

  大数据现状的四个关键词

  国务院印发的《促进大数据发展行动纲要》对促进出版业大数据工作发展具有重要的推进意义。总局围绕出版业大数据工作提出了“构建新闻出版业数据体系”的工作思路,并围绕数据建设工作进行了一系列工作部署,如国家知识服务体系建设、CNONIX应用示范工程等。各出版发行单位也积极拿出应对措施,投入到大数据建设工作中。但从整体看呈现跳跃式的特点,基础准备不足。

  数据体量:出版业大数据“天花板”较低。相对于金融、制造等行业,出版业数据应用体量不足。虽然每年几十万个品种进入市场,在出版社、中盘、书店、物流、图书馆以及电商等环节都形成了大量的数据,但是品种繁多的同时,单品销售数据量小,重复消费数据低,替代性极弱,因此未能达到大数据级别,造成了出版业大数据的规模实践受到一定程度的制约。

  数据思维:大数据的思维对产业链各个环节的渗透影响还不足。如出版环节的传统运作思维逻辑导致对内容资源形成大数据应用的观念转变不够,尤其是专业出版领域内构建知识服务体系的理念有待进一步加强;市场流通环节存在着数据不透明、数据孤岛、数据真实性堪忧等诸多问题,造成数据采集和加工的质量效益低下;用户行为数据获取较难,数据决策短期内难以替代经验式决策。

  数据实践:出版业大数据发展实践多以项目为主,普遍实施基础较弱。近两年,参与大数据工作的出版发行单位越来越多,从申报财政部项目的种类看,从数字化转型升级、电商平台建设、O2O工程、智慧物流到数据交换中心建设等,均与大数据应用有着千丝万缕的联系。虽然企业对大数据工作的认知有了较大幅度提升,但深度普遍有限,大数据工作还只是单纯围绕项目做文章。姑且不说应用,许多单位连基础性的数据准备和管理工作都没有做充分,因此行业普遍应用大数据的基础较弱。

  数据共享:出版业大数据共享工作存在着普遍困惑,严重制约了大数据作为基础性战略资源的开发应用和价值释放。

  目前行业普遍存在不愿共享、不敢共享和不会共享的心态。

  政府部门、公共机构和许多企业尚未意识到数据共享开放的价值(其中也是利益分配的问题),把自己掌握和获取的数据,作为自己利益和权力的一部分不愿共享开放,造成监管部门与企业之间、企业与企业之间、甚至同一企业不同部门之间都难以实现数据共享开放。此外,由于当前尚缺乏严格规范的数据共享开放的法规制度,相关机构和企业担心数据共享开放会引起信息安全问题,担心数据泄密和失控,对数据共享开放持谨慎态度。而且数据共享开放是一个高度专业化的工作,目前数据共享开放原则、数据格式、质量标准、可用性、互操作性等规范要求不够,导致数据共享开放能力不强,水平不高,质量不佳。

(作者:全国出版物发行标准化技术委员会唐贾军)

关键词:出版业 大数据建设 
热点排行
柯尼卡美能达黑白新品bizhub PRO 1200产品报告

革新化黑白数字印刷系统——拥有更全面的综…[详细]

上海紫光预推出数字喷墨印刷机PM520

上海紫光机械有限公司将在2011年11月举办的…[详细]

杭州东城图像公司推出热敏CTP和UV-CTP

近日,杭州东城图像技术有限公司重拳出击,…[详细]

大族冠华新推GH794四色商务印刷机亮相全印展

第四届中国(上海)全印展于11月14日隆重召开…[详细]

美企业推出新概念UV-LED喷墨丝网印刷机

据来自美国wxow网站的消息,丝网印刷机厂商…[详细]

柯尼卡美能达bizhub PRESS C7000/C6000产品报

2011年8月5日,柯尼卡美能达在北京展出了其…[详细]

更多知识手册