今天,我们在探讨数字化的生命周期时可以从印刷文献的生命周期中得到启发和借鉴,从而使我们对数字文献的生产、收割、存藏和永久使用及再使用等一系列问题进行深入探讨,以达到维系数字化的生命周期,使知识的发现与保存得以周而复始、永远延续这一目标。
近十几年来,由于计算机数字技术的成熟和大规模地使用,数字出版和大数据的产生可谓浪涛汹涌,迅速和彻底地改变了现代社会人们的生活、学习、研究和知识创造与技术创新的能力,从而形成了全球数字化的大规模态势。那么什么是数字化的生命周期呢?从内容来说,它涵盖两个方面,一是数字内容的出版,包括选题、创造、描述、管理、保存、发现及使用和重复使用;其次,还有非传统的数字内容的生产,也就是我们常说的大数据。大数据很多是通过随机无序的渠道而产生的,如有序的科学研究所衍生的看似无序的大数据、流媒体产生的数字内容、社交平台上出现的数据流等。这种大数据的生命周期包括来自不同数据源的数据创造和产生、数据管理机构对海量数据的截获和收割、数据使用的策划、大数据的整理和描述标引、数据传送、存储、分析及视觉化(即组织成有序和可以使用及再使用的数字内容)等方面。不管是有序的数字出版还是看似无序的大数据,它们均属数字化内容(digital content)。数字化的内容涵盖很广,例如:各种原始产生和转换而成的数字化内容包括数字出版物、点击链接和多媒体数据;通过社交网络、移动装置和传感器产生的大量数据、各种关联数据如管理数据和元数据等。数据的类型也是多种多样的,如数字文本、数码照片和图像、生物样本、社会科学的大众传播流媒体内容、考古学样本、历史档案资料等,都可以归为数据范畴。在这样的一个多元而高产的环境下,海量数据之大是难以想象的。除了科学研究的各个领域可以产生海量数据外,数以千万册书籍的全文数据库和无数的网上特色资源库亦组成了一个人类文化大基因库,它们所记录和传播的知识和思想成为人类文明发展的文化基因库。
由于海量数据具有高度的关联性和集成的特点,于是就产生了连接式学习和连接式研究。随着海量数据和人类文化基因库的建立,学习和研究变得多元化和具有高度连接性,而精确实时的网络数据的获取使得连接式研究变为可能。此外,连接式研究和学习环境发生了很大变化,同时具有一些新的特点,如它将个人兴趣、合作关系和共享系统融入学术研究和学习过程,是网络和数字媒体所带来的丰富信息和社会关系的结合;它形成了一个全方位、多媒体、多内容、混合性的学习和研究方式。