出版
大模型时代,å¤ç±æ•°å­—出版如何应对挑战
2023-11-15 10:18  ???:3300

  近几年,从国家政策方é¢çš„支æŒã€è¡Œä¸šå¯¹å¤ç±æ•°å­—化工作的é‡è§†ï¼Œä»¥åŠç”¨æˆ·å¯¹å¤ç±äº§å“的需求å˜åŒ–æ¥çœ‹ï¼Œå¤ç±æ•°å­—出版迎æ¥äº†éžå¸¸å¥½çš„å‘展机é‡ã€‚åŒæ—¶å‡ºç‰ˆè¡Œä¸šä¸­å¤ç±æ•°å­—出版案例ä¸æ–­æ¶ŒçŽ°ï¼Œæ•°å­—出版æˆæžœä¹Ÿè¶Šå‘丰富。

  但机é‡ä¸ŽæŒ‘战并存,尤其是在数字化时代下,人工智能ã€äº‘计算ã€å¤§æ•°æ®ç­‰æ–°æŠ€æœ¯çš„快速å‘展和广泛应用,促使中åŽä¹¦å±€å¤è”(北京)数字传媒科技有é™å…¬å¸ï¼ˆç®€ç§°“å¤è”公帔)ä¸æ–­æ€è€ƒå¤ç±æ•°å­—出版如何æ‰èƒ½èŽ·å¾—更好的å‘展。我们认为,å¤ç±æ•°å­—出版在当下主è¦é¢ä¸´å››å¤§æŒ‘战。
 
  挑战一,é™ä½Žå¤ç±æ•°å­—化的æˆæœ¬
 
  è¦å®Œæˆé«˜è´¨é‡çš„å¤ç±æ•°å­—出版工作,有几个难点亟需çªç ´ã€‚
 
  一是完æˆå¤ç±å›¾åƒåˆ°æ–‡æœ¬çš„高质é‡è½¬åŒ–。图åƒè´¨é‡å’Œå¤ç±ç”¨å­—çš„å¤æ‚性是影å“å¤ç±æ•°å­—化质é‡çš„最主è¦å› ç´ ã€‚ç›®å‰å¾ˆå¤šå¤ç±æ•°å­—化机构都开å‘并利用基于人工智能技术的å¤ç±OCR系统æ¥è¯†åˆ«å¤ç±æ–‡æœ¬ï¼Œé€Ÿåº¦å’Œè´¨é‡è¾ƒæ‰‹å·¥å½•å…¥å’Œä¼ ç»ŸOCR而言有了很大æå‡ã€‚å¤è”å…¬å¸åœ¨ç±åˆç½‘上也å‘布了基于人工智能的å¤ç±OCR系统。
 
  当然,å¤ç±OCR直接输出的质é‡ç¦»æ­£å¼å‡ºç‰ˆçš„标准还有很大差è·ã€‚我们目å‰çš„解决方案是通过自己在线众包的平å°æ‹›å‹Ÿæ ¡å¯¹ï¼Œå¼€å±•æ–‡å­—编校工作。å¦å¤–,我们也在开å‘基于语义的OCR识别辅助系统,借助上下文对模糊字ã€ä¸åœ¨è¯†åˆ«å­—库中的疑难字给予用户æ示,æå‡è¯†åˆ«æ•ˆçŽ‡ã€‚
 
  二是对å¤ç±çš„基本整ç†ã€‚å¤ç±æ•´ç†æ˜¯è¿›ä¸€æ­¥åˆ©ç”¨å¤ç±æ–‡çŒ®çš„必由之路。å¤ç±æ•°å­—化的过程本身就具有å¤ç±æ•´ç†çš„特点。å¤ç±å›¾åƒåˆ°æ–‡æœ¬çš„转化,涉åŠåˆ°æ¨¡ç³Šå­—ã€ç–‘难字的识别,对异写字的规范等工作。éšç€äººå·¥æ™ºèƒ½çš„兴起,å¤ç±çš„标点ã€ç¹ç®€çš„转æ¢ç­‰åŸºç¡€å·¥ä½œå¯ä»¥å®žçŽ°ç”±è®¡ç®—机åˆæ­¥å¤„ç†ã€‚ä¸å°‘å¹³å°éƒ½èƒ½æ供类似的æœåŠ¡ï¼Œä¸­åŽä¹¦å±€ä¹Ÿæ˜¯å°†OCR识别ã€æ ‡ç‚¹ã€ç¹ç®€è½¬æ¢é›†æˆåˆ°“å¤ç±æ™ºèƒ½æ•´ç†å¹³å°”上为学术界æä¾›æœåŠ¡ã€‚标点ã€ä¸“å标引的识别率目å‰å·²ç»è¾¾åˆ°äº†è¾ƒé«˜æ°´å¹³ã€‚去年底,éšç€ChatGPT系列大模型的å‘布,我们也看到了å¤ç±æ•´ç†æ™ºèƒ½åŒ–进一步的å‘展å‰æ™¯ã€‚ç»è¿‡æµ‹è¯•ï¼Œæž„建å¤ç±é¢†åŸŸçš„大模型å¯ä»¥æ›´å¥½åœ°å®Œæˆå¤ç±æ•°å­—化整ç†å·¥ä½œã€‚除了能够æå‡çŽ°æœ‰OCRã€æ ‡ç‚¹ã€ä¸“å标引ã€ç¹ç®€è½¬æ¢çš„è´¨é‡ä»¥å¤–,还å¯ä»¥å®Œæˆæ›´å¤šä»»åŠ¡ï¼Œæ¯”如å¤ç±çš„自动注释ã€ç¿»è¯‘等,目å‰åœ¨å­¦ç•Œå’Œä¸šç•Œéƒ½æœ‰åˆæ­¥æˆæžœé—®ä¸–。
 
  挑战二,整ç†æˆæžœä¸è¶³ä»¥æ»¡è¶³è¦æ±‚
 
  目å‰å·²ç»æ•´ç†å‡ºç‰ˆçš„å¤ç±ä¸Žä¸­å›½å­˜æ”¾çš„å¤ç±æ•°é‡å·®è·å分巨大。对于专业性ã€å­¦æœ¯æ€§çš„å¤ç±æ•´ç†å’Œå¤ç±å‡ºç‰ˆå·¥ä½œæ¥è¯´ï¼Œå®¢è§‚规律决定了其必然需è¦è¾ƒé•¿çš„æ•´ç†å‡ºç‰ˆå‘¨æœŸã€‚虽然å¤ç±æ•´ç†ã€å‡ºç‰ˆå·¥ä½œå¯ä»¥å€ŸåŠ©è®¡ç®—机和人工智能技术,但它并ä¸èƒ½å½»åº•æ›¿ä»£ä¸“家的工作。
 
  在这ç§æƒ…况下,我们æ供了一ç§è§£å†³æ–¹æ¡ˆã€‚现在在ç±åˆç½‘上,我们采用与专家åˆä½œçš„æ–¹å¼è”åˆè¿›è¡Œå¤ç±æ•´ç†ï¼Œå®Œæˆä¹‹åŽç›´æŽ¥ä»¥æ•°æ®åº“çš„å½¢å¼è¿›è¡Œå‘布。
 
  这样åšæœ‰ä¸¤å¤§ä¼˜ç‚¹ï¼šç¬¬ä¸€ï¼Œæœ‰ä¸“家å‚与整ç†ï¼Œå…¶å­¦æœ¯è´¨é‡æ›´æœ‰ä¿éšœï¼›ç¬¬äºŒï¼ŒçœåŽ»çº¸ä¹¦å‡ºç‰ˆçŽ¯èŠ‚,å¯ä»¥æ˜Žæ˜¾æå‡å‡ºç‰ˆé€Ÿåº¦ã€‚而且以数æ®åº“çš„å½¢å¼å‘布还å¯ä»¥éšæ—¶éšåœ°è¿›è¡Œåœ¨çº¿ä¿®æ”¹ï¼Œéžå¸¸çµæ´»ã€‚这是我们今åŽä¸€ä¸ªæ—¶æœŸå†…å¤ç±æ•°å­—化å‘展的一大方å‘。
 
  挑战三,加强资æºèšåˆèƒ½åŠ›
 
  å¤ç±æ•°å­—化æˆæœ¬é«˜ï¼ŒåŸºäºŽæ•´ç†çš„å¤ç±å‡ºç‰ˆæˆæžœå…·æœ‰çŸ¥è¯†äº§æƒï¼Œå¤§è§„模的èšåˆèµ„æºå­˜åœ¨éžå¸¸é«˜çš„难度,但是å¤ç±æ•°å­—化,特别是数æ®åº“产å“,资æºé‡æ˜¯ä½“现其产å“价值的é‡è¦å› ç´ ã€‚以收录整ç†æœ¬èµ„æºæœ€å¤šçš„《中åŽç»å…¸å¤ç±åº“》为例,ç»è¿‡10å¹´çš„å‘展,通过商业åˆä½œï¼Œæ±‡èšäº†23家出版社ã€è¿‘7000ç§å¤ç±æ•´ç†ä½œå“。但对于用户æ¥è®²ï¼Œè¿™è¿˜è¿œè¿œä¸å¤Ÿã€‚
 
  因此,建立一个基于国家战略的å¤ç±èµ„æºå¹³å°æˆä¸ºè¿ŽæŽ¥è¿™ä¸ªæŒ‘战的必è¦ä¸¾æŽªã€‚在“2021-2035年国家å¤ç±å·¥ä½œè§„划”中,å¤ç±æ•°å­—化工程专æ çš„第一个任务就是“国家å¤ç±æ•°å­—化资æºæ€»å¹³å°å»ºè®¾”,其定ä½æ˜¯“ä¾æ‰˜å·²æœ‰å¹³å°å’Œèµ„æºï¼Œèšåˆå¤ç±æ•°å­—化æˆæžœï¼Œè¿žæŽ¥å„ç±»å¤ç±ä¹¦ç›®ã€å½±åƒã€å…¨æ–‡æ•°æ®èµ„æº, 建设覆盖全国ã€ç»Ÿç­¹åˆ©ç”¨ã€ç»Ÿä¸€æŽ¥å…¥çš„‘一站弒å¤ç±æ•°å­—资æºæž¢çº½ä½“系,打造æƒå¨æ€§ã€å…¬ç›Šæ€§å›½å®¶å¤ç±æ•°å­—资æºä¸­å¿ƒ”。目å‰è¯¥å¹³å°å·²ç»äºŽä»Šå¹´æ­£å¼å¯åŠ¨å»ºè®¾ï¼Œé¢„计明年上线时将对接30个å¤ç±æ•°æ®åº“å’Œå¤ç±æ•°å­—化工具,并且会æŒç»­æ›´æ–°ï¼Œä¸æ–­å¸çº³“国家å¤ç±æ•°å­—化工程”æˆæžœï¼Œä¸ºè¯»è€…æ供公益化å¤ç±èµ„æºæœåŠ¡ã€‚
 
  挑战四,产å“需求需è¦åˆ›æ–°
 
  目å‰çš„å¤ç±æ•°å­—出版主è¦ä»¥å¤ç±æ•°æ®åº“为主,é¢å‘专业用户æä¾›æœåŠ¡ã€‚æ•°æ®åº“对于专业市场æ¥è¯´å±žäºŽç›¸å¯¹æˆç†Ÿçš„商业模å¼ï¼Œä½†å¤ç±ç±»æ•°æ®åº“因为æˆæœ¬é«˜ã€ç‰ˆæƒå¤æ‚ã€å—ä¼—é¢å°ç­‰åŽŸå› ï¼Œç›ˆåˆ©èƒ½åŠ›éžå¸¸æœ‰é™ã€‚这就需è¦æˆ‘们åšå‡ºä¸€äº›è°ƒæ•´ã€‚
 
  第一,å¯ä»¥åˆ©ç”¨æ–°çš„人工智能技术更新和扩展å¤ç±æ•°æ®åº“çš„æœåŠ¡åŠŸèƒ½ï¼Œæ–¹ä¾¿æ›´å¤šè¯»è€…使用。ç»è¿‡æµ‹è¯•ï¼Œæœªæ¥ä¸‰ä¸ªæ–¹å‘有望实现研å‘çªç ´ï¼šå¤ç±é¢˜è¦ç”Ÿæˆã€è¯­ä¹‰æ£€ç´¢å’Œè‡ªåŠ¨åˆ†ç±»ã€‚å¤ç±çš„自动题è¦å¯ä»¥å¸®åŠ©è¯»è€…快速了解一本å¤ç±æˆ–者一个章节的主è¦å†…容;语义检索å¯ä»¥æŒ‰ç…§ç”¨æˆ·çš„需求检索å¤ç±é‡Œçš„内容;自动分类å¯ä»¥æ ¹æ®ç”¨æˆ·æ‰€éœ€è¦çš„角度,或者按照现代学科分类,将å¤ç±é‡Œçš„内容èšåˆã€æŽ’列,生æˆä¸ªæ€§åŒ–çš„æ•°æ®é›†åˆã€‚这三个功能本质上都是为了é™ä½Žæ•°æ®åº“的使用难度,扩大å—ä¼—é¢ï¼Œå¢žåŠ æ½œåœ¨ç”¨æˆ·ç¾¤ã€‚
 
  第二,è¦å¯¹å¤ç±å†…容进行å†åˆ›é€ å’Œè½¬åŒ–。这里è¦å£°æ˜Žçš„是,对于å¤ç±å†…容的å†åˆ›é€ å®žé™…上已ç»è„±ç¦»äº†å¤ç±æ•°å­—出版的范围。我们认为的å¤ç±æ•°å­—出版还是基于å¤ç±æœ¬èº«æ‰€åšçš„数字化工作,包括图åƒã€æ–‡æœ¬ã€éŸ³é¢‘等内容都是直接æ¥æºäºŽå¤ç±ã€‚但是我们åšå¤ç±æ•´ç†ã€å¤ç±æ•°å­—化的目的是为了更好地利用å¤ç±ï¼Œæ炼里é¢ä¸­åŽä¼˜ç§€ä¼ ç»Ÿæ–‡åŒ–的内容,为今日所用。中åŽä¹¦å±€åœ¨åšçš„中国å¤ä»£å…ˆè´¤æ•°å­—人算是其中的一ç§æŽ¢ç´¢ã€‚è‹ä¸œå¡æ•°å­—人在2022年底问世,2023年春节登上中国诗è¯å¤§ä¼šèˆžå°ä¸Žå˜‰å®¾äº’动,今年在长沙ã€è‹å·žåˆ†åˆ«å¼€å±•äº†çº¿ä¸‹æ•°å­—人å‚与的宋韵文化展。基于人工智能对è¯çš„è‹ä¸œå¡æ•°å­—人也在研å‘当中。å¯ä»¥çœ‹åˆ°éšç€ç§‘技的å‘展和商业模å¼çš„创新,从å¤ç±é‡Œæ炼中åŽä¼˜ç§€ä¼ ç»Ÿæ–‡åŒ–元素进行创造性转化与创新性å‘展,还有更大的å‘展空间。
 
  å¤ç±æ˜¯ä¼ æ‰¿ä¸­åŽä¼˜ç§€ä¼ ç»Ÿæ–‡åŒ–çš„é‡è¦è½½ä½“,如何让中åŽä¼˜ç§€ä¼ ç»Ÿæ–‡åŒ–æˆä¸ºçŽ°ä»£ç²¾ç¥žç”Ÿæ´»çš„一部分?我觉得一定è¦åšå¥½ä¸¤ä¸ªåŸºç¡€æ€§å·¥ä½œï¼Œä¸€æ˜¯åšæŒåšå¥½å¤ç±æ•´ç†å‡ºç‰ˆï¼ŒäºŒæ˜¯åŠ é€Ÿå¼€å±•å¤ç±æ•°å­—化。从内容到形å¼ï¼Œéƒ½è¦åšå¥½ä¸­åŽä¼˜ç§€ä¼ ç»Ÿæ–‡åŒ–的现代化工作,二者密ä¸å¯åˆ†ã€‚