流散海外的中国古籍被达摩院“扫地僧”“抄”回来了
中国是世界四大文明古国之一,中国浩如烟海的文献典籍记录了历史。然而遗憾的是,近代以来超过400万册中国古籍由于种种原因流散海外。宋刻本《后村居士集》、北宋《金粟山大藏经》写本、清文澜阁《四库全书》零本……近日,20万页古籍以数字化的方式回归了。阿里巴巴达摩院、四川大学、美国加州大学伯克利分校公布,他们花费两年多的时间,教会了AI识别中国古籍,将它们以数字化的形式接回故土,置于网络公益平台,向所有人开放。
这个项目的名字叫“汉典重光”,意为让失落的珍贵古籍重放光芒。“汉典重光”以97.5%的准确率,识别了20万页古籍,覆盖3万多字的古籍字典。
“汉典重光”项目到底是怎么来的,背后藏着哪些黑科技,记者采访了阿里巴巴达摩院技术团队中那些深藏不露的“扫地僧”们和古籍研究所专家等,揭开了这个项目背后的故事。
20万页古籍流落海外
达摩院“扫地僧”接下录古书任务
1860年(清咸丰10年),清朝正处于风雨飘摇中。北有英法联军捣毁圆明园,逼迫中国签下《天津条约》、《北京条约》。南有太平军进入杭州,藏有《四库全书》的“南三阁”之一杭州文澜阁,次年毁于战乱。文澜阁遭遇“灭顶之灾”后,杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编。最终,该书四分之一被丁氏兄弟抢救,四分之三不知所踪。
直到20世纪50年代,清代曹庭栋辑纂的《宋百家诗存》(卷七),出现在美国加州大学伯克利分校东亚图书馆。而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一。据不完全估计,近代散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等。
2019年,阿里巴巴和四川大学提出“数字化回归”设想,获得美国汉学研究重镇、中文藏书量排名全美第三的加州大学伯克利分校支持并达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。本次首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有清文澜阁《四库全书》零本等。
为将伯克利提供古籍的扫描图片和编目数据全部文字化,阿里达摩院技术团队与四川大学专家联手研发出一套全新的古籍识别系统,以97.5%的准确率完成对20万页古籍的整体识别。目前,该系统已能批量识别百本古籍,并沉淀覆盖3万多字的古籍字典。
教计算机学会认字有多难
看上去一模一样的两个字代码不同
据介绍,“汉典重光”的分工非常明确——采集侧把纸质书变为影印版,数字化生产侧把影印版变为文字版,应用侧为文字版增加检索、字典和知识图谱等研学系统。东亚图书馆完成第一个环节后,四川大学将和达摩院共同完成另外两个步骤。
首批数字化的古籍共20万页,包含40余种珍贵宋元善本。刚开始大家对这个项目很有信心,但实际一上手才知道难度有多大。首先是中国古籍的载体很多,纸、布、竹子、木头、甲骨、石碑……几乎所有能用的载体都被古人留了字,不同载体上面的字识别起来差别非常大。字迹的精美也成了负担。隶书、楷书、草书、行书都漂亮,但也真难认。
此外,古籍文字的类别极其庞大。现代汉语常用字不过6000多个,常见印刷体,算法能够覆盖到的文字基本上在2万字以内。但是据估计,古籍文字多达几十万。古书中经常遇到“一对多”和“多对一”的问题,同一个字,在不同的时代有不同的刻法和写法。有时甚至在同一时代的同一本书里,也会出现不同写法。
最近网上谈论很多的“刺史”、“刾史”,就是同一个字在不同时代有不同写法的案例。异体字与正字在汉字编码时通常有两个不同的编码,对于计算机来说,它们就是两个不同的字。人则需要具备一定的文字学素养,才能理解两个不同的字符背后的同一种意思。
在达摩院汉典重光项目算法负责人何梦超眼中几乎一模一样的“鍊”、“錬”二字情况也类似:计算机能够区分它们。“鍊”的CJK的字符代码是“934A”,“錬”的CJK的字符代码是“932C”,因此计算机会按两个不同的字来对它们作处理。但对后道的审校专家和技术人员来说,人眼区分“鍊”与“錬”却难得多。
目前汉典重光的识别系统按照“所见即所得”的方式呈现机器识别文字的结果,也就是说,机器见到的单字图片为“錬”,就识别为“錬”字。机器见到的单字图片为“鍊”,就识别为“鍊”字。在一组近似字中找出不同的字,在看似相同的字中找出属于不同汉字编码的字,虽然它们可能是同一个字。
用AI替代人工
大幅压缩了专家标注工作量
达摩院的古籍识别算法,用AI替代人工,大幅压缩了专家标注工作量。2年,20万页,平均每天280页。在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注。相比人工专家录入,百万字书籍的数字化工作量从1000天降低到了35天,效率比人工专家录入方案提升近30倍。非计算机层面的工作也非常重要,四川大学专门组织了30多个历史系学生来做标注。
据了解,达摩院、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆将继续投入人力、物力,扩大古籍数字化回归的数量,让所有蒙尘的古籍重焕新生。
达摩院院长张建锋表示,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,最终将成为一个开放的网络平台,供大众检索学习。
(据新华社、钱江晚报)
新闻推荐
巴勒斯坦伊斯兰抵抗运动(哈马斯)与以色列方面20日晚各自宣布,双方已达成停火协议。停火从21日凌晨开始。至此,本轮历经11天、...