深闺|文化观察丨从宣纸到数字化,古籍这样走出“深闺”( 三 )


从聚类到少样本模型识别,走完一轮,全书70%左右的文字可以被打上正确的标签,余下的部分将从头再来一遍,进行第二轮迭代,又能解决余下文字中的70%。经过两轮迭代,一本书91%的文字可以被识别。如此,通过不断的学习,训练数据越来越多,机器的认字能力也越来越强。
在复杂的算法养成过程中,人工标注的工作量被大大降低。“经过反复的学习和提升,目前达摩院系统对伯克利20万页古籍的整体识别准确率达到了97.5%。这套人机交互的识别方案,录入效率比纯人工输入提升了近30倍。”张建锋说。
张建锋表示,守护中华传世典籍,是科技工作者和文化工作者共同的使命。阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营;同时,阿里仍将在古籍数字化工作上持续投入人力、物力。