从聚类到少样本模型识别,走完一轮,全书70%左右的文字可以被打上正确的标签,余下的部分将从头再来一遍,进行第二轮迭代,又能解决余下文字中的70%。经过两轮迭代,一本书91%的文字可以被识别。如此,通过不断的学习,训练数据越来越多,机器的认字能力也越来越强。
在复杂的算法养成过程中,人工标注的工作量被大大降低。“经过反复的学习和提升,目前达摩院系统对伯克利20万页古籍的整体识别准确率达到了97.5%。这套人机交互的识别方案,录入效率比纯人工输入提升了近30倍。”张建锋说。
张建锋表示,守护中华传世典籍,是科技工作者和文化工作者共同的使命。阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营;同时,阿里仍将在古籍数字化工作上持续投入人力、物力。
- 韩慧英|见证南北文化交融 山西文水“采茶调”的前世今生
- 艺术培训|德州市文化馆2022年“德艺课堂” 春季公益艺术培训开始招生!
- 文化节|沪上首家传统文化传承中心——“北站传统文化传承中心”揭牌成立
- 中国艺术|新文化地标展现中华瑰宝魅力
- 刘毅:塑造上海工业历史文化遗产的“城市IP”|M50弄堂计划 | 艺术
- 京话日报|呈现北京文化的历史横断面——夏晓虹谈《晚清北京的文化空间》
- 盐运|四川自贡沿滩举办盐运文化书法作品展 50余件作品展现千年盐运文化
- 新闻记者|安徽省首家文化遗址检察工作站揭牌
- 快时代里的“慢美学”,二十四节气藏着中国智慧|文化时评 | 二十四节气
- 剪纸作品|非遗剪纸传承人痴迷剪纸30余年 希望留住地方文化
