首页 > 资讯 > 正文
Qzone
微博
微信

字节跳动携手国图、北大上线《永乐大典》高清影像数据库

资讯 TOM    2023-02-14 14:51

《永乐大典》是我国的文化瑰宝,但自古以来或深藏于皇宫等场所或遗失,普通百姓难能一见。2月8日,由国家图书馆、北京大学和字节跳动公司合作推出的“国家古籍数字化工程”优秀项目——“《永乐大典》高清影像数据库”在国家图书馆正式发布。国家图书馆馆藏的部分40册《永乐大典》首次线上公开,可供全球网友自由查阅。

 字节跳动携手国图、北大上线《永乐大典》高清影像数据库

据介绍,《永乐大典》高清影像数据库包括75卷内容,共涉及14个韵部、17个韵字、1800部书。除呈现《永乐大典》高清图像、整体风貌及相关知识外,数据库还尝试对部分大典内容做了知识标引示范,该数据库在古籍数字化平台“识典古籍”上就可以浏览。打开网页,用户可以看到,3D古籍模型尽可能还原了《永乐大典》原貌,让用户可以360度翻阅永乐大典,直观感受并体验大典的内页纸张、流散轨迹、分布状态、波折的流转历程,并提供丰富的原文和引文阅读。

2021年11月,国家图书馆委托国家图书馆出版社进行《永乐大典》高清数据库项目的制作,该项目得到了全国古籍整理出版规划小组的支持,入选了2021年国家古籍数字化工程首批立项项目。2021年12月,国家图书馆出版社委托北京大学数字人文研究中心承担该项目的设计与研发工作。北京大学数字人文研究中心以“北京大学-字节跳动数字人文开放实验室”为基地,整合北京大学和字节跳动双方的力量,组成联合设计与研发团队,建成了《永乐大典》高清影像数据库,于2022年11月顺利结项,并作为优秀项目汇报。

作为国家图书馆、北京大学的合作伙伴,字节跳动积极参与古籍保护工作。2021年,国家图书馆与中国文物保护基金会签署协议,由中国文保基金会字节跳动古籍保护专项基金投入资助,用于中华珍贵古籍修复和专业人才培养、古籍活化与数字化等项目,其中也包含修复《永乐大典》“湖”字册。

 字节跳动携手国图、北大上线《永乐大典》高清影像数据库

如今,通过北京大学-字节跳动数字人文开放实验室,字节跳动团队又利用技术能力参与到《永乐大典》数字图书馆的建设中来。据了解,“识典古籍”平台主要使用了3种技术,即文字识别、自动标点、命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

去年,“北京大学—字节跳动数字人文开放实验室”已经制定了初步目标:在未来3年内陆续完成1万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。项目团队的技术理想是通过人工智能算法实现古籍全自动整理校对。如果能够实现这一目标,团队也非常愿意将其开放给全社会,让人们能够免费使用该平台。

 

责任编辑: WY-BD

责任编辑: WY-BD
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-85181169     举报邮箱/未成年人举报:jubao@tomonline-inc.com