-一带一路-多语言语料库“万卷·丝路”发布,AI赋能共建“一带一路”

时间:2025-01-10 11:18:51  来源:​澎湃新闻  点击:0

司法培训资讯网:

19日,上海人工智能实验室(上海AI实验室)联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑。

随着共建“一带一路”进入高质量发展新阶段,科技创新与合作将在其中发挥更关键的作用。上海AI实验室通过研发先进数据智能技术,提供多语言语料库等举措,探索以人工智能赋能高质量共建“一带一路”。

“万卷·丝路”首期开源了包含泰、俄、阿、韩、越等五个语种的语料,总规模超1.2TB(单语种均超过150GB),Token总数超过300B,涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据。

数据是人工智能重要的基础设施,数据质量是决定人工智能应用能力的关键因素之一。作为综合性文本语料库,“万卷·丝路”采集了多个国家地区的网络公开信息、文献、专利等资料,数据总规模超1.2TBToken总数超过300B300 billion),处于国际领先水平。首期开源的语料库主要由泰语、俄语、阿拉伯语、韩语和越南语5个子集构成,每个子集的数据规模均超过150GB

基于“书生·浦语”智能标签分类体系,研究团队将每个语料子集细分为7个大类和32个小类,覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多类具有语言所在地特征内容,便于研究者根据具体需求检索数据,并可适应不同研究领域多样化需求。

“万卷·丝路”语料库子集分类(共计7个大类、32个小类,图表中仅展示了部分标签)

“万卷·丝路”语料库通过专家人工标注,确立了包含七个维度的文本数据质量评估体系,从完整性、有效性、可理解性、流畅性、相关性、相似性和安全性等方面保障数据的高标准与高质量。

通过使用基于大语言模型的数据质量评估开源工具——Dingohttps://github.com/DataEval/dingo),研究团队从多维度对“万卷·丝路”的数据质量进行了全面评估。结果表明,其五个子集均获得优异的综合评分。

大模型语料数据联盟由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位联合发起。


栏目列表

相关内容

-一带一路-今年前两个月,上海对共建“一带一路”国家进出口同比增长24%

-一带一路-全球共话“十五五”开局|瑞典学者:“一带一路”红利惠及世界 文明互鉴繁盛“创新花园”

-一带一路-「两会关注」深度融入“一带一路” 加快扩大向西开放——代表委员热议进一步扩大高水平对外开放

-一带一路-巴基斯坦媒体:“十五五”为共建“一带一路”开启新阶段

-一带一路-全年对共建国家进出口超4600亿元杭州外贸在“一带一路”打开新空间

-一带一路-中沙高委会共建“一带一路”、重大项目和能源分委会第五次会议成功召开

-一带一路-“一带一路”——我们共同的路|跨越时区的坚守 智慧赋能共筑“空中丝路”

-一带一路-聚焦共建“一带一路”高质量发展 专家学者积极建言献策

-一带一路-去年山西对共建“一带一路”国家跨境收支173亿美元

-一带一路-刘鹏:更好发挥平台作用以高质量合作推动高水平开放

热点内容

-一带一路-“一带一路”应急合作机制再扩...

-一带一路-聚焦高质量共建“一带一路”共...

-一带一路-发挥香港优势 说好中国故事

-一带一路-外贸“朋友圈”扩容、织密立体...

-一带一路-应勇会见越南最高人民检察院检...

-一带一路-中华人民共和国与斯洛伐克共和...

-一带一路-变局中开新格局 港经济稳步前...

-一带一路-中巴经济走廊加速升级

-一带一路-中国发展互联互通合作成果受关...