司法培训资讯网:2025年4月8日-10日,在江苏省公证协会与南京市公证协会组织下,南京公证处、石城公证处、钟山公证处、江苏国际数据港和南京学府翻译有限公司共同开展了全国首例公证行业大模型训练数据集标注活动。
目前,AI发展正在从“以模型为中心”加速转向“以数据为中心”,高质量的训练数据集决定了模型的精准度,因此,全省近30名资深高级公证员齐聚石城公证处,聚焦公证行业大模型的业务逻辑、法律术语等关键维度开展封闭式数据标注作业,旨在为模型精准理解公证场景筑牢坚实的数据根基。
公证行业大模型具体由图灵人工智能研究院实施开发,其模型底座采用DeepSeek和Qwen等多模态架构,构建行业级智能体矩阵,并在石城公证处本地三级等保机房进行离线部署。大模型数据收集、清洗、初期标注工作已先期完成。本次活动在充分准备的基础上,由人工对标注结果进行审核和修正,既提高标注的效率,同时保证了标注质量。
标注工作期间,全省公证法律专家汇聚一堂,针对公证业务中的各类特殊疑难问题展开细致标注,完成了3000余条数据的标注工作,累计前期标注数据超万条,覆盖了绝大多数公证法律服务事项,为公证行业大模型训练提供了高质量的数据,有效提升了大模型在公证领域的专业性与精准度,为模型精准理解公证场景奠定基础。
公证行业专家对训练数据集的标注是大模型成功落地应用的核心前提,通过模型与数据的场景融合,可以显著提升公证行业的工作效率,协助公证人员办理疑难复杂的公证事项,进一步构建行业信息开放共享的数据生态,助推公证数字化发展不断迈向新高度,为公证行业高质量发展注入强大动力。