文本超过100万字, Al-DimSum粤语语料库平台发布

广东教育头条
+订阅

第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会在广州大学举行。 受访者供图

第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会在广州大学举行。 受访者供图

12月6日至7日,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会在广州大学举行。现场发布了全球首个集文化忠实、安全可信及AI友好于一体的多模态、大规模、通用粤语语料库平台Al-DimSum。

据悉,Al-DimSum多模态粤语语料库平台建设了语料采集、语料标注、大模型对接、语料确权检索、语料质量评估、语料管理以及应用商店七个子系统。通过子系统协同工作,实现从数据采集、清洗、标注、确权、存储检索,到模型接入与最终应用发布的一体化流程,为粤语语料库的构建、管理、利用与落地应用提供完整、模块化、可扩展的基础设施与运行机制。

该语料库汇聚处理文本语料超过100万字,涵盖新闻、文学、社交媒体等领域,完成3000小时高保真语音标注及1TB以上的音视频资料,包括大模型训练专用语料集、多部包含粤语字幕与标注的动画影视作品、超过10000句多用途粤语生活场景音频和文字语料。还涵盖了岭南文化图像素材10000张,构建了包含6669条权威词条、30000条扩展词条的粤语安全语料库,覆盖粤语大模型内容安全多模态评测题超过20万道等。

AI-DimSum粤语语料库平台发布仪式。 受访者供图

AI-DimSum粤语语料库平台发布仪式。 受访者供图

“当前应抢抓大语言模型人工智能技术机遇,加强‘数字中文建设’,全方位释放语言文字数据要素价值。”教育部语言文字信息管理司司长刘培俊表示,应当主动回应国家、市场和社会大语言需求,构建“一体两翼”的中国特色大语言格局,统筹推进语言文字事业高质量发展、国家语言服务体系高水平供给和国家语言能力高起点建设。为此,教育部、国家语委近日启动“国家关键领域语言科技赋能计划”,聚焦语言密集型场景需求,鼓励创新语言赋能项目、案例和机制,着力构建国家语言服务体系。同时,加强语言人才培养、语言学科建设和语言科学研究,以生动实践回答“强国建设、语言何为”这一时代命题,推进强语强教强国之路行稳致远。

会议现场,国家语言资源服务平台“6+1”资源联合上线,包括了平台及平台中汉字规范服务、汉字信息服务、文化术语翻译服务、精品字库服务、应急语言服务的形象宣传视频和“语服通”大语言模型,汇聚近50家单位近100项语言资源与服务。

该会议由广州大学与国家应急语言服务团共同主办,国家语言服务与粤港澳大湾区语言研究中心(广州大学)、北京语言大学国家应急语言服务团秘书处、广州大学人文学院联合承办,澳门中西创新学院协办。有来自内地及港澳地区50余所高校及语言科技企业的120余位语言服务领域的专家学者与行业代表参加,聚焦“数字中文建设与语言服务”“平安中国建设与应急语言服务”两大核心议题,举行四场大会报告和五场专题研讨。

南方+记者 黄子欣

通讯员   广大宣

编辑 张志超 彭正子
校对 叶枫
+1
您已点过

订阅后可查看全文(剩余80%)

更多精彩内容请进入频道查看

还没看够?打开南方+看看吧
立即打开