粤语数字化新突破!AI-DimSum 多模态语料库平台正式上线
【粤语数字化新突破!AI-DimSum 多模态语料库平台正式上线】
——广州大学引领方言智能保护新范式
一、破局:为何粤语亟需一场“数字重生”?
粤语,不仅是广府文化的精神血脉,更是全球超1.2亿人日常交流的语言载体——从粤港澳大湾区到北美唐人街,从东南亚华人社区到YouTube粤语Vlog频道,其生命力跨越地理与代际。然而,在人工智能高速迭代的今天,粤语却长期被贴上“低资源语言(Low-Resource Language)”的标签:主流语音识别系统对粤语的误识率高达35%以上;大型语言模型在粤语问答、文本生成等任务中表现乏力;网络平台缺乏标准化粤语标注数据,导致机器翻译生硬、语音合成失真、方言情感分析失准……技术鸿沟正悄然加剧语言断层风险——年轻一代粤语听说能力持续弱化,而数字世界又未能提供足够友好的粤语交互环境。
这一困境背后,是语料建设的系统性缺失:传统粤语语料多为单模态(仅文本)、小规模(数千句)、非平衡(偏重书面语或新闻语体)、缺标注(无音素切分、声调标记、语义角色、情感极性等深层信息)。粤语的复杂性——九声六调、文白异读、大量粤语特有词汇(如“嘅”“咗”“啲”)、高度依赖语境的隐喻表达(如“食花生”指看热闹),更对数字化提出远超普通话的技术挑战。
二、创举:AI-DimSum——首个面向AI训练的粤语多模态语料库平台
在第十届语言服务高级论坛(2024·广州)上,广州大学联合广东省智能科学与技术研究院、香港中文大学(深圳)语言计算实验室及多家粤语媒体机构,正式发布AI-DimSum粤语多模态语料库平台(AI-driven Cantonese Diverse Multimodal Speech & Text Understanding Matrix)。该平台并非简单语料汇编,而是一套“可学习、可验证、可扩展”的智能基础设施,具有四大核心突破:
✅ 全模态融合,覆盖真实语言使用场景
平台首期整合超500小时高质量粤语语音(含自然对话、粤剧唱段、电台播音、课堂授课、短视频口播)、280万字结构化文本(涵盖社交媒体帖文、本地新闻、儿童绘本、法律文书、美食博客等12类语域),并同步提供精准对齐的音视频-文本-声学特征三重标注。尤为创新的是,平台首次引入粤语手语视频子库(含3000+常用粤语词汇的手语表达),推动残障人士语言权利保障。
✅ 深度语言学标注,激活AI理解底层逻辑
区别于通用语料库,AI-DimSum由粤语语言学家团队主导完成精细化标注:
▪️ 声调与变调规则标注(标注每个音节的实际调值及连读变调类型,如“广州话‘唔该’的‘唔’在句首读阴平,但‘唔该晒’中受后字影响变为低升调”);
▪️ 文白异读自动区分(如“行”在“行路”中读/hɐŋ˩/,在“银行”中读/hɛŋ˨/);
▪️ 粤语语法依存树库(构建首个大规模粤语依存关系标注集,覆盖“动词后置补语”“程度副词前置”等特色结构);
▪️ 社会语用标签体系(标注语体正式度、地域变体(广佛/港式/澳门口音)、说话人年龄/性别/教育背景、话语功能(请求/调侃/委婉拒绝)等)。
✅ AI就绪设计,直击模型训练痛点
平台采用模块化架构,支持按需下载:
▪️ 提供标准训练/验证/测试划分(符合NIST、ICASSP等国际评测规范);
▪️ 内置粤语专用预处理工具链(含粤拼自动转写器Jyutping-Converter Pro、声调归一化模块、粤语分词增强版LTP-Cantonese);
▪️ 开放API接口,支持主流框架(PyTorch/Hugging Face Transformers)一键加载;
▪️ 发布基线模型性能报告(如基于该语料微调的Whisper-Cantonese语音识别模型CER降至8.2%,较通用模型提升41%)。
✅ 开放共享机制,构建可持续生态
AI-DimSum遵循CC BY-NC-SA 4.0协议,高校与非营利机构可免费商用;企业用户通过“粤语数字伙伴计划”可获定制化数据服务。平台同步上线粤语数字能力评估中心,提供在线测评工具(如“粤语语音识别鲁棒性测试”“粤语语义一致性检验”),助力开发者持续优化模型表现。
三、纵深:不止于语料——一场跨学科的语言科技行动
AI-DimSum的诞生,是广州大学“语言智能与社会服务”交叉学科建设的标志性成果。项目历时3年,组建了由语言学家(粤语语法学家陈慧敏教授领衔)、语音工程师(国家杰青李岩博士团队)、计算语言学家(Hugging Face粤语社区核心贡献者Kwok Wai)、人类学者(聚焦粤语代际传承田野调查)及一线教师(开发粤语AI教学助手原型)构成的“五维协同”研发共同体。
更值得关注的是其社会延展价值:
🔹 教育赋能:已与广州市12所中小学合作试点“粤语AI伴学计划”,学生可通过语音交互练习地道表达,系统实时反馈声调准确度与语用得体性;
🔹 文化活化:联合广东粤剧院构建“粤剧唱腔声学图谱库”,助力AI复原濒危流派唱腔;
🔹 政务升级:接入广州市12345热线粤语语音分析系统,实现市民诉求自动分类与情感倾向预警;
🔹 全球连接:平台英文界面与术语对照表已上线,吸引新加坡南洋理工大学、英国伦敦大学亚非学院等机构加入共建。
四、展望:粤语数字化的下一程
AI-DimSum的上线不是终点,而是粤语智能生态的起点。项目组透露,二期工程将重点突破三大方向:
🔸 构建百亿级粤语合成语料,覆盖粤语所有声母、韵母、声调组合的最小对立对(Minimal Pairs),攻克“懒音”识别与矫正难题;
🔸 启动粤语大语言模型CantLLM预研,基于AI-DimSum训练具备粤语思维链(Chain-of-Thought in Cantonese)能力的专属基座模型;
🔸 建立粤语数字遗产区块链存证系统,为老艺人粤语口述史、地方戏曲录音等珍贵资源提供不可篡改的时空锚点。
正如论坛主旨演讲中广州大学副校长、语言智能研究院院长张明远教授所言:“保护一种方言,不是把它送进博物馆玻璃柜,而是赋予它在数字时代呼吸、思考、创造的能力。AI-DimSum的使命,是让‘饮啖茶,食个包’这样朴素的粤语日常,也能成为驱动算法跃迁的文明密码。”
当技术不再以‘统一’之名消解差异,而以‘尊重’为尺丈量每一种声音的厚度——粤语的数字化未来,正在广州大学的服务器集群里,悄然沸腾。
(本文数据来源:广州大学语言智能研究院《AI-DimSum平台白皮书(2024)》、国家语委《粤港澳大湾区语言生活状况报告》、ACL Anthology粤语NLP研究综述)
🔗 平台访问:https://dimsum.aigd.edu.cn
📢 开源代码与语料下载:https://github.com/GZU-AI-DimSum