[CL]《BringingUpaBilingualBabyLM:Inv

爱生活爱珂珂 2026-04-02 06:23:49

[CL]《Bringing Up a Bilingual BabyLM: Investigating Multilingual Language Acquisition Using Small-Scale Models》L Zeng, S Y. Feng, M C. Frank [The Harker School & Stanford University] (2026)

在双语习得研究领域,「同时接触两种语言是否损害母语学习」是一个悬而未决的难题。过去的研究受困于无法对儿童进行随机分组、无法匹配两种语言的输入量,本质原因是真实的人类语言环境无法被实验控制。

本文的核心洞见是:把语言模型训练重新看作「可操控的受控养育实验」。由此,用100M词的合成英西双语对话数据,在固定学习者架构的前提下,系统切换输入结构(随机混合、按说话人分离、句级/词级语码转换),这一关键操作使「输入结构是否影响习得」的问题得以在因果框架下解开。

这项工作真正留下的遗产是:双语输入对纯粹的统计学习者不构成混淆或一语损耗,性能差异主要由各语言的数据量对数决定,而非输入结构。它为后来者打开的新门是:用计算模型为认知科学中的语言习得争论提供因果检验路径。但尚未跨过的门槛是:模型缺乏语音、韵律等区分语言的感知通道,合成数据也难以复现真实双语环境的社会性复杂度,因此结论能在多大程度上迁移至人类学习者仍是开放问题。

arxiv.org/abs/2603.29552

机器学习 人工智能 论文 AI创造营

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注