[CL]《Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs》M Hsu, Y Hu, S Liu, J Li… [Microsoft Research & Microsoft Research Asia & The Chinese University of Hong Kong] (2026)
在语音与大语言模型(LLM)的融合中,连续声学信号如何进入冻结的LLM存在两难:要么强制近离散对齐以利于转录却丢失韵律情感信息,要么学习无约束连续表示却可能偏离LLM输入空间导致自回归解码退化。
本文的核心洞见是:将每帧语音表示为LLM词嵌入表的凸组合。Convex Gate(C-Gate)通过架构层面的凸包约束,确保所有语音表示严格位于预训练LLM的输入嵌入流形内,既保持与冻结LLM的兼容性,又保留连续表达能力。
这项工作真正留下的遗产是:信息不由离散token身份承载,而由嵌入空间中的时序轨迹传递——几何结构而非token离散性才是语音-LLM接口的根本设计要素。它为后来者打开的新门是在冻结骨干下实现语义与副语言信息的联合优化(LibriSpeech WER相对降低48.7%同时保持情感识别准确率),但尚未跨过的门槛是如何在更大规模数据和更复杂推理任务中验证该几何约束的普适性。
arxiv.org/abs/2606.09366 机器学习 人工智能 论文 AI创造营



