[CL]《IsTextAllYouNeed?TextasaUni

爱生活爱珂珂 2026-06-10 06:03:59

[CL]《Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs》M Hsu, Y Hu, S Liu, J Li… [Microsoft Research & Microsoft Research Asia & The Chinese University of Hong Kong] (2026)

在语音与大语言模型（LLM）的融合中，连续声学信号如何进入冻结的LLM存在两难：要么强制近离散对齐以利于转录却丢失韵律情感信息，要么学习无约束连续表示却可能偏离LLM输入空间导致自回归解码退化。

本文的核心洞见是：将每帧语音表示为LLM词嵌入表的凸组合。Convex Gate（C-Gate）通过架构层面的凸包约束，确保所有语音表示严格位于预训练LLM的输入嵌入流形内，既保持与冻结LLM的兼容性，又保留连续表达能力。

这项工作真正留下的遗产是：信息不由离散token身份承载，而由嵌入空间中的时序轨迹传递——几何结构而非token离散性才是语音-LLM接口的根本设计要素。它为后来者打开的新门是在冻结骨干下实现语义与副语言信息的联合优化（LibriSpeech WER相对降低48.7%同时保持情感识别准确率），但尚未跨过的门槛是如何在更大规模数据和更复杂推理任务中验证该几何约束的普适性。

arxiv.org/abs/2606.09366 机器学习人工智能论文 AI创造营

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

[CL]《Is Text All You Need? Text as a Uni

2

[CL]《End-to-End Context Compression at S

3

早！早安

4

晚安～晚安

5

【AI没有杀死数学家，它只是让“犯错”变得便宜了】很多人担心AI会取代人类在数学

6

开源教课书《Principles and Practice of Deep Re

7

【Kimi Code升级：多模态Agent如何重塑开发工作流】Kimi Code

8

【AI开发新范式：从“写提示词”到“设计循环”】最近技术圈在热议“Loop En

9

【LangChain推出Fleet：多Agent协同的终极UX是“隐形”】Lan

10

【AI的真正实力，藏在你看不到的“思考成本”里】很多人盯着新模型的跑分，觉得AI

科技TOP

1

华为畅享90系列之后，华为nova16系列销量又大爆发了，今年国内这势头让很多厂

2

库克也找马斯克合影，马斯克是不是白的喝多了有人说这俩都从美国来的，在中国合影干啥

3

成功了，俄罗斯光刻机终于研发出来了！俄罗斯ProgressSTP-350光刻机

4

好消息，鸿蒙版的微信又有新版本尝鲜升级！大家快去应用市场下载！

5

iPhone这三种边框，哪个更好用？从不锈钢到钛合金，再到铝合金iPhon

6

魅族懵了！小米也懵了，第一个把副屏干成"奢侈品"的，居然是荣耀！磁吸副屏终于来

7

仅有一家公司盈利，为何人形机器人赛道却挤满了万亿巨头？目前真正实现盈利的人形

8

华为放大招！麒麟2026+韬定律，彻底跳出芯片卡脖子！刚从ISCAS2026现

9

80后真的见证了时代巨变用过算盘、计算器、DOS、win95、98、2000、X

10

这个数据让人震惊，2025年Q4，在外卖领域，美团占了45%，淘宝居然占了45.

科技最新文章

1

据最新爆料曝出重磅消息，苹果iPhoneUltra国内首发现货配额将极为稀缺

2

WWDC26最大的信号不是新系统，而是苹果正式迈入“AI操作系统”时代全新

3

华为为什么做鸿蒙？2019年，华为意识到核心系统掌握在别人手里，企业发展始终

4

【什么？！荣耀也要推出ProMax机型！】根据数码闲聊站博主爆料：荣耀X

5

iOS27内置壁纸尝鲜版(后续有高清的我再发)先体验一波

6

2025年了2500元以上还会有塑料中框？回旋镖来了老老实实接着就是了，总比双

7

友商估计要哭了，接下来还怎么玩华为拿下60%的市场份额荣耀拿下21%的市场份

8

一顿操作猛如虎，结果只有25%！小米17Max这是彻底拉了吗？很多米粉对于

9

华为畅享90系列之后，华为nova16系列销量又大爆发了，今年国内这势头让很多厂

10

抛开品牌因素，荣耀600和华为nova16大家会怎么选？这两款新机定位年轻群