谢赛宁团队新作：让视频模型更好理解3D空间

智能机器之心 2026-05-26 15:39:47

多模态大模型在处理视频时，常常把视频看成一系列独立的2D图像，难以准确把握物体的前后左右和空间关系，空间推理能力相对有限。 NYU谢赛宁团队联合UC Berkeley和Meta FAIR最近提出 Cambrian-P 架构，尝试通过引入相机位姿（Camera Pose）信息来增强模型的空间理解能力。主要改进点： 🔸将相机位姿作为一种几何信号引入模型，每帧添加少量可学习Pose Token，整体改动较小 🔸在空间推理基准VSI-Bench上，相比基线模型提升约4.5%-6.5% 🔸在多个通用视频问答基准上也表现出更好的泛化效果 🔸同时在ScanNet数据集的流式相机位姿估计任务上取得较好结果论文的核心思路是相机位姿可以作为帮助视频模型更好地对齐到物理世界的有用信号，而不仅仅依赖单纯扩大模型规模。这项工作对自动驾驶、具身智能、AR/VR等需要强空间理解的应用场景有一定参考价值。论文已开源，感兴趣的朋友去戳原作细细品读！

0 阅读：1

智能机器之心

感谢大家的关注

作者最新文章

1

微软研究院：零推理成本！Skills自进化神器

2

不是挤进「前十」，是包场「前十」

3

这题我是真会，100万非我莫属。

4

Karpathy：我就是个普通MTS

5

澳大利亚人的崩溃，Gemini 把猫认成小浣熊

6

牛津/NVIDIA重磅：突破KV Cache压缩瓶颈

7

Google AI Studio免费构建原生安卓 App

8

Erdős数学难题，DeepMind一次解决了9个

9

谢赛宁团队新作：让视频模型更好理解3D空间

10

开发者卷效率的正确打开方式，必看！

科技TOP

1

库克也找马斯克合影，马斯克是不是白的喝多了有人说这俩都从美国来的，在中国合影干啥

2

成功了，俄罗斯光刻机终于研发出来了！俄罗斯ProgressSTP-350光刻机

3

大厂疯狂开源，不怕抄袭了？格局变大了？还是别天真了，商场没雷锋，全是阳谋……

4

魅族懵了！小米也懵了，第一个把副屏干成"奢侈品"的，居然是荣耀！磁吸副屏终于来

5

华为放大招！麒麟2026+韬定律，彻底跳出芯片卡脖子！刚从ISCAS2026现

6

为什么中文正在被AI“偷偷加价”？同样一句话，中文消耗的Token比英文更多

7

贾跃亭又拿到7000万美元投资贾跃亭又拿到了7000万美元的融资，目标是五年内在

8

80后真的见证了时代巨变用过算盘、计算器、DOS、win95、98、2000、X

9

兄弟们，摩托罗拉motorazr70Ultra正式发布，直接7499起

10

这个数据让人震惊，2025年Q4，在外卖领域，美团占了45%，淘宝居然占了45.

科技最新文章

1

天气越热，手机越烫手😭最近也太热了，体感直接上39度......整的iP

2

小米最可怕的，可能已经不是汽车了。很多人还在盯着SU7、YU7销量，结果这次财报

3

黄仁勋加入清华大学顾问委员会搜了下，这个委员会的现任主席是苹果CEO库克，其

4

vivo首款头戴降噪耳机配置还行，看怎么定价了，降噪最大深度58dB，重量

5

听我一句劝！现在就是荣耀500Pro的天下，性价比看它就行了荣耀

6

老黄加入了清华大学经济管理顾问委员会，该委员会的使命是加强学院与外部各界的联系，

7

DeepSeek崩了现在已经修复了，但崩的次数有点太频繁了，每个月都要来上这么一

8

折叠iPhone首批保护壳亮相了，看完图其实心里只有一个想法：既然这么复杂，还是

9

荣耀OS这波更新！锁屏直接封神了家人们。首款3D动态景深锁屏+通透到发光～

10

雷鸟GTMax售价2599元、雷鸟GT售价1899元。雷鸟GT