和豆包聊天多了,尤其是语音聊天多了,再到车上和车里的语音助手聊天,体验落差还是很大的。
现在车上的语音基本都是 2 个模块,一个负责车控相关的,一个负责聊有的没的。
车控相关的是本地的算法,聊有的没的会切到一个 xxGPT 的模型,但是很多车的知识库很有限,模型能力很弱鸡,和现在手机电脑上用的完全比不了。
车控相关的语音交互和3-5 年前其实没有太大的区别,类似于辅助驾驶的规则时代,规则的不断精进,但是一旦遇到规则之外的东西,立马扑街。
所有的车控需求基本都是有固定的触发词,再加上一些规则预设好的的语义,所以你下指令的时候,明显会有一种端起来的感觉。
而且你得提前把措辞梳理好,但凡你不那么机械的说,稍微松弛一点,系统多半是理解不了的。
常规的车控可能还凑合,导航上翻车是最多的。
去陌生的地方如果地面不是特别熟悉,没法一口气讲出来的,现在的导航基本都解决不了,然后就会进入到你说你的它说它的状态。
比如,我说:我想去内个那,叫啥来着,宛平南路 600 号。系统很有可能按照「内个那」来检索地名了。
再比如,我说:我想去………………威皇广福和小海鲜。然后因为中间停的时间太长了,系统停止识别了,开始问我「你想去哪」,但是在它问的时候,我说了地名,系统因为在说话所以没识别到,我又不得不再说一遍。
再比如,我说:我想去xxx小区,系统给我搜了当地的一个小区,我说不是这个,我要去上海的,系统这个时候多半是理解不了的。
特斯拉在北美 Grok 上车之后算是目前的最优解,车控依然是机械的,但是最容易产生交流问题的导航是接入了 Grok。
不过我还是比较期待哪家能做出一个全场景的,真·自然对话的语音系统。
这个是我觉得对于普通用户来说,除了辅助驾驶,另一个「智能」感很强的地方,而且这个静态下即可体验到。