AI超级智慧背后的秘密竟是它!国内前沿AI推理系列方案发布,让AI更强大。 你

码不亭看科技 2026-06-01 18:18:54

AI超级智慧背后的秘密竟是它!国内前沿AI推理系列方案发布,让AI更强大。 你发现没?今天,AI深度分析能力越来越强,正在加速渗入各行各业的核心环节。AI辅助CT诊断秒级标记出可疑病灶,辅助医生诊断;AI编程助手能根据指令,编写完整的Rust语言编译器,帮助更高效开发;AI自动驾驶能实时感知路况,在毫秒间判断前方障碍物并规划避让路径;AI金融风控通过扫描大数据,建立多维度客户动态信用画像,帮助评估信贷风险....... 这些无处不在的AI应用,展示了AI越来越强的推理能力。同时,也说明,AI要进一步发展,推理强化至关重要。 但推理要做得又快又省,并不容易。日前,在"鲲鹏昇腾创享月"直播中,华为昇腾技术专家团带来了AI推理的一套"全家桶"——全套昇腾AI推理软件,从调度、利用率、部署三个维度全面赋能推理性能。 首先,在调度方面,昇腾主要做的是让缓存“找对人”。你跟AI多轮对话时,很多内容之前其实已经算过一遍了,比如系统提示词、历史消息,这些重复的内容不需要每次重新算。但传统调度是"谁闲着派给谁",不管之前的数据存在哪,结果同一个问题在不同实例上反复计算。 昇腾MindIE Motor的KV亲和调度换了思路:先统一存好历史缓存,再建索引记录每份缓存在哪,调度时综合判断"哪个实例命中缓存最多"和"当前负载高不高",选出最合适的来处理。就像打车时平台不是派最近的车,而是派最顺路的车,省去绕路。实测Prefill吞吐提升80%以上(50%命中时),高并发整体吞吐提升超50%。 其次,是利用率方面,昇腾主要做的是让芯片“别空等”。推理过程中,调度逻辑和计算逻辑是串行的,调度做完才能算,算完才能调度下一轮,两轮之间芯片空等高达8-10毫秒。vLLM Ascend通过异步调度让两者并行,上一轮还在算,下一轮的调度就已经准备好了,在DeepSeek V3.1上,空泡从8-10毫秒降到100多微秒,低时延场景性能几乎翻倍。同时,HMA混合内存分配让不同类型请求在同一个池子里按需申请,KV Cache利用率提升至90%以上。 最后,是部署方面,昇腾主要做的是让大模型“跑得起”。大模型动辄几百GB,一台机器装不下就得跨机部署,跨机通信开销大、成本高。MindStudio工具链从量化切入:以Qwen3.5-397B-A17B为例,msModelSlim量化工具将模型从752GB压缩到220GB,精度损失不到1%,原来双机跨机才能跑的模型现在单机就能部署,硬件成本直降。 调度更聪明、算力更充分、部署更省心——昇腾AI推理软件栈,正在让AI推理更快、更稳、更简单。 鲲鹏昇腾创享月鲲鹏昇腾开发者大会2026昇腾超节点

0 阅读:0
码不亭看科技

码不亭看科技

感谢大家的关注