> 自媒体 > (AI)人工智能 > DeepSeek V3.2爆火,Agentic性能暴涨40%解密
DeepSeek V3.2爆火,Agentic性能暴涨40%解密
来源:新智元
2025-12-11 09:34:00
146
管理

编辑:艾伦

【新智元导读】DeepSeek V3.2的Agentic能力大增,离不开这项关键机制:Interleaved Thinking(交错思维链)。Interleaved Thinking风靡开源社区背后,离不开另一家中国公司的推动。

大模型的「健忘症」,早该治治了!

当你试图用当今最先进的大模型帮你完成一个复杂的长假规划,比如「带全家老小去云南玩七天」时,往往很可能会遭遇一个令人崩溃的时刻:

起初,这位「导游」表现得极其靠谱,分析得头头是道。

它记得你说的每一句要求,帮你规划了昆明到大理的路线,甚至贴心地避开了游客太多的网红店。

但随着对话进行到第十轮,你们为了选酒店修改了五次方案,又为了某顿晚餐争论了半天后,它突然「失智」了。

它开始忘记你一开始强调了无数遍的死命令:「带着80岁的奶奶,绝对不能安排爬山和剧烈运动」。

在最新的行程表里,它竟然兴致勃勃地建议:「第四天清晨:全家早起徒步攀登玉龙雪山,欣赏日照金山,全程耗时4小时……」

DeepSeek: Thinking in Tool-Use

MiniMax等部分厂商也将其称作Interleaved Thinking(交错思维链),从示意图即可看出,二者本质上是等价的。这是一个更贴近技术的称呼。

ReAct流程示意图

在很长一段时间里,我们构建AI Agent的逻辑非常线性:观察->思考->行动。

这看起来很符合直觉,但在实际的工程实现(如OpenAI的Function Calling(函数调用))中,这个过程往往被简化成了「模型直接输出工具调用指令」。

问题就出在这里。

模型在输出Action(比如「读取文件A」)的那一刻,它的「脑子」是清醒的。

但当工具执行完毕,返回了数千行的代码或网页内容后,模型进入下一轮生成时,它面临着巨大的环境扰动。

想象一下,你是一个程序员,每写一行代码,就有人把你打晕,清除你的短期记忆,然后把刚才的运行日志扔给你,让你继续写。

由于缺乏显式的、连续的思维记录,模型很容易被复杂的工具返回结果带偏。

它可能会被报错信息吸引注意力,从而忘记了原本的长期规划。

这就是「隐式推理」的诅咒。

模型的思考过程隐藏在权重里,一旦被打断(Turn-based interaction),这些思维火花就烟消云散了。

然而,在BrowseComp(网页浏览任务)上,提升幅度达到了惊人的40%(从31.4飙升至44.0);在Tau²这种复杂推理任务上,提升了36%。

为什么会有这种巨大的差异?这触及了Agent技术的深层原理。

MiniMax的后训练团队在技术复盘中指出:Agent的核心挑战,在于对抗环境的扰动。

低扰动环境(SWE-Bench):代码环境相对纯净,报错信息通常是确定性的。模型即使稍微「走神」,也能根据明确的Traceback找回逻辑。高扰动环境(BrowseComp):真实的互联网充满了噪音。广告、无关的侧边栏、复杂的DOM结构、甚至是错误的搜索结果。在传统的ReAct模式下,模型极易被这些噪音带偏。

交错思维链实际上充当了一个「滤波器」。

模型通过显式的思考,在接收到庞杂的网页信息后,先进行一轮「信息清洗」和「逻辑校准」:「我刚才搜索了X,结果里有很多无关信息,只有第三段是我需要的,接下来我应该根据这个线索去查Y。」

这种「走一步、停下来想一步、再走下一步」的机制,极大地增强了模型的健壮性。

它将一个长达数十步的脆弱链路,拆解成了一个个稳固的「原子化」思考闭环。

AWS re:Invent 2025大会上,AWS CEO宣布Amazon Bedrock模型库迎来扩容,MiniMax M2作为中国模型代表在列

英雄所见略同

DeepSeek V3.2和Kimi K2 Thinking的入局

DeepSeek V3.2和Kimi K2 Thinking的发布,宣告了这条路正式成为了通往未来的主干道。

最近引发轰动的DeepSeek V3.2,其核心特性之一「Thinking in Tool-Use」(使用工具中思考),在本质上与MiniMax倡导的交错思维链是完全一致的。

DeepSeek的技术文档中明确指出:模型在调用工具时,会保持思维链的连续性,直到收到新的用户消息才会重置。

这种设计逻辑与MiniMax M2强调的「多轮交互中保留思考状态」如出一辙。

Kimi K2 Thinking也支持了交错思维链,进而得以Agentic能力上突飞猛进。

虽然两家在具体的API字段命名上可能略有不同(MiniMax使用reasoning_details,DeepSeek使用reasoning_content,Anthropic使用thinking_blocks等),但在系统设计哲学上,大家已经达成了一致:显式的、交错的、持久化的思考,是智能体进化的必经之路。

OpenAI的研究表明,AI的性能不仅遵循参数量的Scaling Law,也遵循Test-Time Compute(测试时计算)的Scaling Law。

它正在从那个只会根据提示词模板机械执行命令的「复读机」(Copilot),进化为能够在复杂的真实世界中,面对无数未知的扰动和噪音,依然能够停下来思考、自我修正、并坚定地执行长链路任务的「思想者」(Autopilot)。

而这,已成行业的共识。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
泡沫人生(普通会员)
文章
1600
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263552 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索