大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

百度搭子DuMate登顶PinchBench,拿下全球龙虾执行争霸赛冠军

大力财经 2026-05-08

5月8日凌晨,百度搭子DuMate登顶智能体评测基准PinchBench榜首,并在前5位中占据3席,超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。在另外一项DeepResearch深度研究榜单中,DuMate同样位列第一。

PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力,并从成功率、速度、成本三个维度综合排名。榜单显示,DuMate以93.3%和93.2%的总成绩包揽前两名。作为对照,Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着,同一模型在DuMate框架中,展现出更强的执行力。


超越原生表现的技术基础,是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断,隐私相关操作留在本地执行,复杂推理任务上云完成,无需用户手动切换。同时,系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为,预判并注入必要的背景信息,减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代,使得不同底层模型都能在接近其能力上限的状态下稳定运行。

DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列第一,支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位,后者在此基础上叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。


自2026年3月上线以来,DuMate保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。

从首发4nm智驾芯片到兜底城市领航安全,比亚迪开启AI新征程
在AI技术的驱动下,汽车正在从单纯的出行工具加速进化为能主动思考的智能生命体。但对于普通消费者而言,即便是拥有带智驾功能的车辆,仍有约70%的用户不常用、甚至不敢用。为了让好技术人人可享、人人放心享,日前,比亚迪率先承诺为城市领航安全兜底1年。也

2026-06-01

中端机卷到极致,vivo S60 另起一局
vivo S60 重新读懂年轻人

2026-05-30

交大医学院携手华为:解锁光智共融,AI F5G-A如何重塑数智校园?
周浦镇位于上海市浦东新区西部、黄浦江东岸,既有“浦东第一镇”“小上海”的美誉,也是被称为“医谷”的上海国际医学园区所在地。2025年9月,上海交通大学医学院(以下称“交大医学院”)浦东校区的正式启用,不仅为“医谷”补上了医学教育的关键拼图,更开

2026-05-29

Agent还没来,昇腾已经把从硬件到软件的路铺好了
昇腾,打响了一场Agent前夜的“硬软合围战”

2026-05-29

网媒发稿为什么应该选择JHMS媒体传讯服务?三次踩坑实录与避坑指南
网媒发稿,又称网络媒体发稿,是企业/组织/个人将新闻、资讯、软文等内容送达至网络媒体方审核以期获得刊载传播的行为。和传统纸媒发稿相比,网媒发稿的传播速度更快、覆盖范围更广,是现在主流的品牌传播、公关宣传方式。网媒发稿实现形式总体可以分“自行联

2026-05-29