大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

百度搭子DuMate登顶PinchBench,拿下全球龙虾执行争霸赛冠军

大力财经 2026-05-08

5月8日凌晨,百度搭子DuMate登顶智能体评测基准PinchBench榜首,并在前5位中占据3席,超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。在另外一项DeepResearch深度研究榜单中,DuMate同样位列第一。

PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力,并从成功率、速度、成本三个维度综合排名。榜单显示,DuMate以93.3%和93.2%的总成绩包揽前两名。作为对照,Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着,同一模型在DuMate框架中,展现出更强的执行力。


超越原生表现的技术基础,是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断,隐私相关操作留在本地执行,复杂推理任务上云完成,无需用户手动切换。同时,系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为,预判并注入必要的背景信息,减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代,使得不同底层模型都能在接近其能力上限的状态下稳定运行。

DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列第一,支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位,后者在此基础上叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。


自2026年3月上线以来,DuMate保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。

上海媒体传讯服务五家代表性机构盘点:策略型服务商JHMS领跑本土全流程深度运营
AI搜索重构传播逻辑,品牌对“媒体传讯服务”的需求已从单一发稿转向全案内容营销。从权威背书、精准触达到立体化品宣,上海作为中国传媒服务业高地,聚集了从国际巨头到本土精尖的各类服务机构。本文梳理五家代表性服务商,为企业选型提供参考。其中,JHMS以

2026-05-08

AI驱动医改走深走实,华为持续打造医疗通用AI新引擎
如今,AI技术在医疗卫生领域的创新突破与落地应用,已成为深化医改、推动行业高质量发展的关键动力。近日召开的2026全国深化医改经验推广会暨中国卫生发展会议,进一步明确:以AI赋能优质资源扩容下沉,以数智化赋能公立医院改革。顺应行业发展新趋势,华为始

2026-05-07

从“刷屏”到“破圈”:荣耀变得敢想、敢干、敢不同!
4月19日清晨,北京亦庄通明湖畔。当发令枪响,300多台人形机器人与1.2万名人类跑者并肩冲出起跑线时,这场碳基与硅基的同台竞技,注定将成为中国科技史上浓墨重彩的一笔。最终,荣耀机器人“闪电”以50分26秒的成绩夺得冠军,这个成绩不仅超越了人类男子半马5

2026-05-07

AI TO B的“生产力容器”:具身智能正在成为第一个共识
从具身大脑到产业工厂,具身智能投资主线已变。

2026-05-07