大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

百度伐谋Agent 2.0再次登顶MLE-Bench,中国AI工程化能力再获验证

商业范儿 2026-04-10

近日,百度智能云推出的企业级算法自主优化智能体——百度伐谋Agent 2.0,再次登顶机器学习工程权威基准MLE-Bench,并刷新SOTA(最优)成绩。这是继去年10月首次登顶后,百度伐谋凭借顶尖的工程能力再一次领跑全球。据悉,百度伐谋2.0将在今年5月的Create 2026百度AI开发者大会上正式发布。

由OpenAI主导设立的MLE-Bench是检验智能体“动手能力”的硬核考场。它包含75个来自Kaggle竞赛的真实工程难题,重点考察人工智能在模型训练、数据准备、实验运行等机器学习全流程中的端到端实战能力。作为一个寻找最优解的智能体,百度伐谋对于任何具有明确评价标准的问题,都能像顶尖算法工程师一样,完成从需求理解到最优解输出的全链路自动化,寻找全局最优解。去年10月,百度伐谋发布即登顶MLE-Bench。

最新的评测中,百度伐谋 2.0在“高难度”任务上的攻坚能力依旧表现突出,综合胜率显著领先。评测显示,在统一运行标准下,百度伐谋2.0在“高难度”任务上的综合胜率显著领先,超越了搭载Claude-Opus-4.6等主流大模型的同类智能体,再次印证了百度伐谋在系统性分析复杂问题、迭代优化解决方案的成熟能力。

据了解,百度伐谋2.0在演化策略、长程记忆机制、底层基础设施等层面进行了全面优化。其中,增强的演化策略能够让智能体在多条路径上并行探索,适时回溯调整,从而找到更优的解决方案;其长程记忆机制能够帮助智能体在人类工程师一样,在长链条任务中保持思路清晰、逻辑一致;依托百度智能云全栈AI云基础设施优化则让算法演化迭代的效率显著提升。

同时,百度伐谋 2.0还大幅降低了算法使用门槛,即便没有算法背景的业务人员,也能以自然语言和数据文件发起需求,系统自动交付可解释、可交互、可落地的决策方案,快速产出企业级解决方案。

百度伐谋上线至今已经吸引数千家企业使用,覆盖零售、金融、制造、能源、交通等国民经济核心领域。

在汽车制造领域,阿尔特太乙与伐谋合作研发御风智能预测系统,将单次风阻验证时间从10小时压缩至数分钟,整车研发周期平均缩短25%;在金融风控领域,中信百信银行引入伐谋7×24小时不间断挖掘风险特征,效率提升100%,风控模型风险区分度提升2.41%;在能源基建领域,中国能建广东院用伐谋解决海上风电电缆桥架布置难题,节省近一周工期与大量材料成本;在交通信控领域,鄂尔多斯伊金霍洛旗引入百度智能云伐谋信控平台后,车均延误降低18%,高峰通行用时降低50%以上。

百度伐谋在科研场景同样展现出巨大应用价值。北京工业大学团队将伐谋引入中国空间站微型气相色谱柱设计实验,以自动化寻优代替人工反复仿真,大幅提升分离效率;天津大学团队将伐谋用于灾害预测模型选优,把原本以"周"为单位的科研探索压缩至6小时内出成果。

为进一步降低科研团队的使用门槛,百度智能云近期还开源了Famou for Science项目,基于多智能体协同模式构建完整虚拟科研团队,涵盖团队负责人、实验管理、文档管理与评审等角色,可支持长线程科研任务的自动化推进,实现学科知识机理和样本数据融合的创新算法实验持续演化。

业界认为,从MLE-Bench榜单到千行百业,百度伐谋2.0的再度登顶不只是技术指标的刷新,更是中国AI在企业级算法工程领域持续深耕的有力证明。

大疆Pocket 4将于4月16日发布
4月9日晚,大疆创新官方正式宣布,大疆Osmo Pocket 4将于4月16日20:00发布,产品主题为 “一寸万象、光影随行”。根据目前曝光的信息,Osmo Pocket 4系列将是该产品线史上最大幅度的一次升级。规格方面,标准版将首次搭载1英寸大底传感器,并配备双摄光学系统

2026-04-10

余承东公开发飙骂团队审美崩塌,朋友圈炸出华为真问题
2026年4月8日,余承东一条朋友圈直接炸穿科技圈。他在微信朋友圈转发《纯主观 | 有钱就有审美了吗?》一文,毫不掩饰地公开批评:最近多次猛烈批评团队有些零售设计没做好,核心原因出在审美上。他要求全员恶补审美,坚持极致、简约、纯净,从工业设计、零售

2026-04-10

击败PI!星动纪元斩获「具身灵巧操作奥林匹克」三项全球第一!
近日,在全球具身灵巧操作难度顶尖的真机赛事——Benjie's Humanoid Olympic Games(以下简称Benjie's Olympics)中,星动纪元凭借自研VLA具身模型,一举斩获该赛事剥橘子、开锁、翻袜子三项任务全球第一。不仅打破Physical Intelligence(以下简称PI

2026-04-10