大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

超越Deepseek!文心大模型X1代码、数学、推理等能力大幅提升

ITBEAR科技资讯 2025-03-26

今日,据媒体报道,在多个公开数据集测评中,百度最新发布的文心大模型X1,在数学、代码、推理等能力上表现优异,超越升级后的DeepSeek-V3-0324。

在数学场景中,GSM8K数据集测试后结果显示,文心X1得分95.6,DeepSeek-V3-0324得分93.6;代码生成层面,Humaneval数据集测试后结果显示,文心X1得分90.9,DeepSeek-V3-0324得分86.6;在知识推理层面,C-eval数据集测试后结果显示,文心大模型X1得分88.6,DeepSeek-V3-0324得分85.1。

近日,DeepSeek官方宣布V3模型完成小版本升级的消息,包括推理、前端开发、中文写作、中文搜索几个方面的能力优化。

而在不久前,百度正式发布文心大模型X1,具备更强的理解、规划、反思、进化能力。文心X1由百度的慢思考技术发展而来。作为能力更全面的深度思考模型,兼备准确、创意和文采,在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。

据悉,文心大模型X1即将上线千帆大模型平台,API调用价格为DeepSeek-R1调用价格的50%。


追觅“星空计划”Nebula NEXT 01 Concept获CES官方置顶推荐
全球科技与创新风向标CES 2026展会圆满落幕。先锋科技品牌“星空计划”(Nebula NEXT)凭借其旗舰概念车 Nebula Next 01 Concept 强势登场,吸引全球媒体关注并获得CES官方首页推荐,成为本届展会最受瞩目的品牌之一。作为“生而全球”的智能出行品牌,星空计

2026-01-21

钉钉、高德、支付宝联手推出AI差旅
1月20日,钉钉更新8.2.5版本,由钉钉联合高德、支付宝打造的「AI差旅」产品正式上线。所有企业用户在最新版钉钉内搜索“AI差旅”“差旅用车”“机票”“酒店”等关键词即可免费开通,无需垫资、无服务费。同时,AI印、AI听记同声传译等能力也在该版本中全量上

2026-01-21

AI手机的终极猜想:超级Agent入口|产业深度
以Agent为中心重构用户体验

2026-01-20

打造中国版Open Evidence,蚂蚁阿福 PC端上线 DeepSearch功能
今日,蚂蚁阿福升级其 PC 端,并上线DeepSearch(深度搜索)功能打造中国版“Open Evidence”,免费为医生、医学生及基层医疗工作者等泛医学人士提供专业服务。蚂蚁阿福 PC端提供健康咨询、DeepSearch 两大专业能力,可以成为医生在文献搜索、临床诊疗、科研

2026-01-20