大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

大力财经 2024-06-13

近日,复旦大学自然语言处理(NLP)实验室LLMeval团队公布了2024 年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新 II 卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新 I 卷评测排名中,字节豆包也排在前列。

据悉,LLMeval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。


评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新 II 卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、Humaneval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和Ceval的评测上,豆包也有不错的表现,得分排在前三。

51WORLD荣获数字中国创新大赛·信创赛道·生态协同引领奖
4月29日,2026数字中国创新大赛·信创赛道全国总决赛颁奖仪式在福州隆重举行,北京五一视界数字孪生科技股份有限公司(简称“51WORLD”)与水利部 交通运输部 国家能源局南京水利科学研究院(简称“南京水科院”)联合申报的“基于国产化环境的数字孪生水利超

2026-04-30

充电宝版钉钉录音卡来了!DingTalk A1 Pro今日正式开售
4月30日,钉钉正式推出DingTalk A1 Pro,并在天猫钉钉官方旗舰店开售,售价1299元。这是钉钉AI硬件家族的全新成员,专为高频出差的商务人士和超级个体打造——它不仅是一台专业AI录音卡片,还自带2980mAh大电池,可以随时为手机应急充电,已通过新国标3C认证

2026-04-30

梁建章:入境游是助力中国GDP超美的关键引擎
4月29日,携程集团正式宣布未来五年目标引入2亿入境游人次,并同步邀请功夫巨星成龙出任携程“入境游大使”。同期,携程集团董事局主席梁建章在接受采访时指出,2025年中国入境游直接收入占GDP比重仅为0.67%,远低于泰国的10%以上以及欧美国家普遍的1%-3%——

2026-04-30

大豫园与豆包达成合作,为上海国际花卉节“花花大豫园”提供 AI 解说服务
近日,2026 上海国际花卉节正式启幕,其中黄浦城市主会场首次扩容至大豫园文化片区。4 月 18 日至 5 月 24 日,大豫园举办为期 37 天的“花花大豫园”主题活动,并与豆包 App 达成官方合作,围绕古城公园、豫园商城、BFC 外滩金融中心“三大花园”,以及福佑

2026-04-30

全球首个端到端无人车斑陌易行亮相硅谷,开启配送新革命
硅谷时间4月28日,The Magic X 全球具身智能创新大会在美国硅谷成功举办。作为无人配送科技新锐,斑陌易行总裁陈强受邀出席并发表主题演讲,面向全球发布乐高式模块化无人配送平台、SmartVLA 端到端大模型、AI 原生大脑 Brain2.0三大核心技术,并重磅展示旗舰

2026-04-29

瑞幸咖啡公布2026年第一季度财报总净收入约120亿元,同比增长35%
4月29日,瑞幸咖啡(OTC:LKNCY,以下简称公司)公布2026年第一季度财报,公司聚焦执行高质量规模增长核心战略,实现业绩稳健开局。数据显示,2026年第一季度,公司总净收入119.95亿元人民币,同比增长35.3%;截至一季度末,全球门店总数达33,596家,环比增长

2026-04-29

国产路径的分野时刻,C86如何回答教育信创的“真问题”
作者 | 曾响铃文 | 响铃说近年来,全国教育信创采购规模持续扩张。政策密集加码、资金持续涌入,从普教到高教,从教室到机房,国产设备正在以肉眼可见的速度完成替代。但在不少学校,一个尴尬的现实正在浮出水面:设备到位了,AI课却依然开不起来;编程软件在

2026-04-29