大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

大力财经 2024-06-13

近日,复旦大学自然语言处理(NLP)实验室LLMeval团队公布了2024 年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新 II 卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新 I 卷评测排名中,字节豆包也排在前列。

据悉,LLMeval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。


评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新 II 卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、Humaneval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和Ceval的评测上,豆包也有不错的表现,得分排在前三。

从三维出行到居家日常 :探路生态2026AWE首秀 引领新一轮出行革命
当科技持续渗透生活纹理,出行方式的迭代成为人类文明进步的重要印记。3月12日,2026中国家电及消费电子博览会(AWE)在上海新国际博览中心盛大启幕。探路生态在这一行业盛会重磅亮相,全面展示其覆盖“三维立体出行—户外移动空间—生活智能家电—智能空间系统

2026-03-14

从智能出行到智能家电,探路生态携智能空间全栈产品矩阵亮相AWE
AWE2026上,全球智能空间科技品牌探路首次以覆盖三维立体出行、户外移动空间、生活智能家电与智能空间系统四大方向的全生态阵容亮相,集中首次亮相超20款新品。从水面飞行器到智能房车,从高性能电摩到新能源汽车,产品形态横跨水面、地面、低空与日常生活场

2026-03-14

追觅预计下周发射第1颗太空算力卫星
3月13日,有媒体从AWE中国家电及消费电子博览会追觅展台现场获悉,追觅科技预计于下周发射旗下首颗太空算力卫星,正式开启太空算力布局落地。就在此前几日,追觅科技联合主办AWE 2026芯片产业高峰论坛期间,旗下“芯际穿越”业务板块首次对外披露太空算力相关

2026-03-14

AWE2026现场直击,电商发布家电数码三大消费趋势
3月13日,在AWE2026中国家电及消费电子博览会期间,快手电商对外发布家电数码消费趋势。数据显示,随着内容生态与电商场域持续发展,快手正在成为家电与3C数码品牌拓展用户、发布新品的重要平台。数据显示,2025年累计有超过4600万用户在快手购买过家电或手机

2026-03-14

小度携全系产品亮相AWE2026,构建“能看会想”AI助手硬件生态
3月12日,中国家电及消费电子博览会(AWE2026)在上海拉开帷幕。本届AWE首次在“全球首创,国内唯一”零时差商务区——东方枢纽国际商务合作区设立展区。作为行业领先的AI助手硬件品牌,小度科技携旗下智能摄像机、AI眼镜、智能音箱、智能屏、闺蜜机、全屋智

2026-03-14

“AWE大舞台”亮相上海,达人直播与新品测评同台上演
3月12日,AWE2026中国家电及消费电子博览会在上海新国际博览中心开幕。快手电商以「快手AWE大舞台」主题展台亮相展会,通过达人直播、产品测评与新品展示相结合的方式,把平台熟悉的内容互动场景搬到线下展馆,让品牌、达人与观众在同一空间中展开交流与体验

2026-03-14