大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

通义灵码软件工程大模型获国际顶会杰出论文奖,复杂问题解决率刷新开源纪录

ITBEAR科技资讯 2025-07-03

7月3日消息,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布了最高奖项-杰出论文奖,通义灵码软件工程大模型SWE-GPT从500多篇投稿论文中脱颖而出,成为唯一获得该奖项的企业论文。

软件开发是大模型落地最快的应用场景之一,但现有模型主要基于静态代码数据进行训练,缺乏对软件开发过程中动态交互、工具使用、迭代问题解决和演化特性的深入理解,影响了其在真实场景中的实用性。

据介绍,通义灵码SWE-GPT基座模型为通义千问Qwen2.5,在后训练阶段进一步模拟人类程序员的认知过程,学习软件工程领域复杂问题的端到端多步骤解决过程。同时,团队创新性采用合成数据进行迭代模型训练,通过模拟真实软件开发中的动态交互与迭代问题解决过程(如代码库理解、故障定位和补丁生成),有效解决现有基础大模型的局限性。

在模型训练阶段,为了增强训练过程的鲁棒性,通义灵码团队还采用了课程学习的方法,随着迭代的进行,逐步加入当前模型未能解决的问题,循序渐进提高训练样本的复杂度,确保模型巩固基础能力。

此前的实验结果显示,在权威基准SWE-bench-Verified(500项真实GitHub任务)测试中, SWE-GPT 72B以 30.20%问题解决率刷新开源纪录,较Llama 3.1 405B提升22.76%,接近同时期闭源模型GPT-4o的效果。不仅如此,轻量级SWE-GPT 7B模型以 18.20%的解决率超越Llama 3.1 70B(17.20%),展现了小尺寸模型在复杂软件维护任务中的实用价值。

更重要的是,SWE-GPT是一个通用框架,可以进行持续拓展,比如以其为基础引入思考能力和测试时扩展(test-time scaling),小尺寸(32B)模型在SWE-bench-Verified上可以达到46%的问题解决率,接近业界领先的闭源模型 Claude 3.5 Sonnet v2 (46.20%) 和 OpenAI o1 (45.60%) 。

ISSTA评审委员会专家点评称:“ SWE-GPT是一种新颖的以「软件开发流程为中心」的大语言模型,它提出的数据合成方案真实模拟了实际软件开发过程,这是AI辅助软件开发领域前进的重要一步。”

通义灵码算法负责人李永彬表示:“基于大模型的软件工程智能化领域的研究和应用正在快速发展,仅靠现有基础模型仍无法满足真实场景的需求,SWE-GPT为AI 辅助软件开发提出了新范式。”

ISSTA是软件工程领域最具影响力的学术会议之一,该会议汇聚了学术界和工业界在软件测试、程序分析、代码质量保障等技术的前沿研究与应用。本届ISSTA共收到550篇投稿,最终录用107篇,其中仅有9篇被评为杰出论文。


追觅NAVO旗舰首秀AWE 重塑消费级安防价值新标杆
3月12日,2026年中国家电及消费电子博览会(AWE)于上海盛大开幕,全球领先的智能科技品牌追觅,重磅登陆上海国际博览中心E7追觅馆。此次,追觅科技旗下智能安防品牌NAVO,也携高端安防摄像头系列产品首次亮相此次盛会。作为追觅智能家居生态的核心成员,NAVO

2026-03-15

格力与京东签署战略合作,目标三年销AI空调1000万台
3月13日,格力电器与京东联合举行“以真爱筑新家”战略合作发布会。会上,双方正式签署协议,明确AI系列空调三年销售1000万台的核心目标。此次重磅签约,既是双方对AI动态节能技术市场前景的高度共识,也标志着格力硬核科创实力与京东平台生态能力的深度绑定

2026-03-15

格力“真AI爱”引爆AWE2026
浦江潮涌,科技风起。3月12日至15日,2026年中国家电及消费电子博览会(以下简称AWE2026)如约而至。作为全球三大家电及消费电子展之一,本届展会实现规模升级。格力电器以“真AI爱”为核心主题,以“真技术、真场景、真价值”为锚点,举办人工智能与家居生活

2026-03-15

AWE 2026重磅首发!追觅AI智能泳镜破浪而来 以硬核科技重构水下运动新体验
2026年3月12日至15日,中国家电及消费电子博览会(AWE 2026)在上海新国际博览中心盛大启幕。作为全球三大家电及消费电子展会之一,本届展会以“AI科技·慧享未来”为核心主题,汇聚全球超1200家顶尖科技品牌,集中展示消费电子、智能硬件、智能家居等领域的

2026-03-15

千问AI眼镜AWE发布,回答聪明、办事靠谱,月底上新更多功能
3月14日,千问AI眼镜在中国家电及消费电子博览会(简称“AWE 2026”)举办国内首场产品发布会。阿里巴巴千问C端事业群AI硬件产品负责人吴建军介绍,千问AI眼镜G1已经上市,配备顶级硬件配置,未来也将接入更多AI办事能力,做到“回答聪明、办事靠谱、时尚好看

2026-03-15