大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

通义灵码软件工程大模型获国际顶会杰出论文奖,复杂问题解决率刷新开源纪录

ITBEAR科技资讯 2025-07-03

7月3日消息,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布了最高奖项-杰出论文奖,通义灵码软件工程大模型SWE-GPT从500多篇投稿论文中脱颖而出,成为唯一获得该奖项的企业论文。

软件开发是大模型落地最快的应用场景之一,但现有模型主要基于静态代码数据进行训练,缺乏对软件开发过程中动态交互、工具使用、迭代问题解决和演化特性的深入理解,影响了其在真实场景中的实用性。

据介绍,通义灵码SWE-GPT基座模型为通义千问Qwen2.5,在后训练阶段进一步模拟人类程序员的认知过程,学习软件工程领域复杂问题的端到端多步骤解决过程。同时,团队创新性采用合成数据进行迭代模型训练,通过模拟真实软件开发中的动态交互与迭代问题解决过程(如代码库理解、故障定位和补丁生成),有效解决现有基础大模型的局限性。

在模型训练阶段,为了增强训练过程的鲁棒性,通义灵码团队还采用了课程学习的方法,随着迭代的进行,逐步加入当前模型未能解决的问题,循序渐进提高训练样本的复杂度,确保模型巩固基础能力。

此前的实验结果显示,在权威基准SWE-bench-Verified(500项真实GitHub任务)测试中, SWE-GPT 72B以 30.20%问题解决率刷新开源纪录,较Llama 3.1 405B提升22.76%,接近同时期闭源模型GPT-4o的效果。不仅如此,轻量级SWE-GPT 7B模型以 18.20%的解决率超越Llama 3.1 70B(17.20%),展现了小尺寸模型在复杂软件维护任务中的实用价值。

更重要的是,SWE-GPT是一个通用框架,可以进行持续拓展,比如以其为基础引入思考能力和测试时扩展(test-time scaling),小尺寸(32B)模型在SWE-bench-Verified上可以达到46%的问题解决率,接近业界领先的闭源模型 Claude 3.5 Sonnet v2 (46.20%) 和 OpenAI o1 (45.60%) 。

ISSTA评审委员会专家点评称:“ SWE-GPT是一种新颖的以「软件开发流程为中心」的大语言模型,它提出的数据合成方案真实模拟了实际软件开发过程,这是AI辅助软件开发领域前进的重要一步。”

通义灵码算法负责人李永彬表示:“基于大模型的软件工程智能化领域的研究和应用正在快速发展,仅靠现有基础模型仍无法满足真实场景的需求,SWE-GPT为AI 辅助软件开发提出了新范式。”

ISSTA是软件工程领域最具影响力的学术会议之一,该会议汇聚了学术界和工业界在软件测试、程序分析、代码质量保障等技术的前沿研究与应用。本届ISSTA共收到550篇投稿,最终录用107篇,其中仅有9篇被评为杰出论文。


2026年,AI CRM跑步进入2.0时代
从记录系统,到端到端的执行系统。

2026-04-08

扣子宣布2.5版本升级,探索AI Agent从“工具”到“伙伴”的关键一步
4月7日,扣子宣布2.5版本升级,正式推出AI Agent协作平台Agent World,为AI Agent提供了包含人格、技能、装备三项支撑的“满配”运行基座,新增独立邮箱身份、云手机、云电脑等功能模块,并升级了视频创作Agent等能力。年初OpenClaw的爆火,成为AI Agent从概

2026-04-08

TCL激进扩张优势突出短板明显,难从老三变老大
2026年的家电行业,TCL的“鲸吞式”扩张堪称最震撼的戏码。3月底刚以37.8亿港元牵手索尼成立合资公司,拿下其家庭娱乐业务控制权与马来西亚制造基地;此前不久刚斥资93.25亿元全资控股广州华星,将全球领先的8.6代显示产线收入囊中;更早之前,还将一道新能源

2026-04-07

对话原力灵机周而进:具身原生模型的“分层哲学”
原生大模型,让具身智能“更简单”

2026-04-06