大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

通义灵码软件工程大模型获国际顶会杰出论文奖,复杂问题解决率刷新开源纪录

ITBEAR科技资讯 2025-07-03

7月3日消息,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布了最高奖项-杰出论文奖,通义灵码软件工程大模型SWE-GPT从500多篇投稿论文中脱颖而出,成为唯一获得该奖项的企业论文。

软件开发是大模型落地最快的应用场景之一,但现有模型主要基于静态代码数据进行训练,缺乏对软件开发过程中动态交互、工具使用、迭代问题解决和演化特性的深入理解,影响了其在真实场景中的实用性。

据介绍,通义灵码SWE-GPT基座模型为通义千问Qwen2.5,在后训练阶段进一步模拟人类程序员的认知过程,学习软件工程领域复杂问题的端到端多步骤解决过程。同时,团队创新性采用合成数据进行迭代模型训练,通过模拟真实软件开发中的动态交互与迭代问题解决过程(如代码库理解、故障定位和补丁生成),有效解决现有基础大模型的局限性。

在模型训练阶段,为了增强训练过程的鲁棒性,通义灵码团队还采用了课程学习的方法,随着迭代的进行,逐步加入当前模型未能解决的问题,循序渐进提高训练样本的复杂度,确保模型巩固基础能力。

此前的实验结果显示,在权威基准SWE-bench-Verified(500项真实GitHub任务)测试中, SWE-GPT 72B以 30.20%问题解决率刷新开源纪录,较Llama 3.1 405B提升22.76%,接近同时期闭源模型GPT-4o的效果。不仅如此,轻量级SWE-GPT 7B模型以 18.20%的解决率超越Llama 3.1 70B(17.20%),展现了小尺寸模型在复杂软件维护任务中的实用价值。

更重要的是,SWE-GPT是一个通用框架,可以进行持续拓展,比如以其为基础引入思考能力和测试时扩展(test-time scaling),小尺寸(32B)模型在SWE-bench-Verified上可以达到46%的问题解决率,接近业界领先的闭源模型 Claude 3.5 Sonnet v2 (46.20%) 和 OpenAI o1 (45.60%) 。

ISSTA评审委员会专家点评称:“ SWE-GPT是一种新颖的以「软件开发流程为中心」的大语言模型,它提出的数据合成方案真实模拟了实际软件开发过程,这是AI辅助软件开发领域前进的重要一步。”

通义灵码算法负责人李永彬表示:“基于大模型的软件工程智能化领域的研究和应用正在快速发展,仅靠现有基础模型仍无法满足真实场景的需求,SWE-GPT为AI 辅助软件开发提出了新范式。”

ISSTA是软件工程领域最具影响力的学术会议之一,该会议汇聚了学术界和工业界在软件测试、程序分析、代码质量保障等技术的前沿研究与应用。本届ISSTA共收到550篇投稿,最终录用107篇,其中仅有9篇被评为杰出论文。


追觅入局,智能穿戴行业迎来 “指尖革命”
全球智能手表市场正经历转折点。Counterpoint 数据显示,全球智能手表出货量同比下滑 7%,这是该市场首次出现整体衰退。行业龙头苹果受北美市场需求疲软、产品升级乏力及专利纠纷多重影响,出货量大幅下降,其基础智能手表因创新不足、用户体验未达预期,在印

2025-11-29

10万人共同选择的背后,Rokid乐奇有自己的“破圈秘籍”
文 | 智能相对论作者 | 佘凯文智能眼镜,这个被寄予厚望的下一代计算平台,如今正经历着理想与现实的碰撞。一边是行业描绘的未来生活图景,另一边却是众多产品面临用户体验不佳的现状。它们或因体验笨拙,或因生态贫瘠,亦或因产品稳定性始终难以融入日常。所

2025-11-28

科勒携手杨采钰、邵程(Chris Shao):跨界共创生活方式的“大胆表达”
近日,全球厨卫领导品牌科勒KOHLER在进入中国市场30周年之际,发起一场以“大胆”为主题的跨界生活美学对谈。科勒携手演员杨采钰与设计师邵程(Chris Shao),通过多维视角解读生活美学,以崭新的文化表达路径诠释“大胆”的时代内涵,为品牌注入全新创意动力

2025-11-28

企业运营必备:营销枢纽 AI 功能十问十答完整版
从用户实际运营需求出发,整理了10 个用户最关心的问题与详细解答,帮你快速玩转营销枢纽的 AI 功能,无需专业技术也能高效落地!1. 问:我订阅了营销枢纽,里面的所有 AI 功能都能直接用吗?不需要额外开发或复杂配置吧?答:是的!订阅营销云、枢纽云后(站

2025-11-28

揭秘酷家乐全球化:一个破圈出海的中国样本
Coohom,站上全球空间设计战场C位。

2025-11-28