大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

通义灵码软件工程大模型获国际顶会杰出论文奖,复杂问题解决率刷新开源纪录

ITBEAR科技资讯 2025-07-03

7月3日消息,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布了最高奖项-杰出论文奖,通义灵码软件工程大模型SWE-GPT从500多篇投稿论文中脱颖而出,成为唯一获得该奖项的企业论文。

软件开发是大模型落地最快的应用场景之一,但现有模型主要基于静态代码数据进行训练,缺乏对软件开发过程中动态交互、工具使用、迭代问题解决和演化特性的深入理解,影响了其在真实场景中的实用性。

据介绍,通义灵码SWE-GPT基座模型为通义千问Qwen2.5,在后训练阶段进一步模拟人类程序员的认知过程,学习软件工程领域复杂问题的端到端多步骤解决过程。同时,团队创新性采用合成数据进行迭代模型训练,通过模拟真实软件开发中的动态交互与迭代问题解决过程(如代码库理解、故障定位和补丁生成),有效解决现有基础大模型的局限性。

在模型训练阶段,为了增强训练过程的鲁棒性,通义灵码团队还采用了课程学习的方法,随着迭代的进行,逐步加入当前模型未能解决的问题,循序渐进提高训练样本的复杂度,确保模型巩固基础能力。

此前的实验结果显示,在权威基准SWE-bench-Verified(500项真实GitHub任务)测试中, SWE-GPT 72B以 30.20%问题解决率刷新开源纪录,较Llama 3.1 405B提升22.76%,接近同时期闭源模型GPT-4o的效果。不仅如此,轻量级SWE-GPT 7B模型以 18.20%的解决率超越Llama 3.1 70B(17.20%),展现了小尺寸模型在复杂软件维护任务中的实用价值。

更重要的是,SWE-GPT是一个通用框架,可以进行持续拓展,比如以其为基础引入思考能力和测试时扩展(test-time scaling),小尺寸(32B)模型在SWE-bench-Verified上可以达到46%的问题解决率,接近业界领先的闭源模型 Claude 3.5 Sonnet v2 (46.20%) 和 OpenAI o1 (45.60%) 。

ISSTA评审委员会专家点评称:“ SWE-GPT是一种新颖的以「软件开发流程为中心」的大语言模型,它提出的数据合成方案真实模拟了实际软件开发过程,这是AI辅助软件开发领域前进的重要一步。”

通义灵码算法负责人李永彬表示:“基于大模型的软件工程智能化领域的研究和应用正在快速发展,仅靠现有基础模型仍无法满足真实场景的需求,SWE-GPT为AI 辅助软件开发提出了新范式。”

ISSTA是软件工程领域最具影响力的学术会议之一,该会议汇聚了学术界和工业界在软件测试、程序分析、代码质量保障等技术的前沿研究与应用。本届ISSTA共收到550篇投稿,最终录用107篇,其中仅有9篇被评为杰出论文。


腾讯官宣QQ秀回归:无需手搓,AI一键生成新形象
1月24日,腾讯旗下QQ宣布,全新QQ秀正式上线。用户在手机QQ内搜索“QQ秀”即可体验。经典QQ秀于2003年1月24日正式上线,此次更新恰逢QQ秀诞生23周年,也被不少老用户视为一次“情怀级回归”。作为QQ早期最具代表性的功能之一,QQ秀曾掀起全民“换造型”的热潮

2026-01-24

传阿里拟分拆平头哥独立IPO,又一国产AI芯片将上市
据彭博社报道,阿里巴巴集团已决定支持旗下芯片公司平头哥未来独立上市。知情人士透露,作为第一步,阿里计划对平头哥进行重组,使其成为一家部分由员工持股的企业,随后将探索独立IPO方案。不过,目前上市时间表尚未敲定,平头哥未来的估值水平也仍存在不确

2026-01-24

无人测试里程碑事件!国内首个“测试智能体”技术标准发布
在软件定义万物的数字时代,软件系统的复杂性正呈指数级增长。当微服务、云原生以及AI模型本身成为软件的核心构成,传统的软件质量保障(QA)体系正面临一场前所未有的效能革命。 1月19日,由中国人工智能产业发展联盟(AIIA)智能化软件工程(AI4SE)工作组

2026-01-23

2.4万亿参数!百度发布文心大模型5.0正式版
1月22日,百度在上海举行的文心Moment大会上,正式发布文心大模型5.0正式版。据介绍,文心大模型5.0基于原生全模态建模,参数规模高达2.4万亿,可统一理解并生成文本、图像、音频、视频等多种模态内容,面向复杂任务具备更强的综合推理与表达能力。在应用层面

2026-01-23