大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

SuperCLUE最新测评发布,360智脑大模型稳居大模型第一梯队

大力财经 2024-07-10

7月9日,国内权威大模型评测机构SuperCLUE发布《中文大模型基准测评2024上半年报告》,360智脑大模型(360gpt2-pro)在SuperCLUE基准6月测评中,取得总分72分,超过GPT-3.5-Turbo-0125,位列国内大模型第4名次,稳居大模型第一梯队,并入选SuperCLUE“卓越领导者”模型象限。


《中文大模型基准测评2024上半年报告》选取国内外具有代表性的33个大模型,采用多维度、多层次的综合性测评方案,通过理科、文科和Hard三大维度真实反映大模型通用能力。报告显示,国内大模型市场已形成三大梯队的格局,360gpt2-pro位列第一梯队,并凭借在基础和场景应用上的领先能力,入选“卓越领导者”模型象限,以快速迭代、技术积累或资源优势引领国内大模型发展,不断压缩国内外大模型差距。


值得关注的是,360gpt2-pro在文科方面取得75分的亮眼成绩,排名第2,其中生成创作单项排名第1,与GPT-4o处于同一水平。相较其他国内外头部大模型,360智脑大模型在高语言处理质量、内容生成及理解水平等文科任务上拥有更强的竞争力。


在SuperCLUE中文检索增强生成测评中,360智脑RAG排名第4,进一步缩小国内外模型差距,体现了在中文检索生成能力上的竞争力。此前,360宣布开源两款大模型360Zhinao-search和360Zhinao-1.8B-Reranking,两款模型聚焦于提升长文本检索效果,在RAG技术的检索、排序阶段进行模型优化,结合此前开源的360K长文本能力,全面打通了RAG技术链路,为行业提供可靠的降低大模型“幻觉”概率的能力。


据了解,360智脑大模型目前已形成多参数、多模态、多场景应用的大模型矩阵,首批通过国家标准符合性测试,综合能力位列大模型第一梯队。此外,360不断夯实技术能力的同时,加速模型能力应用,打造新场景新应用,去解决用户刚需和痛点。今年以来,360重塑国民级产品,相继推出360AI浏览器、360AI搜索等产品,其中360AI搜索连续登榜全球AI产品数据增速榜榜首,领跑国内AI搜索引擎市场。

直播+短视频+AIGC全面加持 京东“新域倍增计划”将帮助10万新商家销售翻番
4月14日,2026京东商家内容大会在北京举办。会上,京东正式发布“新域倍增计划”,聚焦直播和短视频领域,从流量扶持、降本增收、智能提效、生态护航4大维度着手,推出12项扶持举措,全面助力商家健康增长,目标在2026年通过直播和短视频帮助10万新商家销售同

2026-04-15

剽窃“真铜实料”概念,海信高管回应格力喊话:又当又立
文丨大力财经4月14日晚,格力电器CMO朱磊突然在微博开炮,直指海信空调在上海家博会上“公然剽窃”格力原创的“真铜实料”宣传语,措辞犀利地怒批:“这四个字是格力的原创,更是一套坚硬的品质标准,当产品还有电机绕组用铝线时,没资格自称真铜实料”,暗指

2026-04-15

赋予机器智慧之眼 AI视觉机器人NAVO惊艳亮相广交会
2026年4月15日,第 139 届中国进出口商品交易会(即 2026 春季广交会)在广州盛大开幕,作为中国外贸的 “晴雨表” 与 “风向标”,本届展会吸引了全球各地的品牌与客商齐聚,共探全球贸易的新机遇。此次,追觅科技旗下 AI 视觉机器人品牌NAVO,携全系列高端A

2026-04-15

让“养虾”有手就行,荣耀YOYO Claw节省的不只是50%词元消耗
文 | 智能相对论作者 | 佘凯文2026年初,以Open Claw为代表的“龙虾”类AI智能体一夜爆火,被业界誉为“AI智能体的操作系统”。然而短短数月,一股无声的“弃养潮”开始在用户中蔓延,不是技术退步了,而是大量个人用户乃至中小企业发现,这只虾真的“养不起

2026-04-15