百模大战后九成沉寂,上海军团“剩者为王”,市值融资额频破纪录

频道:德宏点播 日期: 浏览:2

  (来源:上观新闻)

  起于2023年的百模大战,到2025年,九成没了声响。曾被热捧的“AI六小龙”,半数或缩减业务,或战略转向。抱有AGI(通用人工智能)信仰、仍在持续锤炼模型的玩家仅剩十余家。其中,上海大模型居多,且近期表现不俗,后劲甚足。

  如2021年已上市的商汤科技,其最新的日日新V6.5模型,在国内率先突破图文交错思维链技术,以75.35的总分登顶SuperCLUE(中文通用大模型基准)多模态评测国内之一;

  上月登陆港股的MiniMax,截至2月3日收盘,市值已超过1800亿港元,远高过先一天敲钟的港交所“大模型之一股”智谱AI;

  MiniMax1月9日登陆港交所。

  阶跃星辰不鸣则已,新近完成的50亿元B+轮融资一鸣惊人,刷新过去12个月中国大模型单笔更高融资纪录;

  依托于基础模型Qwen,上海AI应用“千问”去年11月发布后,仅用时2个月就实现月活破亿,并进入全球AI应用之一梯队。

  沪产大模型,何以“剩者为王”?

  坚持研发不放弃

  两个月前,商汤科技首席科学家林达华现身一场AI论坛,回顾ChatGPT爆火后人工智能界“烈火烹油”般的三年。

  他说,最初,业界深信尺度定律,认为大力堆砌算力和数据必出奇迹。但2024年后,受困于模型迭代滞缓、能力提升微弱、投入回报递减等瓶颈,行业陷入迷茫。直到OpenAI o1和DeepSeek-R1出现,展示了通过长思维链、推理时扩展等技术手段实现模型能力突破的可能。

  这让林达华愈发意识到,“我们需要回归实验室,探索下一次技术范式的原始创新”。

  商汤科技首席科学家林达华。

  于是,从日日新模型、空间智能模型到世界模型,从架构创新、打通数据壁垒到训练范式革新,商汤科技沉下心来,大力自主研发,果然出现奇迹。如商汤重构视觉与语言的融合机制,近期发布并开源的NEO多模态架构,仅用十分之一的数据就达到同量级多模态模型更佳水平。

  坚持研发不放弃,是上海大模型的共同基因。MiniMax公司首席运营官贠烨祎近期在与记者交流时反复强调,MiniMax始终专注于做好模型本身,因为模型即产品。“尤其未来Agent(智能体)的更多落地将放大模型能力差距。Agent需要做长距离、多步骤推理,如果模型好5%—10%,领先效果将被放大很多倍。”

  在“做好模型”的指挥棒下,MiniMax率先钻研混合专家MoE架构,更成为全球之一家敢于投时间、人力、算力去验证“线性注意力机制”的创业公司。手握这两大杀手锏,MiniMax仅用OpenAI不到1%的花销,就实现了语音、视频、文本全模态模型布局。

  好用落地是王道

  单纯拼参数或霸榜炫技,从来不是沪产大模型的调性。对上海战队而言,能否深入可替代人类的高价值场景并实现规模化落地,才是硬道理。

  阶跃星辰立志成为最懂终端的大模型厂商。截至去年底,阶跃星辰终端Agent的接口调用量连续三个季度每季都增长近170%。在手机领域,国内60%的头部手机品牌已和阶跃达成合作,模型装机量超过4200万台,日均服务近2000万人次。在汽车领域,阶跃与千里科技、吉利达成深度合作,共推业内首个搭载端到端语音模型的AgentOS智能座舱,量产车型吉利银河M9上市3个月销量接近4万辆,并已进军海外市场。

  阶跃星辰大模型已在多款量产车型“上车”。

  千问的迅速爆火,在于会聊天、能办事。凭借A2A(从智能体到智能体)的技术路线,千问由系统级AI理解用户意图后,再将任务分发给各业务的专用智能体,从而突破聊天机器人局限,成为真正能闭环办事的AI助手。比如“一句话点外卖”功能,大模型识别外卖意图后调用 *** 闪购智能体,结合用户定位、描述等信息,直接帮用户作出决策,甚至打通支付宝环节,无需切换App即可实现闭环交付。

  大模型竞争的下半场,成本极其重要。过去,用视频生成模型做短剧,每生成1分钟高质量视频,需要1小时八卡的英伟达最新GPU计算,成本高企。时长亦是痛点,传统开源模型或商用模型,每小时能生成的视频从20秒到80秒不等。而今,相同质量的视频,商汤最新进阶的SekoTalk,一小时可生成1280秒。针对对话场景进一步优化后,若不用英伟达最新GPU而用消费级5090显卡,1小时计算生成视频更可长达4500秒。跨过规模化红线的背后,是商汤在算法、系统、模型、架构多层面的联合创新,从而实现64倍的速度优化。

  据悉,作为行业首个创编一体、支持百集连续创作的多剧集生成智能体,Seko2.0让短剧、漫剧行业“一人剧组”变成可能,已聚集超30万创作者,并孵化出一系列爆款剧集。其中,真人短剧《婉心计》强势登顶抖音AI短剧榜之一。

  Seko2.0让短剧、漫剧行业“一人剧组”变成可能。

  国模国芯建生态

  上海“国模”,还在主动奔赴“国芯” 。

  继去年7月阶跃星辰联合华为昇腾、沐曦、壁仞科技等十家中国芯片及平台厂商发起成立“模芯生态创新联盟”之后,去年底,阶跃星辰又与壁仞科技、上海仪电智算服务签署战略合作协议,围绕“芯—模—云”协同开展联合技术攻关,构建从底层硬件到上层应用的国产自主可控产业闭环。

  而Qwen大模型就“跑”在了国产芯片——平头哥高端AI芯片“真武”上。1月29日,真武正式现身,从关键参数来看,其性能超过英伟达A800和国产主流GPU芯片,与英伟达专为中国市场设计的H20性能相当。除大规模应用于Qwen大模型的训练和推理外,真武芯片结合阿里云完整的AI软件栈,已服务国内400多家客户。

  真武芯片已部署训练国产大模型。

  商汤2018年就开始布局SenseCore大装置,2019年即具备千卡并联能力,现总算力规模达3.2万PFLOPS(每秒千万亿次浮点运算),商汤临港AIDC获全国首个5A级智算中心认证。2025世界人工智能大会大模型论坛上,商汤联合华为、库帕思、海光、寒武纪、曦望Sunrise、壁仞科技、麒麟软件、摩尔线程等十余家国产生态伙伴,共同发布“商汤大装置算力Mall”,旨在通过算法、数据和算力的协同优化,将技术沉淀为如水电煤般的基础设施,让企业能以更高的投入产出比拥抱AI变革。据透露,商汤大装置已率先在5000张国产GPU集群上实现大规模异构混训,算力利用率达80%,效率达同构训练的95%。

  业界普遍认为,全球大模型的较量,主要体现在中美之间。全球知名风 *** 司红杉资本作出判断,大模型竞赛决赛圈,美国入围选手只有5家,OpenAI、Anthropic、谷歌、Meta以及xAI。而中国大模型也将进一步收敛,或在2028年前形成由个位数巨头主导的格局。基于此,即便有暂时领先优势,上海大模型仍有清醒认知——大模型发展是一场长跑,平均每三个月就可能带来“行业一震”,必须保持敬畏,力争在真正决赛时依旧留在牌桌上。

  原标题:《百模大战后九成沉寂,上海军团“剩者为王”,市值融资额频破纪录》

  来源:作者:解放日报 李晔 查睿