天眼晚报
🤖 AI 大模型
𝕏 微软开源 VibeVoice 语音模型家族,覆盖长音频转写、长语音生成与实时 TTS
微软开源 VibeVoice 系列语音模型,包含 ASR-7B、TTS-1.5B 和 Realtime-0.5B 三个版本,面向长音频理解、长语音生成和低延迟语音合成等场景。综合多条信息,该系列支持最长约 60 分钟结构化转录、90 分钟语音生成,并可实现约 300 毫秒级实时 TTS,同时强调多说话人处理能力和本地部署适配,已在开发者社区获得较高关注。
Mistral AI 获 8.3 亿美元债务融资,拟建设欧洲本土 AI 算力中心
Mistral AI 获得 8.3 亿美元债务融资,计划采购约 1.38 万片英伟达芯片,并在巴黎附近建设数据中心,预计于 2026 年第二季度投入运营。这笔融资与基础设施建设被视为其强化欧洲本土大模型算力自主权的重要动作,也反映出欧洲 AI 公司正尝试通过自建算力与资本投入,降低对外部云和海外基础设施的依赖。
🔶 月之暗面:Kimi K2.5 发布一个月后 ARR 突破 1 亿美元
月之暗面披露,Kimi K2.5 上线约一个月后,年度经常性收入(ARR)已突破 1 亿美元。报道显示,部分企业客户为获得更高 API 或 TPM 配额、锁定模型调用能力与算力资源,已给出千万美元级预付承诺。这一进展说明 Agent 类模型的商业化正在加速,也反映出头部模型厂商在企业服务与 API 收费上的变现能力快速提升。
豆包在 SuperCLUE 中文大模型测评中进入全球第一梯队
SuperCLUE 最新榜单显示,豆包在中文大模型综合测评中进入全球第一梯队,整体表现已接近部分头部海外闭源模型。该结果表明,国产通用大模型在中文理解、生成与综合能力上的竞争力持续提升,也反映出中文评测体系下本土模型正逐步缩小与国际领先模型之间的差距。
𝕏 ModelScope 发布 daVinci-MagiHuman:15B 单流 Transformer 支持音视频联合生成
ModelScope 发布 daVinci-MagiHuman,这是一款采用 15B 单流 Transformer 的音视频一体生成模型,主打统一建模音频与视频内容。综合信息显示,该模型可在单张 H100 上完成不同规格的视频生成任务,例如 2 秒生成 5 秒 256p 视频,或在约 38 秒内生成 1080p 视频;同时已开源蒸馏版本与推理代码,降低研究与部署门槛。
🔵 ChatGPT 应用商店上线 6 个月后,开发者反馈仍低于预期
OpenAI 推出的 ChatGPT 应用商店运行半年后,开发者反馈整体不及预期。多篇报道指出,第三方应用目前仍以轻量功能为主,接入能力、分发效果、能力边界和变现回报均偏弱,与早期对标苹果 App Store、构建新型 AI 应用分发生态的设想仍有明显差距。这说明 ChatGPT 生态虽具流量入口价值,但要形成成熟平台效应仍需时间。
𝕏 Sora 被指未能成为 OpenAI 的创意业务增长引擎
据《华尔街日报》相关报道与转述,Sam Altman 曾希望 Sora 成为 OpenAI 在创意内容领域的重要入口和新增收入来源,但其实际推进效果未达预期,商业化进展受挫。报道甚至将其描述为一次高成本战略押注失利,反映出视频生成模型虽然具备强话题性和技术展示价值,但在稳定产品化、用户转化与规模化营收方面仍面临不小挑战。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。