天眼晚报
🤖 AI 大模型
𝕏 DeepSeek 首轮融资约 70 亿美元,腾讯、宁德时代参投
DeepSeek 首轮融资约 70 亿美元(约 500 亿元人民币),投资方包括 腾讯(拟出资 100 亿元)和 宁德时代(出资 50 亿元),创始人梁文锋个人承诺出资 200 亿元,投后估值约 520-590 亿美元(3500-4000 亿元)。
🔶 微软 Build 2026 发布 7 款自研 MAI 模型及 Copilot 超级应用等 20 项更新
微软在 Build 2026 大会上推出 7 款自研 MAI 模型:MAI-Thinking-1(350 亿激活参数,SWE-bench Pro 53%追平 Claude Opus 4.6)、MAI-Code-1-Flash(SWE-Bench 71.6%)、MAI-Image-2.5(图像编辑榜第二)、MAI-Transcribe-1.5(43 种语言准度第一)、MAI-Voice-2等。同时宣布 Copilot 升级为超级应用(Chat/Cowork/Code/Autopilots 四合一),推出首款企业自主 Agent Scout 和 Surface RTX Spark Dev Box(1 PFLOPS 算力)。模型完全自研零蒸馏。
豆包计划推出专业版,基础功能保持免费
字节跳动 豆包 发布说明,计划推出 豆包专业版,涵盖软件开发、数据分析等专业服务,最高 5088 元/年。日常搜索问答、写作生图、语音视频对话等基础功能 保持免费。第三方数据显示 5 月 MAU 为 3.3 亿,环比下降 1.81%,约流失 607 万用户。
OpenAI 将 Codex 整合进 ChatGPT,推出角色插件、Sites 和 Annotations
OpenAI 宣布将 Codex 核心能力整合进 ChatGPT 应用,同步推出 6 类角色插件(数据分析、创意、销售、产品设计、投行等,覆盖 62 个应用和 110 个 skills)、Sites(交互式网站生成)和 Annotations(文档、表格、幻灯片标注与局部精修)三大功能。Codex 周活用户突破 500 万,非开发者增速是开发者的三倍。
𝕏 MiniMax M3 模型深度披露:稀疏注意力、1M 上下文、视频 Agent
MiniMax M3 采用 MSA 稀疏注意力,1M 上下文窗口,注意力核时间从 30%降至 5%。原生多模态(图片+视频输入),可操作桌面电脑,金融任务达初级分析师水平。在 DeepSWE 测试中得分高于 DeepSeek V4 Pro。Together AI 优化推理后,吞吐提升 81-125%。模型开源权重。
Google DeepMind 发布 Gemma 4 12B:无编码器多模态模型
Google DeepMind 发布 Gemma 4 12B,一个 12B 参数的纯解码器多模态模型,完全移除视觉和音频编码器,原生支持文本、图像、视频和音频输入。仅需 16 GB VRAM 即可本地运行,采用 Apache 2.0 开源协议,性能接近 26B MoE 模型。
𝕏 Claude Mythos 训练算力与参数分析
分析人士推测 Claude Mythos 训练算力约 6.74e26 FLOP,总参数 10.60T(530B 活跃),训练 212T token。微软 Build 大会材料显示其 FLOP 计算量略高于 Opus 4.6,低于 Gemini 3.1 Pro。基于 AWS Trainium2 集群 500K 芯片运行 60-90 天,成本约十几至二十亿美元。
𝕏 Claude Opus 4.8 编程评测击败 GPT-5.5,一天构建完整 MOBA 游戏
Anthropic Opus 4.8 在 Vals AI 的 ProgramBench 上以 15.5% 问题解决率领先 GPT-5.5 的 9.5%;在 prinzbench 得 42/99(前代 Opus 4.7 为 25/99)。开发者用其一天内构建完整多人 MOBA 游戏克隆“LMAO”,消耗 27 亿 Token,成本约 6600 美元。
𝕏 OpenAI CFO 透露用户使用模式:免费用户日均 7 次对话
OpenAI CFO Sarah Friar 在采访中披露用户使用数据:免费用户日均约 7 次对话,Plus 用户约 15 次,Pro 用户使用量是免费用户的 11 倍。
𝕏 智谱 AI 设定 2026 年 ARR 目标 10 亿美元
智谱 AI 2026 年 ARR 目标 10 亿美元,3 月已达 2.5 亿美元。
𝕏 Ethan He 分享模型训练核心见解:迭代速度比算法更重要
Ethan He在访谈中指出模型质量提升多来自修数据 BUG,GPT Image生成图片大部分时间在重写提示词,扩散模型将成为交互前端层。
𝕏 Factory Router:编码 Agent 模型选择器实现 Opus 级效果降本 25%
Factory推出 Factory Router,自动选择最经济模型,达到 Claude Opus 4.7 的 99%性能,同时削减 AI 会话支出 20-25%。
𝕏 多模态大模型创业五大落地方向
当前多模态大模型创业方向包括 游戏 AI NPC、企业级多模态 Agent、多模态内容生成、具身智能和 视觉代码助手。
💻 AI 音乐生成器 Suno 再融资 4 亿美元,估值超 54 亿
Suno 完成 4 亿美元 融资,估值 54 亿美元,较 7 个月前翻倍,仍面临版权诉讼。
𝕏 谷歌筹集 800 亿美元用于 AI 基础设施支出
谷歌 正筹集 800 亿美元,用于大规模 AI 基础设施投资,发出支出规模迈上新台阶的信号。
🔶 千问 App 宣布向第三方 Agent 和 Skill 全面开放
千问 将允许企业运营自己的品牌 Agent,首批接入 瑞幸、肯德基、蜜雪冰城、东方航空 等。
Gemini 现已支持指定 Thinking Level
Gemini Web 和 App 新增指定模型的 Thinking Level 功能,允许用户控制模型推理深度。
𝕏 Anthropic 雇佣 1000 名自由职业者训练 Claude Code
Anthropic 正在雇佣 1000 名自由职业软件工程师,单任务报酬 280 美元,用于编写提示词、测试代码输出,以训练 Claude Code。
2026 多模态大模型全面爆发:从看懂图到听懂世界
综述 2026 年多模态进展:DeepSeek 原生多模态、MiniMax 万亿参数模型、GaMMA 音乐结构理解。国产模型在 MMMU 基准上领先 5%。
𝕏 Fun-Realtime-TTS 登顶语音合成排行榜
阿里通义语音团队推出的 Fun-Realtime-TTS 在 Artificial Analysis Speech Arena 排行榜上以 Elo 1219 分排名第一,低于 Sonic 3.5 和 Inworld TTS 的定价。支持语音克隆、方言和实时生成。
𝕏 vLLM-Omni 集成 Intel AutoRound 4-bit 量化,Qwen3-Omni-30B 从 66GB 降至 25GB
vLLM-Omni原生集成 Intel AutoRound后训练量化,实现 W4A16。Qwen3-Omni-30B从 66GB 降至 25GB,质量无明显下降。FLUX.1-dev可从 4 卡减至 1 卡运行。
千寻智能 Spirit v1.6 反超英伟达 Cosmos 3,登顶 RoboArena 真机评测榜首
中国公司千寻智能的具身智能模型 Spirit v1.6 在 RoboArena 榜单上反超 英伟达 Cosmos 3,登上全球第一。RoboArena 是由 UC Berkeley、Stanford、NVIDIA 等发起的真机评测平台,采用双盲对抗和 Elo 排名机制。
Spring 创始人 Rod Johnson 回归:创建企业 AI Agent 框架 Embabel
Spring 框架创始人 Rod Johnson 重新创业,推出面向企业 AI Agent 的开源框架 Embabel,使用确定性 GOAP 规划算法。他认为这可能是“最后一代由人类主动选择的框架”,并称 MCP 并非万能方案。
NVIDIA 发布 Cosmos 3:统一物理推理与动作生成的开源世界模型
NVIDIA发布 Cosmos 3 系列开源模型,采用双塔 MoE 架构,将物理推理、世界生成和动作生成统一在单一模型中。提供 16B Nano 版(工作站)和 64B Super 版(数据中心),在 VANTAGE-Bench 和 R-Bench 上达到开源 SOTA。
𝕏 ByteDance 开源 TaskMem:多模态 Agent 记忆生成
ByteDance Seed 与复旦联合开源 TaskMem,基于 Qwen3-VL-30B-A3B训练,让 Agent 在视频流中学会生成有用长期记忆。在 VideoMME 上准确率 67.9%,较基线提升 6.3 个百分点。
🔶 月之暗面发布 Kimi Work 桌面端 Agent 公测
Kimi Work面向知识工作者,支持自然语言描述目标后自动拆解任务、调用工具、生成文档。由 Kimi Code 开发,支持 13 小时连续编码、300 个子 Agent 并行协作。
𝕏 谷歌计划向开发者付费获取应用代码库训练 Gemini
谷歌希望向 Google Play 开发者付费获取代码库访问权,用于训练 Gemini 模型。开发者保留 100%知识产权,此举旨在提升 Gemini 在编码领域的竞争力。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。