天眼晚报

科技|2026年06月15日|约 191 分钟阅读

来源：1862 条推文 + 1143 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-06-03

AI 速读11 条精选

🤖 AI 大模型

𝕏 DeepSeek 首轮融资约 70 亿美元，腾讯、宁德时代参投

DeepSeek 首轮融资约 70 亿美元（约 500 亿元人民币），投资方包括腾讯（拟出资 100 亿元）和 宁德时代（出资 50 亿元），创始人梁文锋个人承诺出资 200 亿元，投后估值约 520-590 亿美元（3500-4000 亿元）。

🔶 微软 Build 2026 发布 7 款自研 MAI 模型及 Copilot 超级应用等 20 项更新

微软在 Build 2026 大会上推出 7 款自研 MAI 模型：MAI-Thinking-1（350 亿激活参数，SWE-bench Pro 53%追平 Claude Opus 4.6）、MAI-Code-1-Flash（SWE-Bench 71.6%）、MAI-Image-2.5（图像编辑榜第二）、MAI-Transcribe-1.5（43 种语言准度第一）、MAI-Voice-2等。同时宣布 Copilot 升级为超级应用（Chat/Cowork/Code/Autopilots 四合一），推出首款企业自主 Agent Scout 和 Surface RTX Spark Dev Box（1 PFLOPS 算力）。模型完全自研零蒸馏。

豆包计划推出专业版，基础功能保持免费

字节跳动豆包发布说明，计划推出 豆包专业版，涵盖软件开发、数据分析等专业服务，最高 5088 元/年。日常搜索问答、写作生图、语音视频对话等基础功能 保持免费。第三方数据显示 5 月 MAU 为 3.3 亿，环比下降 1.81%，约流失 607 万用户。

OpenAI 将 Codex 整合进 ChatGPT，推出角色插件、Sites 和 Annotations

OpenAI 宣布将 Codex 核心能力整合进 ChatGPT 应用，同步推出 6 类角色插件（数据分析、创意、销售、产品设计、投行等，覆盖 62 个应用和 110 个 skills）、Sites（交互式网站生成）和 Annotations（文档、表格、幻灯片标注与局部精修）三大功能。Codex 周活用户突破 500 万，非开发者增速是开发者的三倍。

𝕏 MiniMax M3 模型深度披露：稀疏注意力、1M 上下文、视频 Agent

MiniMax M3 采用 MSA 稀疏注意力，1M 上下文窗口，注意力核时间从 30%降至 5%。原生多模态（图片+视频输入），可操作桌面电脑，金融任务达初级分析师水平。在 DeepSWE 测试中得分高于 DeepSeek V4 Pro。Together AI 优化推理后，吞吐提升 81-125%。模型开源权重。

Google DeepMind 发布 Gemma 4 12B：无编码器多模态模型

Google DeepMind 发布 Gemma 4 12B，一个 12B 参数的纯解码器多模态模型，完全移除视觉和音频编码器，原生支持文本、图像、视频和音频输入。仅需 16 GB VRAM 即可本地运行，采用 Apache 2.0 开源协议，性能接近 26B MoE 模型。

𝕏 Claude Mythos 训练算力与参数分析

分析人士推测 Claude Mythos 训练算力约 6.74e26 FLOP，总参数 10.60T（530B 活跃），训练 212T token。微软 Build 大会材料显示其 FLOP 计算量略高于 Opus 4.6，低于 Gemini 3.1 Pro。基于 AWS Trainium2 集群 500K 芯片运行 60-90 天，成本约十几至二十亿美元。

𝕏 Claude Opus 4.8 编程评测击败 GPT-5.5，一天构建完整 MOBA 游戏

Anthropic Opus 4.8 在 Vals AI 的 ProgramBench 上以 15.5% 问题解决率领先 GPT-5.5 的 9.5%；在 prinzbench 得 42/99（前代 Opus 4.7 为 25/99）。开发者用其一天内构建完整多人 MOBA 游戏克隆“LMAO”，消耗 27 亿 Token，成本约 6600 美元。

𝕏 OpenAI CFO 透露用户使用模式：免费用户日均 7 次对话

OpenAI CFO Sarah Friar 在采访中披露用户使用数据：免费用户日均约 7 次对话，Plus 用户约 15 次，Pro 用户使用量是免费用户的 11 倍。

𝕏 智谱 AI 设定 2026 年 ARR 目标 10 亿美元

智谱 AI 2026 年 ARR 目标 10 亿美元，3 月已达 2.5 亿美元。

𝕏 Ethan He 分享模型训练核心见解：迭代速度比算法更重要

Ethan He在访谈中指出模型质量提升多来自修数据 BUG，GPT Image生成图片大部分时间在重写提示词，扩散模型将成为交互前端层。

𝕏 Factory Router：编码 Agent 模型选择器实现 Opus 级效果降本 25%

Factory推出 Factory Router，自动选择最经济模型，达到 Claude Opus 4.7 的 99%性能，同时削减 AI 会话支出 20-25%。

𝕏 多模态大模型创业五大落地方向

当前多模态大模型创业方向包括 游戏 AI NPC、企业级多模态 Agent、多模态内容生成、具身智能和 视觉代码助手。

💻 AI 音乐生成器 Suno 再融资 4 亿美元，估值超 54 亿

Suno 完成 4 亿美元 融资，估值 54 亿美元，较 7 个月前翻倍，仍面临版权诉讼。

𝕏 谷歌筹集 800 亿美元用于 AI 基础设施支出

谷歌正筹集 800 亿美元，用于大规模 AI 基础设施投资，发出支出规模迈上新台阶的信号。

🔶 千问 App 宣布向第三方 Agent 和 Skill 全面开放

千问将允许企业运营自己的品牌 Agent，首批接入 瑞幸、肯德基、蜜雪冰城、东方航空 等。

Gemini 现已支持指定 Thinking Level

Gemini Web 和 App 新增指定模型的 Thinking Level 功能，允许用户控制模型推理深度。

𝕏 Anthropic 雇佣 1000 名自由职业者训练 Claude Code

Anthropic 正在雇佣 1000 名自由职业软件工程师，单任务报酬 280 美元，用于编写提示词、测试代码输出，以训练 Claude Code。

2026 多模态大模型全面爆发：从看懂图到听懂世界

综述 2026 年多模态进展：DeepSeek 原生多模态、MiniMax 万亿参数模型、GaMMA 音乐结构理解。国产模型在 MMMU 基准上领先 5%。

𝕏 Fun-Realtime-TTS 登顶语音合成排行榜

阿里通义语音团队推出的 Fun-Realtime-TTS 在 Artificial Analysis Speech Arena 排行榜上以 Elo 1219 分排名第一，低于 Sonic 3.5 和 Inworld TTS 的定价。支持语音克隆、方言和实时生成。

𝕏 vLLM-Omni 集成 Intel AutoRound 4-bit 量化，Qwen3-Omni-30B 从 66GB 降至 25GB

vLLM-Omni原生集成 Intel AutoRound后训练量化，实现 W4A16。Qwen3-Omni-30B从 66GB 降至 25GB，质量无明显下降。FLUX.1-dev可从 4 卡减至 1 卡运行。

千寻智能 Spirit v1.6 反超英伟达 Cosmos 3，登顶 RoboArena 真机评测榜首

中国公司千寻智能的具身智能模型 Spirit v1.6 在 RoboArena 榜单上反超 英伟达 Cosmos 3，登上全球第一。RoboArena 是由 UC Berkeley、Stanford、NVIDIA 等发起的真机评测平台，采用双盲对抗和 Elo 排名机制。

Spring 创始人 Rod Johnson 回归：创建企业 AI Agent 框架 Embabel

Spring 框架创始人 Rod Johnson 重新创业，推出面向企业 AI Agent 的开源框架 Embabel，使用确定性 GOAP 规划算法。他认为这可能是“最后一代由人类主动选择的框架”，并称 MCP 并非万能方案。

NVIDIA 发布 Cosmos 3：统一物理推理与动作生成的开源世界模型

NVIDIA发布 Cosmos 3 系列开源模型，采用双塔 MoE 架构，将物理推理、世界生成和动作生成统一在单一模型中。提供 16B Nano 版（工作站）和 64B Super 版（数据中心），在 VANTAGE-Bench 和 R-Bench 上达到开源 SOTA。

𝕏 ByteDance 开源 TaskMem：多模态 Agent 记忆生成

ByteDance Seed 与复旦联合开源 TaskMem，基于 Qwen3-VL-30B-A3B训练，让 Agent 在视频流中学会生成有用长期记忆。在 VideoMME 上准确率 67.9%，较基线提升 6.3 个百分点。

🔶 月之暗面发布 Kimi Work 桌面端 Agent 公测

Kimi Work面向知识工作者，支持自然语言描述目标后自动拆解任务、调用工具、生成文档。由 Kimi Code 开发，支持 13 小时连续编码、300 个子 Agent 并行协作。

𝕏 谷歌计划向开发者付费获取应用代码库训练 Gemini

谷歌希望向 Google Play 开发者付费获取代码库访问权，用于训练 Gemini 模型。开发者保留 100%知识产权，此举旨在提升 Gemini 在编码领域的竞争力。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情