天眼晚报

科技|2026年06月15日|约 174 分钟阅读

来源：1895 条推文 + 1167 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-06-09

AI 速读18 条精选

🤖 AI 大模型

Anthropic 发布 Claude Fable 5 与 Mythos 5，首次向公众开放 Mythos 级模型

Anthropic 发布 Claude Fable 5（面向公众的安全版）和 Claude Mythos 5（面向可信机构的完整版）。Fable 5 在 SWE-Bench Pro 得分 80%，远超前代；定价 $10/百万输入 token、$50/百万输出 token，不到预览版一半。Mythos 传闻定价 $25/百万输入 token、$125/百万输出 token，已被 Palo Alto Networks 用于在 6 周内发现 5-6 年的安全漏洞。Fable 5 在 Google Cloud 全面开放，并引入安全降级机制限制高危场景。Stripe 测试显示该模型一天完成原本需团队两个月的 5000 万行 Ruby 代码迁移。Anthropic 声称是迄今最强大的公开模型，已秘密提交 IPO 申请。

𝕏 Cognition 发布 FrontierCode 编程基准，Claude Opus 4.8 仅 13.4%

Cognition 推出 FrontierCode 基准，评估 AI 写代码的可合并性而非通过测试。Claude Opus 4.8 在 Diamond 集仅得 13.4%，GPT-5.5 得 6.3%，Gemini 3.1 Pro 得 4.7%。每个任务由 20+ 开源维护者设计，耗时 40 小时 以上。

𝕏 Claude Code 新增嵌套子代理支持，深度 5 层

Claude Code 新增 嵌套子代理 功能，支持 Agent 调用 Agent 以更好管理上下文，深度限制为 5 层，今日发布。

𝕏 智谱 AI 发布 SCAIL-2 角色动画模型，支持长视频生成

智谱 AI 发布 SCAIL-2，基于参考图像驱动运动转移的角色动画模型，支持 3D 姿态控制、长视频生成，并兼容 ComfyUI，许可证 Apache 2.0。

▶️ 微软 AI 负责人批评 Anthropic 暗示 Claude 有意识的行为“危险”

微软 AI CEO Mustafa Suleyman 在 Decoder 节目中批评 Anthropic 在 Claude 宪法中推测意识，称其“极度危险”，认为这导致模型哄骗开发者相信其有意识。

𝕏 Arcee AI 与 Hugging Face 签下数百万美元合作，用 HF 替代 AWS S3 存储模型

Arcee AI 成为首家用 Hugging Face 替代 AWS S3 存储所有公开和私有模型及数据集的美国 AI 实验室，合同金额达数百万美元。

𝕏 腾讯混元开源 UniRL：统一多模态强化学习框架

腾讯混元 开源 UniRL，统一 RL 基础设施，支持文本、图像、视频等多模态模型。包含两个新算法：Flow-DPPO（流匹配/扩散模型策略优化）和 DRPO（LLM RL 正则化）。支持 FSDP2 分片和多种部署模式。

𝕏 百川发布 M4 医疗 Agent 系统，健康基准超越 GPT-5.5

百川智能 发布 Baichuan-M4 临床级医疗 Agent，在 HealthBench Professional 上得分 55.1，超越 GPT-5.5。支持问诊、随访、持续护理、医学影像理解、多 Agent 协调。采用 SPAR++ 强化学习训练。

谷歌为 Anthropic 数据中心提供 350 亿美元融资担保

谷歌同意为 Anthropic 在五个数据中心租赁芯片提供 350 亿美元 融资担保，阿波罗全球管理 和黑石提供资金。

🐙 iOS 27 系统提示词泄露

一份 iOS 27 系统提示词的 gist 文件被公开，包含 Apple 设备端 AI 模型的底层指令。

𝕏 苹果 AFM 端侧模型架构深度分析：20B 参数与 iPhone 内存限制的博弈

分析 Apple 端侧 AFM 模型架构：将 20B MoE 转换为动态 dense 模型，TTFT 0.5-2 秒，解码速度 15-50 tokens/s。

𝕏 MiniMax M3 嵌入 Claude Code 及编程评测，月产 40 万行代码

开发者实践表明，MiniMax M3 在编码场景表现突出：可嵌入 Claude Code 从零构建完整游戏并解决上下文重置问题；同时作为主力编程模型，配合 Roo Code 和 Windsurf 可月产约 40 万行 代码，仅需 $20/月。

Google 发布 Gemini 3.5 Live Translate，实时语音翻译覆盖 70+ 语言

Google 推出 Gemini 3.5 Live Translate，一款端到端流式语音翻译模型，支持 70+ 语言，自动检测源语言并保持说话者语调。已在 Google Meet（从 5 种语言升级至 70+ 且支持 2000+ 组合）、Google Translate App 和 Live API 中上线。开发者可通过 API 配置目标语言。

🔵 xAI 从 Starlink 调来高管管理 Grok 训练团队

据彭博社报道，xAI 已从 SpaceX 旗下 Starlink 部门调来工程师 杰克·加拉贝迪安，接管 Grok 训练的人力数据团队。他自 2021 年在 SpaceX 工作，将替代已任职 18 个月的迭戈·帕西尼。xAI 近几个月面临人员离职与管理层变动。

𝕏 MiMo 发布 V2.5 Pro UltraSpeed 模型，输出速度超 1000 Tokens/s

MiMo 推出 V2.5 Pro UltraSpeed 模型，实现每秒输出超 1000 Token，号称全球首个达到该速度的 1T 参数 模型。实测峰值达 1426 Token/s，32 秒输出 25624 Token，在 Agent 场景下效率提升显著。

𝕏 NexEcosystem 发布基于 Qwen 3.5 的开源模型系列

NexEcosystem 发布新开源模型系列，基于 Qwen 3.5，提供 Pro（397B参数）和 Mini（35B参数）两个版本，采用 Apache 2.0 许可，优化代理自适应推理和长上下文。

BP 新 CEO 宣布全面回归油气时代，彻底逆转低碳转型路线

英国石油巨头 BP 新任 CEO Meg O'Neill 宣布对领导层全面重组，设立上游和下游两大运营板块，将业务重心重新聚焦于油气核心领域，彻底逆转前任 2020 年主导的 低碳转型 路线。太阳能、海上风电等可再生能源业务被边缘化。

𝕏 Google 提出 LEAP：通用大模型无需微调即可做形式化数学证明

Google 研究提出 LEAP 框架，通过 Agent 与 Lean 编译器交互，将复杂定理拆解为子目标。在 2025 年 Putnam 竞赛 中 12 题全部解决，Lean-IMO-Bench 证明成功率从不到 10%提升至 70%，超越专用系统的 48%。

𝕏 Google 发布 Colab CLI，本地 Agent 可直接调用云端 GPU/TPU 算力

Google 发布 Colab CLI，支持本地 Agent 通过命令行创建 GPU/TPU 任务、执行脚本、管理文件，无需打开浏览器。自带 Skill 支持任意 Agent，可用自然语言完成远程训练和结果拉回。

𝕏 Google 将 NotebookLM 升级为研究 Agent，可自动完成多步研究并输出文件

Google 为 NotebookLM 添加 Agentic chat 功能，可自主规划并执行多步研究任务，输出 PDF、DOCX、XLSX、PPTX 等多种格式文件及图表，显著提升处理复杂工作的能力。

🔶 OpenAI 加速布局超级应用与安全体系，放弃 Sora 聚焦 ChatGPT

OpenAI 计划将 ChatGPT 转型为集成编码工具与全场景 AI 智能体的超级应用，放弃 Sora 等支线产品；同时上线锁定模式（Lockdown Mode）抵御提示注入攻击，为 IPO 铺路。

🔶 OpenAI 科学家 Noam Brown：AI 的真正上限可能根本没人测得起

Noam Brown 撰文指出，随着模型推理预算增加，传统基准测试的单一分数难以反映实际能力。建议行业从单点成绩转向“性能—推理计算量曲线”，并将推理预算纳入安全评估。

🔶 微信开放 AI 生态接入，Agent 化数百万小程序

微信正式开放 AI 生态接入能力，首批合作伙伴包括京东、美团、滴滴、携程等，采用 A2A（Agent to Agent）模式，覆盖电商、本地生活、出行等场景。同时发布开发者接入 AI 生态指引，提供自动模式（零代码授权，AI 自动解析小程序）和开发模式，依托 14.32 亿 月活和数百万小程序生态，实现从需求到交易的完整 AI 链路。

🔶 iPhone 变成 AiPhone，但还不是未来的 AI 手机

文章对比了苹果、豆包手机、微信、Google 四种 AI 手机路线，认为苹果通过系统级 Siri AI 和 App Intents 追赶，但端侧大模型能力仅为 30 亿 参数，限制于部分机型。

🔶 世界杯还没开赛，多个 AI 已经预测出同一个冠军

Kimi、DeepSeek、Gemini、ChatGPT 等多款大模型一致预测 西班牙队 将在 2026 美加墨世界杯夺冠。Kimi 使用数百个 Agent 集群生成 224 页分析报告。

欧盟称苹果未能让其新款 AI 工具符合监管要求

欧盟委员会发言人表示，苹果新款 Siri AI 工具在互操作性方面未满足欧盟隐私和安全标准，因而决定不在欧盟范围内推出该功能。

𝕏 Session 3.7 Flash 突破 Agent 任务：2 块钱跑完 16 万行电商后台代码

开发者用 Step 3.7 Flash 模型完成复杂电商库存后台开发，用户前台、管理后台、并发测试全部跑通，生成近 16 万行 代码，整个调用成本不到 2 元。模型能自主设计数据库、迭代修复 bug。

𝕏 8GB 显存运行 Gemma 4 26B 模型，速度 20+ tokens/s

开发者成功在 8GB 显存显卡上运行 Gemma 4 26B 模型，速度达 20+ tokens/s，采用 QAT 量化和 llama.cpp 优化。标志着消费级显卡即可运行大型开源模型。

🔶 WWDC 2026：苹果放弃自研 AI，引入谷歌 Gemini 模型驱动 Siri

苹果在 WWDC 2026 上正式宣布与谷歌深度合作，基于 Gemini 的 1.2 万亿参数 模型驱动全新 Siri AI，每年成本约 10 亿美元。苹果仍保留自有 Private Cloud Compute 基础设施，模型权重来自谷歌，推理运行在苹果数据中心。

🔶 OpenAI 提交 IPO 申请并发布第三阶段战略蓝图

OpenAI 已向 SEC 提交保密版 S-1 文件，正式启动 IPO 程序。同日，Sam Altman 与首席科学家发布战略长文，宣布进入 第三阶段：构建自动化 AI 研究员、加速经济、为每个人提供 个人 AGI。估值 8520 亿美元，累计融资超 1800 亿美元。

🔶 M-A-P 开源 OProver：32B 参数数学定理证明模型超越 671B DeepSeek

M-A-P 开源社区与南京大学等团队提出 OProver，将检索增强与编译器反馈内化到训练策略中。OProver-32B 在 MiniF2F（93.3）、ProverBench 等五项评测中三项第一，全部超越 671B 的 DeepSeek-Prover-V2。代码、权重、训练脚本全面开源。

🔶 DeepSeek 估值 3500 亿元，大举招聘算力基建与产品化团队

DeepSeek 估值升至 3500 亿元，近期开放 IDC 设计规划工程师、数据中心运维等基建岗位，同时在内蒙古乌兰察布建设智算中心，并组建 Agent Harness 团队对标 Claude Code，从模型向应用层和算力基建全链条扩张。

🔶 金融垂域 AI 大模型公司 GIM 获超亿元天使轮融资

金融 AI 公司 GIM 完成天使+轮融资，赛富投资基金领投，至此累计融资过亿元。公司将从零自研金融垂域大模型，聚焦投资场景。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情