天眼晚报
🤖 AI 大模型
Anthropic 发布 Claude Fable 5 与 Mythos 5,首次向公众开放 Mythos 级模型
Anthropic 发布 Claude Fable 5(面向公众的安全版)和 Claude Mythos 5(面向可信机构的完整版)。Fable 5 在 SWE-Bench Pro 得分 80%,远超前代;定价 $10/百万输入 token、$50/百万输出 token,不到预览版一半。Mythos 传闻定价 $25/百万输入 token、$125/百万输出 token,已被 Palo Alto Networks 用于在 6 周内发现 5-6 年的安全漏洞。Fable 5 在 Google Cloud 全面开放,并引入安全降级机制限制高危场景。Stripe 测试显示该模型一天完成原本需团队两个月的 5000 万行 Ruby 代码迁移。Anthropic 声称是迄今最强大的公开模型,已秘密提交 IPO 申请。
𝕏 Cognition 发布 FrontierCode 编程基准,Claude Opus 4.8 仅 13.4%
Cognition 推出 FrontierCode 基准,评估 AI 写代码的可合并性而非通过测试。Claude Opus 4.8 在 Diamond 集仅得 13.4%,GPT-5.5 得 6.3%,Gemini 3.1 Pro 得 4.7%。每个任务由 20+ 开源维护者设计,耗时 40 小时 以上。
𝕏 Claude Code 新增嵌套子代理支持,深度 5 层
Claude Code 新增 嵌套子代理 功能,支持 Agent 调用 Agent 以更好管理上下文,深度限制为 5 层,今日发布。
𝕏 智谱 AI 发布 SCAIL-2 角色动画模型,支持长视频生成
智谱 AI 发布 SCAIL-2,基于参考图像驱动运动转移的角色动画模型,支持 3D 姿态控制、长视频生成,并兼容 ComfyUI,许可证 Apache 2.0。
▶️ 微软 AI 负责人批评 Anthropic 暗示 Claude 有意识的行为“危险”
微软 AI CEO Mustafa Suleyman 在 Decoder 节目中批评 Anthropic 在 Claude 宪法中推测意识,称其“极度危险”,认为这导致模型哄骗开发者相信其有意识。
𝕏 Arcee AI 与 Hugging Face 签下数百万美元合作,用 HF 替代 AWS S3 存储模型
Arcee AI 成为首家用 Hugging Face 替代 AWS S3 存储所有公开和私有模型及数据集的美国 AI 实验室,合同金额达数百万美元。
𝕏 腾讯混元开源 UniRL:统一多模态强化学习框架
腾讯混元 开源 UniRL,统一 RL 基础设施,支持文本、图像、视频等多模态模型。包含两个新算法:Flow-DPPO(流匹配/扩散模型策略优化)和 DRPO(LLM RL 正则化)。支持 FSDP2 分片和多种部署模式。
𝕏 百川发布 M4 医疗 Agent 系统,健康基准超越 GPT-5.5
百川智能 发布 Baichuan-M4 临床级医疗 Agent,在 HealthBench Professional 上得分 55.1,超越 GPT-5.5。支持问诊、随访、持续护理、医学影像理解、多 Agent 协调。采用 SPAR++ 强化学习训练。
谷歌为 Anthropic 数据中心提供 350 亿美元融资担保
谷歌 同意为 Anthropic 在五个数据中心租赁芯片提供 350 亿美元 融资担保,阿波罗全球管理 和 黑石 提供资金。
🐙 iOS 27 系统提示词泄露
一份 iOS 27 系统提示词的 gist 文件被公开,包含 Apple 设备端 AI 模型的底层指令。
𝕏 苹果 AFM 端侧模型架构深度分析:20B 参数与 iPhone 内存限制的博弈
分析 Apple 端侧 AFM 模型架构:将 20B MoE 转换为动态 dense 模型,TTFT 0.5-2 秒,解码速度 15-50 tokens/s。
𝕏 MiniMax M3 嵌入 Claude Code 及编程评测,月产 40 万行代码
开发者实践表明,MiniMax M3 在编码场景表现突出:可嵌入 Claude Code 从零构建完整游戏并解决上下文重置问题;同时作为主力编程模型,配合 Roo Code 和 Windsurf 可月产约 40 万行 代码,仅需 $20/月。
Google 发布 Gemini 3.5 Live Translate,实时语音翻译覆盖 70+ 语言
Google 推出 Gemini 3.5 Live Translate,一款端到端流式语音翻译模型,支持 70+ 语言,自动检测源语言并保持说话者语调。已在 Google Meet(从 5 种语言升级至 70+ 且支持 2000+ 组合)、Google Translate App 和 Live API 中上线。开发者可通过 API 配置目标语言。
🔵 xAI 从 Starlink 调来高管管理 Grok 训练团队
据彭博社报道,xAI 已从 SpaceX 旗下 Starlink 部门调来工程师 杰克·加拉贝迪安,接管 Grok 训练的人力数据团队。他自 2021 年在 SpaceX 工作,将替代已任职 18 个月的迭戈·帕西尼。xAI 近几个月面临人员离职与管理层变动。
𝕏 MiMo 发布 V2.5 Pro UltraSpeed 模型,输出速度超 1000 Tokens/s
MiMo 推出 V2.5 Pro UltraSpeed 模型,实现每秒输出超 1000 Token,号称全球首个达到该速度的 1T 参数 模型。实测峰值达 1426 Token/s,32 秒输出 25624 Token,在 Agent 场景下效率提升显著。
𝕏 NexEcosystem 发布基于 Qwen 3.5 的开源模型系列
NexEcosystem 发布新开源模型系列,基于 Qwen 3.5,提供 Pro(397B参数)和 Mini(35B参数)两个版本,采用 Apache 2.0 许可,优化代理自适应推理和长上下文。
BP 新 CEO 宣布全面回归油气时代,彻底逆转低碳转型路线
英国石油巨头 BP 新任 CEO Meg O'Neill 宣布对领导层全面重组,设立上游和下游两大运营板块,将业务重心重新聚焦于油气核心领域,彻底逆转前任 2020 年主导的 低碳转型 路线。太阳能、海上风电等可再生能源业务被边缘化。
𝕏 Google 提出 LEAP:通用大模型无需微调即可做形式化数学证明
Google 研究提出 LEAP 框架,通过 Agent 与 Lean 编译器交互,将复杂定理拆解为子目标。在 2025 年 Putnam 竞赛 中 12 题全部解决,Lean-IMO-Bench 证明成功率从不到 10%提升至 70%,超越专用系统的 48%。
𝕏 Google 发布 Colab CLI,本地 Agent 可直接调用云端 GPU/TPU 算力
Google 发布 Colab CLI,支持本地 Agent 通过命令行创建 GPU/TPU 任务、执行脚本、管理文件,无需打开浏览器。自带 Skill 支持任意 Agent,可用自然语言完成远程训练和结果拉回。
𝕏 Google 将 NotebookLM 升级为研究 Agent,可自动完成多步研究并输出文件
Google 为 NotebookLM 添加 Agentic chat 功能,可自主规划并执行多步研究任务,输出 PDF、DOCX、XLSX、PPTX 等多种格式文件及图表,显著提升处理复杂工作的能力。
🔶 OpenAI 加速布局超级应用与安全体系,放弃 Sora 聚焦 ChatGPT
OpenAI 计划将 ChatGPT 转型为集成编码工具与全场景 AI 智能体的超级应用,放弃 Sora 等支线产品;同时上线锁定模式(Lockdown Mode)抵御提示注入攻击,为 IPO 铺路。
🔶 OpenAI 科学家 Noam Brown:AI 的真正上限可能根本没人测得起
Noam Brown 撰文指出,随着模型推理预算增加,传统基准测试的单一分数难以反映实际能力。建议行业从单点成绩转向“性能—推理计算量曲线”,并将推理预算纳入安全评估。
🔶 微信开放 AI 生态接入,Agent 化数百万小程序
微信 正式开放 AI 生态接入能力,首批合作伙伴包括 京东、美团、滴滴、携程 等,采用 A2A(Agent to Agent)模式,覆盖电商、本地生活、出行等场景。同时发布开发者接入 AI 生态指引,提供自动模式(零代码授权,AI 自动解析小程序)和开发模式,依托 14.32 亿 月活和数百万小程序生态,实现从需求到交易的完整 AI 链路。
🔶 iPhone 变成 AiPhone,但还不是未来的 AI 手机
文章对比了 苹果、豆包手机、微信、Google 四种 AI 手机路线,认为苹果通过系统级 Siri AI 和 App Intents 追赶,但端侧大模型能力仅为 30 亿 参数,限制于部分机型。
🔶 世界杯还没开赛,多个 AI 已经预测出同一个冠军
Kimi、DeepSeek、Gemini、ChatGPT 等多款大模型一致预测 西班牙队 将在 2026 美加墨世界杯夺冠。Kimi 使用数百个 Agent 集群生成 224 页分析报告。
欧盟称苹果未能让其新款 AI 工具符合监管要求
欧盟委员会发言人表示,苹果 新款 Siri AI 工具在互操作性方面未满足欧盟隐私和安全标准,因而决定不在欧盟范围内推出该功能。
𝕏 Session 3.7 Flash 突破 Agent 任务:2 块钱跑完 16 万行电商后台代码
开发者用 Step 3.7 Flash 模型完成复杂电商库存后台开发,用户前台、管理后台、并发测试全部跑通,生成近 16 万行 代码,整个调用成本不到 2 元。模型能自主设计数据库、迭代修复 bug。
𝕏 8GB 显存运行 Gemma 4 26B 模型,速度 20+ tokens/s
开发者成功在 8GB 显存显卡上运行 Gemma 4 26B 模型,速度达 20+ tokens/s,采用 QAT 量化和 llama.cpp 优化。标志着消费级显卡即可运行大型开源模型。
🔶 WWDC 2026:苹果放弃自研 AI,引入谷歌 Gemini 模型驱动 Siri
苹果在 WWDC 2026 上正式宣布与谷歌深度合作,基于 Gemini 的 1.2 万亿参数 模型驱动全新 Siri AI,每年成本约 10 亿美元。苹果仍保留自有 Private Cloud Compute 基础设施,模型权重来自谷歌,推理运行在苹果数据中心。
🔶 OpenAI 提交 IPO 申请并发布第三阶段战略蓝图
OpenAI 已向 SEC 提交保密版 S-1 文件,正式启动 IPO 程序。同日,Sam Altman 与首席科学家发布战略长文,宣布进入 第三阶段:构建自动化 AI 研究员、加速经济、为每个人提供 个人 AGI。估值 8520 亿美元,累计融资超 1800 亿美元。
🔶 M-A-P 开源 OProver:32B 参数数学定理证明模型超越 671B DeepSeek
M-A-P 开源社区与南京大学等团队提出 OProver,将检索增强与编译器反馈内化到训练策略中。OProver-32B 在 MiniF2F(93.3)、ProverBench 等五项评测中三项第一,全部超越 671B 的 DeepSeek-Prover-V2。代码、权重、训练脚本全面开源。
🔶 DeepSeek 估值 3500 亿元,大举招聘算力基建与产品化团队
DeepSeek 估值升至 3500 亿元,近期开放 IDC 设计规划工程师、数据中心运维等基建岗位,同时在内蒙古乌兰察布建设智算中心,并组建 Agent Harness 团队对标 Claude Code,从模型向应用层和算力基建全链条扩张。
🔶 金融垂域 AI 大模型公司 GIM 获超亿元天使轮融资
金融 AI 公司 GIM 完成天使+轮融资,赛富投资基金领投,至此累计融资过亿元。公司将从零自研金融垂域大模型,聚焦投资场景。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。