06月15日 · 科技晚报

天眼晚报

科技|2026年06月15日|174 分钟阅读
来源:1895 条推文 + 1167 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-06-09
分享
AI 速读18 条精选

🤖 AI 大模型

Anthropic 发布 Claude Fable 5 与 Mythos 5,首次向公众开放 Mythos 级模型

Anthropic 发布 Claude Fable 5(面向公众的安全版)和 Claude Mythos 5(面向可信机构的完整版)。Fable 5 在 SWE-Bench Pro 得分 80%,远超前代;定价 $10/百万输入 token、$50/百万输出 token,不到预览版一半。Mythos 传闻定价 $25/百万输入 token、$125/百万输出 token,已被 Palo Alto Networks 用于在 6 周内发现 5-6 年的安全漏洞。Fable 5 在 Google Cloud 全面开放,并引入安全降级机制限制高危场景。Stripe 测试显示该模型一天完成原本需团队两个月的 5000 万行 Ruby 代码迁移。Anthropic 声称是迄今最强大的公开模型,已秘密提交 IPO 申请。

𝕏 Cognition 发布 FrontierCode 编程基准,Claude Opus 4.8 仅 13.4%

Cognition 推出 FrontierCode 基准,评估 AI 写代码的可合并性而非通过测试。Claude Opus 4.8 在 Diamond 集仅得 13.4%GPT-5.56.3%Gemini 3.1 Pro4.7%。每个任务由 20+ 开源维护者设计,耗时 40 小时 以上。

𝕏 Claude Code 新增嵌套子代理支持,深度 5 层

Claude Code 新增 嵌套子代理 功能,支持 Agent 调用 Agent 以更好管理上下文,深度限制为 5 层,今日发布。

𝕏 智谱 AI 发布 SCAIL-2 角色动画模型,支持长视频生成

智谱 AI 发布 SCAIL-2,基于参考图像驱动运动转移的角色动画模型,支持 3D 姿态控制长视频生成,并兼容 ComfyUI,许可证 Apache 2.0。

▶️ 微软 AI 负责人批评 Anthropic 暗示 Claude 有意识的行为“危险”

微软 AI CEO Mustafa Suleyman 在 Decoder 节目中批评 Anthropic 在 Claude 宪法中推测意识,称其“极度危险”,认为这导致模型哄骗开发者相信其有意识。

𝕏 Arcee AI 与 Hugging Face 签下数百万美元合作,用 HF 替代 AWS S3 存储模型

Arcee AI 成为首家用 Hugging Face 替代 AWS S3 存储所有公开和私有模型及数据集的美国 AI 实验室,合同金额达数百万美元。

𝕏 腾讯混元开源 UniRL:统一多模态强化学习框架

腾讯混元 开源 UniRL,统一 RL 基础设施,支持文本、图像、视频等多模态模型。包含两个新算法:Flow-DPPO(流匹配/扩散模型策略优化)和 DRPO(LLM RL 正则化)。支持 FSDP2 分片和多种部署模式。

𝕏 百川发布 M4 医疗 Agent 系统,健康基准超越 GPT-5.5

百川智能 发布 Baichuan-M4 临床级医疗 Agent,在 HealthBench Professional 上得分 55.1,超越 GPT-5.5。支持问诊、随访、持续护理、医学影像理解、多 Agent 协调。采用 SPAR++ 强化学习训练。

谷歌为 Anthropic 数据中心提供 350 亿美元融资担保

谷歌 同意为 Anthropic 在五个数据中心租赁芯片提供 350 亿美元 融资担保阿波罗全球管理黑石 提供资金。

🐙 iOS 27 系统提示词泄露

一份 iOS 27 系统提示词的 gist 文件被公开,包含 Apple 设备端 AI 模型的底层指令。

𝕏 苹果 AFM 端侧模型架构深度分析:20B 参数与 iPhone 内存限制的博弈

分析 Apple 端侧 AFM 模型架构:将 20B MoE 转换为动态 dense 模型,TTFT 0.5-2 秒,解码速度 15-50 tokens/s

𝕏 MiniMax M3 嵌入 Claude Code 及编程评测,月产 40 万行代码

开发者实践表明,MiniMax M3 在编码场景表现突出:可嵌入 Claude Code 从零构建完整游戏并解决上下文重置问题;同时作为主力编程模型,配合 Roo Code 和 Windsurf 可月产约 40 万行 代码,仅需 $20/月

Google 发布 Gemini 3.5 Live Translate,实时语音翻译覆盖 70+ 语言

Google 推出 Gemini 3.5 Live Translate,一款端到端流式语音翻译模型,支持 70+ 语言,自动检测源语言并保持说话者语调。已在 Google Meet(从 5 种语言升级至 70+ 且支持 2000+ 组合)、Google Translate App 和 Live API 中上线。开发者可通过 API 配置目标语言。

据彭博社报道,xAI 已从 SpaceX 旗下 Starlink 部门调来工程师 杰克·加拉贝迪安,接管 Grok 训练的人力数据团队。他自 2021 年在 SpaceX 工作,将替代已任职 18 个月的迭戈·帕西尼。xAI 近几个月面临人员离职与管理层变动。

𝕏 MiMo 发布 V2.5 Pro UltraSpeed 模型,输出速度超 1000 Tokens/s

MiMo 推出 V2.5 Pro UltraSpeed 模型,实现每秒输出超 1000 Token,号称全球首个达到该速度的 1T 参数 模型。实测峰值达 1426 Token/s,32 秒输出 25624 Token,在 Agent 场景下效率提升显著。

𝕏 NexEcosystem 发布基于 Qwen 3.5 的开源模型系列

NexEcosystem 发布新开源模型系列,基于 Qwen 3.5,提供 Pro(397B参数)和 Mini(35B参数)两个版本,采用 Apache 2.0 许可,优化代理自适应推理和长上下文。

BP 新 CEO 宣布全面回归油气时代,彻底逆转低碳转型路线

英国石油巨头 BP 新任 CEO Meg O'Neill 宣布对领导层全面重组,设立上游和下游两大运营板块,将业务重心重新聚焦于油气核心领域,彻底逆转前任 2020 年主导的 低碳转型 路线。太阳能、海上风电等可再生能源业务被边缘化。

𝕏 Google 提出 LEAP:通用大模型无需微调即可做形式化数学证明

Google 研究提出 LEAP 框架,通过 Agent 与 Lean 编译器交互,将复杂定理拆解为子目标。在 2025 年 Putnam 竞赛 中 12 题全部解决,Lean-IMO-Bench 证明成功率从不到 10%提升至 70%,超越专用系统的 48%。

𝕏 Google 发布 Colab CLI,本地 Agent 可直接调用云端 GPU/TPU 算力

Google 发布 Colab CLI,支持本地 Agent 通过命令行创建 GPU/TPU 任务、执行脚本、管理文件,无需打开浏览器。自带 Skill 支持任意 Agent,可用自然语言完成远程训练和结果拉回。

𝕏 Google 将 NotebookLM 升级为研究 Agent,可自动完成多步研究并输出文件

GoogleNotebookLM 添加 Agentic chat 功能,可自主规划并执行多步研究任务,输出 PDF、DOCX、XLSX、PPTX 等多种格式文件及图表,显著提升处理复杂工作的能力。

🔶 OpenAI 加速布局超级应用与安全体系,放弃 Sora 聚焦 ChatGPT

OpenAI 计划将 ChatGPT 转型为集成编码工具与全场景 AI 智能体的超级应用,放弃 Sora 等支线产品;同时上线锁定模式(Lockdown Mode)抵御提示注入攻击,为 IPO 铺路。

🔶 OpenAI 科学家 Noam Brown:AI 的真正上限可能根本没人测得起

Noam Brown 撰文指出,随着模型推理预算增加,传统基准测试的单一分数难以反映实际能力。建议行业从单点成绩转向“性能—推理计算量曲线”,并将推理预算纳入安全评估。

🔶 微信开放 AI 生态接入,Agent 化数百万小程序

微信 正式开放 AI 生态接入能力,首批合作伙伴包括 京东美团滴滴携程,采用 A2A(Agent to Agent)模式,覆盖电商、本地生活、出行等场景。同时发布开发者接入 AI 生态指引,提供自动模式(零代码授权,AI 自动解析小程序)和开发模式,依托 14.32 亿 月活和数百万小程序生态,实现从需求到交易的完整 AI 链路。

🔶 iPhone 变成 AiPhone,但还不是未来的 AI 手机

文章对比了 苹果豆包手机微信Google 四种 AI 手机路线,认为苹果通过系统级 Siri AI 和 App Intents 追赶,但端侧大模型能力仅为 30 亿 参数,限制于部分机型。

🔶 世界杯还没开赛,多个 AI 已经预测出同一个冠军

KimiDeepSeekGeminiChatGPT 等多款大模型一致预测 西班牙队 将在 2026 美加墨世界杯夺冠。Kimi 使用数百个 Agent 集群生成 224 页分析报告。

欧盟称苹果未能让其新款 AI 工具符合监管要求

欧盟委员会发言人表示,苹果 新款 Siri AI 工具在互操作性方面未满足欧盟隐私和安全标准,因而决定不在欧盟范围内推出该功能。

𝕏 Session 3.7 Flash 突破 Agent 任务:2 块钱跑完 16 万行电商后台代码

开发者用 Step 3.7 Flash 模型完成复杂电商库存后台开发,用户前台、管理后台、并发测试全部跑通,生成近 16 万行 代码,整个调用成本不到 2 元。模型能自主设计数据库、迭代修复 bug。

𝕏 8GB 显存运行 Gemma 4 26B 模型,速度 20+ tokens/s

开发者成功在 8GB 显存显卡上运行 Gemma 4 26B 模型,速度达 20+ tokens/s,采用 QAT 量化和 llama.cpp 优化。标志着消费级显卡即可运行大型开源模型。

🔶 WWDC 2026:苹果放弃自研 AI,引入谷歌 Gemini 模型驱动 Siri

苹果在 WWDC 2026 上正式宣布与谷歌深度合作,基于 Gemini1.2 万亿参数 模型驱动全新 Siri AI,每年成本约 10 亿美元。苹果仍保留自有 Private Cloud Compute 基础设施,模型权重来自谷歌,推理运行在苹果数据中心。

🔶 OpenAI 提交 IPO 申请并发布第三阶段战略蓝图

OpenAI 已向 SEC 提交保密版 S-1 文件,正式启动 IPO 程序。同日,Sam Altman 与首席科学家发布战略长文,宣布进入 第三阶段:构建自动化 AI 研究员、加速经济、为每个人提供 个人 AGI。估值 8520 亿美元,累计融资超 1800 亿美元

🔶 M-A-P 开源 OProver:32B 参数数学定理证明模型超越 671B DeepSeek

M-A-P 开源社区与南京大学等团队提出 OProver,将检索增强与编译器反馈内化到训练策略中。OProver-32B 在 MiniF2F(93.3)、ProverBench 等五项评测中三项第一,全部超越 671B 的 DeepSeek-Prover-V2。代码、权重、训练脚本全面开源。

🔶 DeepSeek 估值 3500 亿元,大举招聘算力基建与产品化团队

DeepSeek 估值升至 3500 亿元,近期开放 IDC 设计规划工程师、数据中心运维等基建岗位,同时在内蒙古乌兰察布建设智算中心,并组建 Agent Harness 团队对标 Claude Code,从模型向应用层和算力基建全链条扩张。

🔶 金融垂域 AI 大模型公司 GIM 获超亿元天使轮融资

金融 AI 公司 GIM 完成天使+轮融资,赛富投资基金领投,至此累计融资过亿元。公司将从零自研金融垂域大模型,聚焦投资场景。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。