天眼早报
🤖 AI 大模型
美国政府指令 Anthropic 全球暂停 Claude Fable 5 和 Mythos 5
2026 年 6 月 12 日,美国政府引用国家安全权限发布出口管制指令,要求Anthropic暂停所有外国公民访问Claude Fable 5和Mythos 5模型。Anthropic 称已通过口头证据得知存在一种窄范围越狱方法,但认为不应因此召回已部署给数亿用户的模型。所有其他 Anthropic 模型不受影响。Anthropic 已全面禁用并致歉,表示决定基于“严重误解”。这是 AI 史上首次商业大模型被政府强制下架。
𝕏 Google DeepMind 开源 DiffusionGemma:3.8B 活跃参数,推理速度是 Gemma4 的 4 倍
Google DeepMind发布开源DiffusionGemma(25.2B MoE),基于离散扩散架构,仅3.8B活跃参数,生成速度超1100 tokens/s,MMLU Pro 达77.6%,采用 Apache 2.0 许可。推理速度在单 H100 上比 Gemma4 快4 倍,可支持更快的本地推理体验。
Google 发布 Gemini-SQL2:BIRD 榜单准确率 80.04%,文本到 SQL 新 SOTA
Google Research发布Gemini-SQL2,基于Gemini 3.1 Pro,在 BIRD 单模型榜单上取得**80.04%**执行准确率,超越此前记录,能生成可执行的精准 SQL 查询。
𝕏 MiniMax 开源 M3 模型:428B 参数、23B 激活、1M 上下文
MiniMax正式开源M3模型,约428B总参数,23B激活参数,原生多模态支持文本/图像/视频,支持1M上下文,引入MiniMax 稀疏注意力(MSA),预填充速度比 M2 快9 倍,解码快15 倍,在 PostTrainBench 排名第三,支持 SGLang、vLLM 等推理框架。
𝕏 Moonshot AI 发布 Kimi K2.7-Code:1T 参数 MoE,编码性能提升 21.8%
Moonshot AI发布Kimi K2.7-Code编码模型,1T 总参数、32B激活参数的 MoE 架构,支持 256K 上下文,推理 token 降低30%,在 Kimi Code Bench v2 上得分62.0,较 K2.6 提升21.8%,支持 vLLM,已上线 Kimi Code 和 API。
𝕏 DeepSeek V4 Pro 在 NVIDIA GB300 NVL72 上创纪录:SGLang 每秒超 12K tokens/GPU
SGLang在NVIDIA GB300 NVL72上实现DeepSeek V4 Pro 1.6T模型推理,超过12K tok/s per GPU,使用 NVIDIA Dynamo 和 MTP 技术。
𝕏 NVIDIA 推出首个智能体 AI 基础设施基准 AgentPerf:Blackwell 比 Hopper 效率高 20 倍
NVIDIA与Artificial Analysis发布AgentPerf基准,首个针对 AI 智能体基础设施的测试。结果显示NVIDIA Blackwell每兆瓦可运行20 倍更多的智能体,比 Hopper 提升显著。
🏠 智谱 GLM-5.2 全量开放,下周开源
智谱发布最强开源模型GLM-5.2,支持1M 上下文,今晚起面向 GLM Coding Plan 用户开放,API 下周上线,模型以MIT 协议开源。
𝕏 小米发布 MiMo 2.5 系列:开放权重模型排名前 6,多模态版本排名第 3
小米推出MiMo 2.5和MiMo 2.5 Pro,在 Vals Index 开放权重模型排名#5 和#6。Pro 为文本模型,MiMo 2.5 多模态版本在多模态索引中排名#3(52.8%)。
𝕏 Google DeepMind 发表论文:从 AGI 到 ASI 的 4 条技术路径
Google DeepMind发布论文《From AGI to ASI》,提出 AGI 到 ASI 的 4 条路径:持续扩展计算、算法范式转变、递归自我改进、多智能体集体智能。
𝕏 GPT-5.5-xhigh FrontierMath 分数大幅跃升,EpochAI 修复基准错误
GPT-5.5-xhigh的FrontierMath 4分数从35%跃升至73%,原因是EpochAI修复了基准测试中的错误。
𝕏 GitHub Copilot 代码审查现支持自定义 Agent 技能和 MCP 服务器
GitHub宣布Copilot 代码审查支持自定义 Agent 技能和MCP服务器连接,现已面向 Copilot Pro、Pro+、Business 和 Enterprise 用户公开预览。
𝕏 盲测显示通用 LLM 优于专业临床 AI
一项盲测发现,GPT 5.2、Opus 4.6、Gemini 3.1等前沿 LLM 在医学诊断中优于OpenEvidence等专业临床 AI,而医院 IT 部门更倾向于批准专用版本。
Claude Fable 3 小时零干预完成 3D 版《坦克大战》制作
开发者用Claude Fable通过自然语言编程,零干预完成经典《坦克大战》3D 版开发,包含42 项断言、24 分钟浸泡测试零错误。模型自主完成需求分析、代码编写、自动化测试和效果优化。
华为余承东:盘古大模型目标从中国第一走向世界第一
在华为 HDC 2026上,余承东宣布亲自带队盘古大模型,目标世界第一。鸿蒙 6 设备数突破6600 万,成为中国第二大手机 OS。
𝕏 华为盘古大模型:2021 年即发布 1100 亿参数中文预训练模型
华为云盘古大模型于 2021 年 4 月 发布,NLP 模型参数达 1100 亿(后升级至 2000 亿),使用 40TB 文本数据训练,是中国最早的大模型之一。同时发布盘古 CV 大模型。
𝕏 谷歌声称起诉涉嫌使用 AI 发送诈骗短信的中国网络犯罪团伙
Google起诉一个涉嫌使用AI发送诈骗短信的中国网络犯罪团伙。
𝕏 用户实测:Claude Fable 5 找漏洞能力强,但性价比不及 GPT 5.5
开发者 tualatrix 评测 Claude Fable 5 与 GPT 5.5,让二者互相审核代码。Fable 5 找出很多问题,但 GPT 5.5 也修正了不准确之处。结论:Fable 5 强于 Opus 4.8,但性价比不如 GPT 5.5。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。