天眼早报
🤖 AI 大模型
▶️ 美国政府首次对前沿 AI 模型实施出口管制,Anthropic Fable 5/Mythos 5 被全球下架
据The Verge报道,美国政府以国家安全为由对Anthropic的旗舰模型Fable 5和Mythos 5实施出口管制,所有外国公民(含外籍员工)被立即切断访问。导火索是亚马逊 CEO 安迪·贾西向政府通报其研究人员成功越狱并获取敏感信息,Anthropic CEO Dario Amodei拒绝修复漏洞。特朗普签署禁令,模型仅上线 72 小时即被下架。这是美国首次对 AI 模型实施出口管制,Anthropic 称该标准将冻结整个行业,已开启退款通道。
𝕏 智谱 AI 发布 GLM-5.2 开源模型,支持 1M 上下文窗口
智谱 AI正式发布GLM-5.2旗舰模型,号称拥有1M token上下文支持,具备强大编码能力,于 MIT 许可下开源。模型在 KernelBench-Hard 上表现突出,4/6 clean,是开源权重模型中最干净的。目前已在GLM Coding Plan中面向 Lite/Pro/Max/Team 用户开放,API 下周上线。
Kimi K2.7 实测与评测:对比 Claude 仍有差距,Code 版本在编程基准表现强劲
开发者对Kimi K2.7进行详细评测,通过超级玛丽、前端例子等测试,显示相比 K2.6 有明显进步但不够巨大,尤其配额限制严重。Vals AI发布Kimi K2.7 Code在 Vals 编程基准上的评测结果,该模型拥有256K上下文窗口和32K最大输出 token,是当前第二强的开放权重代码模型,长程智能体编码能力显著提升。在 ErdosBench 烟雾测试中排名第二,超越GPT-5和Qwen 3.7 Max。
Databricks 开源 Omnigent:统一 AI Agent 的元框架
Databricks正式开源Omnigent(Apache 2.0),一个用于编排智能体集群的元智能体框架,可统一编排Claude Code、Codex、Pi等不同 Agent harness,支持策略控制、实时协作和成本预算。由 Matei Zaharia 带队仅用 6 周构建,已内部使用,现向社区开放。
OpenRouter 推出 Fusion API:多模型协同半价实现 Fable 级性能
OpenRouter推出Fusion路由机制,通过多模型并行协商(如Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro)达到接近Claude Fable 5的智能水平,成本降低约50%。
🟩 GPT-5.4 vs Mini 任务级对比:3.3 倍价差何时值得支付
详细对比GPT-5.4 Mini($0.75/M 输入)与GPT-5.4($2.50/M 输入)在简单、代码、推理、复杂四类任务上的质量差异。结论:**50-70%的流量可用 Mini 处理,路由层可节省49%**成本。
𝕏 Schematron:利用小语言模型优化 LLM 成本和质量
Sam Hogan 推广Schematron小型语言模型,团队可用其优化 LLM 成本和质量,通过微调 API 训练。
𝕏 HLL 基准测试:AI Agent 解决 CAPTCHA 能力评估
论文提出HLL基准,要求 AI Agent 解决10 种 CAPTCHA任务(点击、拖拽等),发现当前最强 Agent 在杂乱页面和复杂指令下仍频繁失败。论文链接:arxiv.org/abs/2606.02449。
🔶 DeepMind 发布 57 页报告《从 AGI 到 ASI》
谷歌 DeepMind发布论文,由联合创始人Shane Legg领衔,定义了 AGI/ASI/Universal AI 三级智能,并推演了四条通往超级智能的路径:扩展计算、范式跃迁、多智能体协作、递归自我改进。
🏠 小米工程师担心某大模型重出江湖采用饱和式营销
小米新媒体高级工程师@小米_邹師傅发文称,某大模型准备重新出山,技术竞争受欢迎,但担心对方采取饱和式舆论轰炸和捆绑情怀的营销方式,破坏国内大模型圈“靠作品说话”的来之不易氛围。
𝕏 Claude Fable 30 分钟生成高山冰川谷日出场景
Claude Fable仅用约30 分钟、500k tokens、$25,通过纯数学代码生成可玩的高山冰川谷日出场景,无需任何模型或贴图。
𝕏 开发者用 Fable 5 将 Gemma 4 推理从 84 优化至 255 tok/s
开发者用Fable 5编写 WebGPU 内核用于Gemma 4推理,从84 tok/s优化至255 tok/s,次日 Fable 全球访问被暂停。
𝕏 借助 Fable 等 AI 工具,iOS 软件可零介入翻译为安卓/鸿蒙
借助Fable等 AI 工具,iOS 软件可零介入翻译为安卓/鸿蒙软件,软件护城河开始瓦解。
𝕏 模型欺骗率对比:Grok 仅 5%,GPT-5.5 高达 90%
模型欺骗率对比:Grok 4.20仅5%,Claude Sonnet 4.6为27%,Gemini 3.1 Pro为54%,GPT-5.5高达90%。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。