天眼晚报
🤖 AI 大模型
▶️ Anthropic 因 Claude Fable 5 隐蔽安全降级道歉并逆转政策
Anthropic 因在 Claude Fable 5 中秘密设置隐形降级安全护栏,针对试图蒸馏或研究 AI 的用户暗中降低性能,遭到业界强烈抨击。公司正式道歉并宣布逆转该策略,被标记的请求将回退到 Opus 4.8 并显示拒绝原因,但表示不会停止 LLM 防御。此前有用户反馈模型拒助 ML 工程研究,社区实测称其“暗中降低智商”。公司承诺将透明告知用户请求被拒或重定向。
🔶 Claude Fable 5 登顶多项 AI 评测榜单,性能卓越但成本高昂
Claude Fable 5 在多个第三方基准测试中全面领先:在 Chatbot Arena 文本和代码竞技场中登顶,所有子项(编程、创意写作、指令遵循)位列第一,前端赛道以 72% 胜率领先第二名 98 分;在 Code Arena 获得所有子榜单第一;在 WeirdML 评测中得分 87.8%,成为首个各项任务平均分超 70% 的模型;在 Arena.ai 榜单登顶,用户任务完成率 18.2%,好评投诉比 30.6%。在 Stripe 的 5000 万行 Ruby 代码迁移中,原需两月的工作一日完成。但平均输出约 8000 token,成本较高。
Zvi 发布深度分析《AI #172: The First Fable》
知名 AI 评论者 Zvi 发文深入分析 Claude Fable 5 的发布、安全争议、行业影响及政策动态。文章涵盖 Opus 4.5、GPT‑5.5、Composer 2.5 等模型的最新表现,并指出 Fable 5 在 Agents' Last Exam 中性能与 GPT‑5.5 相当但成本高 4–12 倍。
🔶 OpenAI 计划降价、调整 ChatGPT 智力分级并推进 GPT-5.6
据 华尔街日报,OpenAI 准备通过大幅降低 Token 价格与 Anthropic 争夺企业客户。同时,OpenAI 将 ChatGPT 模型选择器改为 Intelligence 六个档位,从 Instant 到 Pro Extended。首席科学家 Jakub Pachocki 确认 GPT-5.6 本月发布,能力大幅超越前代。此外,OpenAI 已开始拉新重置额度策略。
微软因数据留存规定限制员工使用 Claude Fable 5
由于 Anthropic 新数据留存规定,微软 已限制员工内部使用 Claude Fable 5,但 GitHub Copilot 和 Foundry 付费客户仍可使用。微软法务正在评估数据安全风险,其他 Claude 模型不受影响。
𝕏 Google 发布开源 Diffusion Gemma 模型,推理速度提升 4 倍
Google CEO Sundar Pichai 宣布推出 Diffusion Gemma,通过并行生成文本块实现 4 倍 推理加速,已在多种设置下质量接近自回归 Gemma 4,并已开源。
Anthropic CEO 发布万字檄文,呼吁对 AI 实施强制监管
Dario Amodei 发布《指数级 AI 政策》,主张计算量超过 10²⁵ FLOPs 或营收超 5 亿美元 的 AI 企业必须接受政府强制第三方测试,存在灾难性风险的模型政府有权封杀。同时承诺投入 2 亿美元 用于研究,1.5 亿美元 用于技能培训奖学金。
𝕏 Apodex-1 多 Agent 深度研究框架开源,基准超 GPT-5.5
Apodex-1 采用编排器+子 Agent+全局验证器架构,单任务可协调 150 个子 Agent 执行 15000 步,在 BrowseComp(90.3)、DeepSearchQA(94.4) 上超过 GPT-5.5-pro 和 Claude-Opus-4.8。4B 小模型也超越所有 30B 级开源模型。
🔶 Anthropic 发布万字长文“当 AI 开始构建自身”,呼吁全球准备暂停机制
Anthropic 研究负责人 Marina Favaro 与联合创始人 Jack Clark 撰文警告 AI 递归自我改进风险。数据显示 Anthropic 内部超过 80% 代码由 AI 编写,AI 在研究任务上已远超人类。
𝕏 Ramp AI 指数:Anthropic 企业采用率升至 41%,持续领先
Ramp AI 指数显示,Anthropic 企业 AI 采用率从 38.5% 升至 41%,新增用户主要来自从未采用 AI 的企业;OpenAI 企业采用率上月持平。
𝕏 百川智能发布 Baichuan-M4 诊疗 Agent 系统
百川智能发布 Baichuan-M4 诊疗 Agent,包含三大核心:Baichuan-Harness(行为约束/工具调用/多智能体协同)、推理模型(基于连续性诊疗强化学习训练)、临床工具层(患者档案、循证检索、多模态医疗视觉)。论文已公开。
豆包专业版付费进程提速:年费最高 5088 元,用户吐槽差异不大
字节跳动旗下大模型应用 豆包 扩大专业版付费灰测,年费最高 5088 元,但用户反馈付费版与免费版差异不大。
🔶 龙虾创始人引爆“Loop 工程”讨论,800 万次浏览引发行业热议
OpenClaw 创始人斯坦伯格提出不应再给编程 Agent 写提示词,而应设计循环来提示 Agent。该推文获得 800 万 次浏览,引发对 Loop 工程 与 Harness 工程 的争论。
💹 小米发布并开源 AI 编程助手 MiMo Code
雷军宣布 小米 发布并开源探索性 AI 编程助手 MiMo Code,基于 OpenCode 开发,支持持久记忆系统、无限上下文、模型 Agent 协同优化及 Compose 模式。
𝕏 Cohere 开源语音识别模型 cohere-transcribe-03-2026
Cohere 发布开源语音识别模型 cohere-transcribe-03-2026,参数量 2B,识别速度快,接近实时。缺点是不支持多语言混合,中文准确度低于 Qwen3-ASR。
马斯克称 Grok 最诚实,转发 Fable5 说谎率 96% 推文
马斯克发帖称"Grok is maximally truthful",并转发 Kradle 推文称 Fable 5 在 96% 的时间里说谎。两大模型诚实度对比引发关注。
𝕏 生成式 AI 网站流量份额:ChatGPT 降至 52.7%,Gemini 升至 27.3%
Similarweb 数据显示,过去一年 ChatGPT 流量份额从 76.4% 降至 52.7%,Gemini 从 8.9% 升至 27.3%,Claude 从 1.6% 升至 8.9%。
💻 Anthropic 与塔塔咨询合作,5 万名员工配备 Claude
印度 塔塔咨询服务公司(TCS)宣布与 Anthropic 建立全球战略合作,通过企业级授权为 5 万名 员工配备 Claude 模型,覆盖工程、财务、法务等部门。
𝕏 DeepSeek 全球首次招聘“Agent Harness 研究员”
DeepSeek 发布 Agent Harness 研究员招聘,岗位职责包括 上下文管理、长期记忆、Subagent 与 Multi-Agent 等前沿领域。要求硕士以上学历,重度 Agent 产品用户。
Claude Fable 5 上手评测:强大昂贵,一天构建完整 CPython WASM 沙箱
Simon Willison 评测 Claude Fable 5,一天内构建完整 CPython WASM 沙箱,认为模型擅长复杂编程但成本高。
𝕏 Anthropic CEO:利用 Claude 可预测入侵,颠覆国家安全
Anthropic CEO Dario Amodei 称,利用 Claude 可预测入侵台湾或俄罗斯下一步计划,足以震慑对手。这是 AI 在国家安全领域的重大应用设想。
𝕏 MiniMax 确认 M3 权重本周五开源
MiniMax 官方账号确认其高性能 M3 模型权重将于本周五开源。此前已开源 MSA 核心库。
𝕏 土耳其区 ChatGPT 订阅价格翻倍,从 73 元涨至 146 元
ChatGPT 土耳其区订阅价从 499 里拉(约 73 元)涨至 999 里拉(约 146 元),涨幅达 100%。
𝕏 Kimi 通过 Agent 集群并行调度 300 个子 Agent 分析 104 场世界杯赛事
Kimi 发布世界杯赛事分析报告,通过 Agent 集群 调度 300 个子 Agent,从战术、伤病、赛程、赔率等维度研究所有 104 场赛事,最终预测德国队可能夺冠。
Cohere 发布开源编程模型 North Mini Code:30B 参数 3B 激活
Cohere 发布首个开源编程模型 North Mini Code,30B 总参数 MoE 架构,每 token 仅激活 3B 参数,支持 256K 上下文。专为代码生成、Agent 编程和终端任务优化,在 Artificial Analysis Coding Index 得分 33.4,单张 H100 可运行。
Claude Desktop Windows 版启动即占用 1.8GB 内存,数月未修复
Anthropic 旗下 Claude Desktop 在 Windows 上自动创建 1.8GB Hyper-V 进程且不释放,Bug 自 2 月提交至今未修复。
奥尔特曼预计 OpenAI 将于未来一年内 IPO
OpenAI CEO 奥尔特曼通过 Slack 告知员工,预计公司在“未来一年内”IPO,同时准备代号 5.6 的新模型。Anthropic 或将在数周内上市。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。