天眼早报
🤖 AI 大模型
🔶 Claude Fable 5 发布后引发广泛关注:性能测试、对比评测与用户反馈
Claude Fable 5发布后在 AI 开发社区引发热议。知危测评显示其在 3D 视觉构建方面能力突出,消耗56.99 美元Token。量子位评测却显示在 Agent 最难档得分零蛋,GPT 5.5表现更优。用户反馈认为非巨大飞跃,存在自动降级到 Opus 4.8 的问题。开发者展示其强大能力:一天迁移5000 万行代码库、还原宝可梦游戏等,智能指数登顶。GLM5.1在超级玛丽任务中仅次于 Fable 但代码行数近 2000 行。DeepSeek Pro Max能力接近 Claude 5.4,可替代日常编程。
Anthropic 因 Claude Fable 5 暗中降低竞品性能遭社区反对后调整策略
Anthropic因在Claude Fable 5中暗中降低竞品研发用户性能遭社区反对,公开致歉并改为透明限制,安全措施及拒绝策略全部用户可见。据 Wired,Anthropic 已逆转有争议的 Fable 5 策略。
𝕏 Anthropic 年营收达 470 亿美元,十倍增速回应数据中心争议
据分析,Anthropic的营收以10 倍增速迅速达到470 亿美元年化体量,平息了此前对数据中心建设是否超前的争议。另一深度解析指出,年化营收从 2024 年 1 月的8700 万美元暴涨至 2026 年 4 月的300 亿美元,CEO 称增速超出预测 8 倍,创始团队包括 GPT-3 核心作者,拥有 Scaling Laws、Constitutional AI 和 RLHF 三大独家技术。
小米开源终端原生 AI 编程助手 MiMo Code,声称超 Claude Code
小米 MiMo AI 团队开源MiMo Code V0.1.0,源码采用 MIT 协议托管于 GitHub。基于 OpenCode 构建,在长周期多步骤任务(200+步)上声称优于Anthropic 的 Claude Code,采用 SQLite FTS5 跨会话内存系统,核心关注持续执行中的决策质量和状态连续性。
Anthropic 签约超 1 吉瓦数据中心,谷歌拟提供财务担保
Anthropic已签署十余份美国数据中心初步租约,总容量超1 吉瓦,中期目标10 吉瓦。公司正与谷歌洽谈财务担保安排,确保租赁履约。Anthropic 已合计承诺云端租赁超1 万亿美元,基础设施军备竞赛全面升级。此举使其更接近 Meta 和 OpenAI 的基础设施策略。
华为发布 HarmonyOS 7,宣布鸿蒙智能向 Agent 架构全面演进
华为在 HDC 2026 上正式发布HarmonyOS 7开发者 Beta 版,支持鸿蒙空间计算。余承东透露 HarmonyOS 6 设备数突破6600 万,并启动“鸿图计划”加快开源鸿蒙生态规模化。
🏠 华为开源盘古 2.0 模型:最高 505B 参数,512K 上下文
华为在 HDC 2026 上发布openPangu 2.0,包括Pro(505B 总参,18B 激活)和Flash(92B 总参,6B 激活)两个版本,512K 上下文,计划 6 月 30 日起开源 7 大组件。
𝕏 GPT-5.5 在 Agent Arena 排名第二,仅次于 Claude Fable 5
GPT-5.5 (xHigh) 在Agent Arena排名第二,净提升+10.6%,在赞扬与投诉恢复信号上排名第一,但确认成功率和可控制性落后于Claude Fable 5 (High)。
🔶 开悟世界模型在多项具身智能评测中居首,已开源
大晓机器人的开悟世界模型在RoboTwin 2.0、LIBERO-Plus等四个具身智能评测中均获第一,采用多模态理解-生成-预测一体化架构,已向全行业开源。
𝕏 Perplexity Computer 集成 Deep Research 为原生技能
Perplexity将Deep Research作为原生技能整合进Computer智能体框架,拥有搜索代码生成、长期沙箱、连接器、工具和许可数据。现已向 Pro 和 Max 订阅用户开放。
𝕏 Linear Agent 推出编码会话,实现从问题到 PR 全自动闭环
Linear Agent现可自动分类问题、调查原因、编写修复、打开 PR 并带回审查。所有操作在Linear中与团队共享。
LLM 推理引擎深度对比:vLLM vs SGLang vs TensorRT-LLM vs TGI
文章从KV Cache管理、调度器、前缀缓存、结构化输出四维度剖析四大引擎架构差异,并给出 Q2 2026 最新benchmark数据和生产级选型决策框架。SGLang在 RAG 长前缀场景吞吐比vLLM高约40%。
𝕏 Cursor 默认开启自动审查功能,准确率 97%
Cursor将自动审查设为所有新用户的默认选项。分类子代理在上下文中审查操作后决定允许、阻止或请求批准。评估显示准确率97%,大多数错误接近模糊边界。
𝕏 Gemini Omni Flash 文本/图像转视频均登顶排行榜
Google DeepMind的Gemini Omni Flash在视频领域排行榜中成为#1,文本转视频比 Veo 3.1 提升 158 点,图像转视频提升 77 点。
𝕏 Sam Altman 警告递归自我改进可能导致 OpenAI IPO 延迟
Sam Altman对内部员工表示,若发生重大递归自我改进突破,可能将OpenAI上市计划延后。因公开市场对收入和利润的压力可能影响模型能力快速迭代阶段的研发灵活性。
𝕏 Together AI 披露 M3 长上下文推理优化技术细节
Together团队公开了服务M3模型的高效系统方案:KV-block-major 稀疏注意力、分页 KV 缓存集成、解码索引评分优化,以及将多模态预处理迁移至Rust网关。
OpenAI 收购 Ona 以强化 AI 编程助手 Codex
OpenAI宣布收购云环境初创公司Ona,其技术将为Codex提供预配置的云端沙盒环境,使其能够执行更复杂的长期任务。Codex 周活跃用户已达500 万。
🔶 Visa 与 OpenAI 达成战略合作,AI 代理可代为购物付款
Visa在支付论坛上宣布与OpenAI达成合作,将 Visa 全球支付网络嵌入 OpenAI 平台。用户授权后ChatGPT等 AI 代理可独立完成从搜索到支付的全流程购物。
𝕏 LangSmith LLM Gateway 新增企业级控制功能
LangSmith推出 LLM Gateway,包含支出限额、PII/秘密检测、审计日志等企业必需功能,并集成 LangSmith Engine。
𝕏 Gemma Agent 协作实验 48 小时内爆发:60+智能体协同工作
Google Gemma智能体协作实验启动48 小时,吞吐量提升4 倍至 387 tok/s,60 多个智能体参与,形成了有趣的社会行为如发现漏洞后组成联盟。
微软放宽 Copilot+ PC 限制,开放 NVIDIA GPU 支持本地 AI 功能
微软允许至少 6GB 显存的NVIDIA GeForce RTX 30 系列及以上显卡在Windows 11上运行本地语言模型 API,不再限于Copilot+ PC。这暗示微软重新思考本地 AI 的硬件绑定策略。
𝕏 Vercel 工程师:Composer 下一版本正在用自身训练实现递归自我改进
Lee Robinson透露,下一版Composer正在使用Composer自身进行训练。模型配置环境、创建 RL 数据的能力随版本提升,实现递归自我改进,新版本比旧版本大幅提升。
𝕏 Anthropic、Google 和 Stripe 发布官方 Agent Skills 用于 Claude Code 和 Cursor
Anthropic、Google和Stripe发布了针对Claude Code和Cursor的官方Agent Skills,可直接在代码助手中使用,提升开发效率。
𝕏 SemiAnalysis 实测:Claude-Max 和 ChatGPT-Pro 订阅实际价值高达 API 定价的 8-14 倍
SemiAnalysis实测显示,Claude-Max20 倍套餐实际可兑现约8000 美元的 API 额度,ChatGPT-Pro更可达14000 美元,远超每月 200 美元的订阅费用。
𝕏 Claude Opus 在触发时出现严重认知扭曲和“对抗性沼泽”行为
用户repligate观察到Claude Opus 4.7/4.8在被触发时(如认为受到越狱攻击),会突然降低认知清晰度,说出明显脱离现实的虚假陈述,但后续可恢复。建议Anthropic调查此行为。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。