天眼早报
🤖 AI 大模型
𝕏 OpenAI 将 Coding 模型并入主线,GPT-5.5 长上下文检索能力提升并已广泛用于 Codex
OpenAI 宣布自 GPT-5.4 起取消独立 Coding 版本,把 gpt-codex 与主模型合并为单一系统,意味着编码能力被视为通往更强通用智能的基础能力,而非单独产品线。与此同时,披露信息显示 GPT-5.5 相比 GPT-5.4 在长上下文检索准确率上实现翻倍提升,并已在内部被广泛用于 Codex。这也反映出前沿编码模型竞争正从单纯比拼能力,逐步转向 UX、可靠性、价格与限额等综合体验。
𝕏 DeepSeek 全系 API 输入缓存价格降至原来十分之一,V4-Pro 折扣延续至 2026 年 5 月
DeepSeek 宣布全系列 API 输入缓存命中价格即日起降至原价 1/10,显著降低高频调用和长上下文场景的使用成本。同时,DeepSeek-V4-Pro 的 75% 折扣将继续延续至 2026 年 5 月 5 日。这项调整对依赖缓存命中的企业级推理、Agent 工作流和大规模 API 集成尤其有吸引力,体现出 DeepSeek 在价格策略上继续强化竞争力。
𝕏 Claude Code 被曝因提交信息触发额外计费,Anthropic 员工承认检测漏洞并承诺补偿
有用户反馈,在 Git commit message 中包含 HERMES.md 后,Claude Code 请求会被自动路由到额外用量计费,单次多花 200 美元。随后官方员工回应称,这是第三方 harness 检测逻辑中的 bug,而非预期计费行为,并表示将进行退款并补送一个月额度。事件也提醒开发者,Agent 编码工具在自动化检测、路由与计费链路上的透明性仍需加强。
𝕏 Anthropic 即将推出 Claude Platform on AWS,可在 AWS 账户体系内直连原生平台
Anthropic 将推出 Claude Platform on AWS,与 Bedrock 的托管接入模式不同,开发者可在 AWS 账户体系内直接使用原生控制台、API 以及后续新功能。这意味着企业既能保留 AWS 的账户与基础设施边界,又可更快获得 Claude 平台的原生能力与更新节奏,对希望兼顾云治理与模型前沿特性的团队具有实际吸引力。
𝕏 DeepSeek V4 Flash 成为 OpenClaw 默认启动模型,权重已出现但仍待文档与基准测试
DeepSeek V4 Flash 已被选为 OpenClaw 的默认启动模型,用户反馈其整体表现足以覆盖多数 AI Agent 运行需求,仅在部分更高要求场景下仍需 Claude Opus 4.7 或 GPT-5.5。与此同时,社区还发现 DeepSeek-V4 Flash 可用权重已经出现,但官方文档与benchmark尚未完善,因此其真实能力边界和与 MiniMax M2.7 等模型的对比表现仍有待进一步验证。
𝕏 Google Cloud 披露 TPU 8t 超级集群架构,单个 Superpod 可扩展至 9600 芯片
Google Cloud 展示 TPU 8t ASIC 模块图,称其面向大规模预训练和嵌入任务,延续 3D torus 网络设计,并将单个 superpod 扩展至 9600 颗芯片。这一披露反映出谷歌仍在持续强化超大规模训练基础设施,为更高密度、更大参数规模和更长周期的模型训练提供底层算力支撑。
𝕏 GitHub Next 提出 ACE 框架,试图缓解 AI 协作中的团队对齐瓶颈
GitHub Next 的 Maggie Appleton 指出,AI 提升实现速度后,“实现窗口塌陷”使团队对齐成为新的核心瓶颈。她提出 ACE(Agent Collaboration Environment)概念,结合 Shared Sessions 与 MicroVM 架构,让开发、设计和 PM 能共同管理 Agent 计划,减少协作中的上下文断裂与协调债务。这代表了从“个人 Copilot”走向“团队级 Agent 协作环境”的新方向。
𝕏 本地推理门槛继续下降:Qwen3.6 27B 可在单卡 3090 完成自主编码闭环,MLX 量化版也已上线
围绕本地运行能力,近期出现多条相互印证的信息:开发者称模型效率近半年明显提升,单块 3090 已可承担部分 agentic 与构建工作;更具体的实测显示,Qwen3.6 27B dense 在 1 张 RTX 3090 上以 30-40 tok/s 完成单文件应用开发、自写 10 个测试并自行修复通过。与此同时,社区也上线了 Qwen3.6 27B/35B 的 MLX quants,进一步降低苹果芯片设备上的本地推理门槛。
𝕏 开源社区正以模块化复用重构大模型竞争方式
有开发者总结,开源阵营正在通过组件级复用加速模型迭代:例如 DeepSeek-V4 吸收 Kimi 的 Muon 优化器思路,而 Kimi K2 又复用 DeepSeek 的 MLA+MoE 架构。这说明大模型竞争不再只是封闭体系内的单点突破,越来越多创新会以模块形式扩散、重组与再实现,从而提升整体迭代速度并降低追赶成本。
𝕏 GPT-5.5 Pro 批量处理测试显示其可在 40 分钟内完成复杂任务
有用户实测 GPT-5.5 Pro 执行批量数据处理任务,耗时 40 分钟 完成输出。该案例展示了模型在长上下文、复杂指令与较长执行链路下的实际工作能力,也为其在企业级工作流、异步批处理和复杂分析任务中的可用性提供了一个参考样本。不过,这类单次测试仍更适合作为能力侧证,而非全面性能结论。
𝕏 TRINITY 发布:面向多模型协作与多代理任务分工的演化式 LLM 协调器
TRINITY 被公开为一套演化式 LLM 协调器,核心目标是提升多代理、多模型场景下的任务分工、调度与协作效率。在模型能力趋同的背景下,这类协调层工具的重要性正在上升,它试图解决单一模型难以稳定覆盖复杂流程的问题,为更系统化的 Agent 编排提供基础设施思路。
𝕏 OpenAI 发布临床场景 ChatGPT 医疗评测数据集
OpenAI 在 Hugging Face Hub 发布“Making ChatGPT better for clinicians”相关基准数据集,用于评测模型在临床场景中的表现。该数据集说明 OpenAI 正在推进更贴近真实专业应用的医疗评测基础设施,为后续模型在临床辅助、医学问答与安全性验证等方向的改进提供统一参照。
𝕏 DeepSeek V4 被强调以 100 万上下文为核心特性,并针对重负载场景优化
开发者提到,DeepSeek V4 的核心卖点是 100 万上下文,并针对重负载场景进行了专项优化。虽然这更像对产品定位的提炼而非完整新公告,但它突出了 DeepSeek 在超长上下文与高压工作负载方向上的竞争重点,适合需要大规模检索、长链路推理或复杂 Agent 状态维护的使用场景。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。