天眼早报
🤖 AI 大模型
𝕏 xAI/SpaceXAI 将 Colossus 1 算力租给 Anthropic,Claude 用量限制同步提升
xAI/SpaceXAI与Anthropic达成算力合作,Anthropic 将使用Colossus 1超算/数据中心容量,为 Claude 模型训练、Claude Code 和 Claude API 扩容提供支撑。相关报道提到该集群含22 万块 NVIDIA GPU,新增 300MW+ 容量并计划快速部署;双方还探讨未来建设轨道太阳能 AI 数据中心等更大规模算力方案。
𝕏 vLLM 联合 Mooncake 推出分布式 KV 缓存,显著提升 Agent 推理性能
vLLM与Mooncake合作推出面向 Agent 工作流的分布式 KV 缓存方案,使吞吐量提升3.8 倍,P50 TTFT 降低 46 倍,缓存命中率从 1.7% 提升至92.2%。该方案还支持在 60 块 GB200 GPU 上线性扩展,面向长上下文、多轮调用的 Agent 推理场景优化。
𝕏 OpenAI 开源大模型训练网络协议 MRC,支撑超大规模集群容错
OpenAI开源MRC 多路径可靠连接协议,该协议已用于其最大训练集群,可在链路故障时实现微秒级绕行,降低训练中断风险。MRC 面向GB200与Stargate级别集群训练场景,重点解决大规模分布式训练中的网络可靠性和吞吐稳定性问题。
马斯克称 xAI 将并入 SpaceXAI,不再作为独立公司运营
马斯克在 X 上表示,xAI未来将不再作为独立公司运营,而是转为SpaceXAI旗下 AI 产品线或品牌形态。该变化意味着马斯克旗下 AI 业务可能与 SpaceX 的算力、基础设施和产品体系进一步整合。
𝕏 Claude Code 发布 Dreaming、异步任务与多智能体编排等智能体能力
Claude Code及 Claude Managed Agents 更新多项智能体能力,包括Dreaming研究预览、Routines、Outcomes、异步任务、多智能体编排、Auto-Fix、移动端远程控制和Webhooks公开 beta。Dreaming 可回顾历史会话、提取模式并整理记忆,用于提升长期任务和团队工作流中的上下文连续性。
𝕏 Microsoft Research 提出 Agentic-imodels,让 AI 自动优化可解释模型
Microsoft Research发布新论文,提出Agentic-imodels框架,利用代码 Agent 迭代生成既准确又可由其他 LLM 直接阅读的回归模型。该方法在65 个表格数据集上超越经典基线,并在 BLADE 基准测试中让下游系统性能提升8%-73%,主打可解释性与自动化建模结合。
𝕏 Google 搜索 AI Mode 与 AI Overviews 增加更多来源链接
Google更新搜索中的AI Mode与AI Overviews,新增后续阅读建议、订阅新闻源链接、正文内联链接、桌面悬停预览和社交讨论来源。此次调整意在让 AI 生成式搜索结果更容易回溯信息来源,并为出版方和原始内容提供更多可见入口。
Scale AI 获美国国防部 5 亿美元合同,开发代理型 AI 系统
Scale AI获得美国国防部价值5 亿美元合同,将为空军相关项目开发代理型 AI 系统。该合同金额约为 2025 年 9 月同类合同的 5 倍,显示美国防务体系对 AI Agent、数据基础设施和任务自动化能力的投入继续扩大。
𝕏 Google Gemma 4 开源代码模型进入 Code Arena 前列
Gemma-4-31b在Code Arena前端开发/代码榜单中位列开放模型第 13,Gemma-4-26b-a4b 位列第 17。相关信息还强调部分版本可在 MacBook Pro 上运行,显示 Gemma 系列在本地可用性与代码能力榜单表现上继续提升。
𝕏 Grok 4.3 上线 xAI API,提供 100 万 token 上下文
Grok 4.3已上线xAI API,支持 Gmail、GitHub、Notion 等连接器,提供100 万 token上下文窗口。其标价为每百万 token 1.25 美元,面向需要长上下文、外部工具连接和企业数据接入的应用场景。
𝕏 Claude Code 2.1.132 发布,调整高风险操作确认策略
Claude Code 2.1.132发布,包含28 项 CLI 变更和 2 项系统提示词变更,新增会话追踪变量,并将高风险操作确认策略前置。此次更新偏向开发工具层面的安全性、可追踪性和命令行体验优化,与更大的智能体能力更新相互独立。
𝕏 Luma 开放 Uni-1.1 模型 API,主打意图优先图像生成
Luma发布Uni-1.1统一智能模型 API,强调先思考后生成能力,可理解空间上下文,并基于参考图进行场景补全。该模型面向广告流水线、复杂视觉生产和多步骤图像生成任务,试图让生成系统更贴近创作者意图。
𝕏 TokenSpeed 发布 MIT 许可证开源 LLM 推理引擎
TokenSpeed推出MIT 许可证开源 LLM 推理引擎,目标是在保持类似 vLLM 易用性的同时,接近 TensorRT-LLM 级性能。该引擎重点优化Blackwell平台上的长上下文智能体负载,并宣布 vLLM 成为首日集成伙伴。
𝕏 ChatGPT 进入 Excel 和 Google Sheets,支持表格内公式与数据分析
ChatGPT作为插件进入Excel和Google Sheets,可在表格内分析脏数据、编写公式并解释处理过程。该能力面向日常办公和数据分析场景,降低用户在电子表格中清洗数据、生成公式和理解计算逻辑的门槛。
𝕏 OpenClaw-RL 提出通过自然对话实时训练 Agent 的方法
OpenClaw-RL研究提出利用用户纠正和错误日志作为学习信号,通过过程奖励模型和hindsight 引导策略蒸馏让模型在日常使用中自动适应用户偏好。该方法目标是减少甚至移除传统人工数据标注需求,使 Agent 能在真实交互中持续改进。
𝕏 SGLang 合并 Fastokens,BPE Tokenizer 速度提升 10 倍以上
SGLang正式合并来自 CrusoeAI 的 Rust BPE tokenizer Fastokens,基于 NVIDIA Dynamo 构建,在 Agent 工作负载下 TTFT 提升50%。其平均速度比 HuggingFace tokenizer 快10 倍+,并支持 DeepSeek、Qwen 等多种模型。
𝕏 Zyphra 新模型采用 DSMoE-MLA++ 架构,80B 版本在路上
Zyphra披露新模型路线,结合**DSMoE-MLA++**架构、强化学习和测试时扩展能力,并计划后续推出80B版本。该信息显示 Zyphra 正在探索混合专家、长推理和推理时扩展等方向的组合。
💻 Snap 与 Perplexity 终止 4 亿美元 AI 搜索合作
Snap表示与Perplexity的4 亿美元AI 搜索合作已友好终止。原计划是将 AI 搜索直接整合进 Snapchat,此次终止意味着双方在社交应用内搜索分发和商业合作路径上暂时分开。
𝕏 DeepSeek V4 Flash/Pro 代码生成实测暴露延迟问题
DeepSeek V4 Flash在实时渲染代码生成任务中被测出比GPT-5.4-mini慢6 倍,Pro 版本接近120 秒超时。该测试主要反映其在交互式代码生成和实时预览场景中的延迟问题,而非完整评估模型整体能力。
𝕏 Cursor 3.3 新增智能体上下文用量分析
Cursor 3.3新增上下文用量查看能力,可展示规则、Skills、MCP 和子智能体的上下文占用。该功能有助于开发者理解 Agent 工作流中上下文预算的消耗来源,并优化提示词、工具和子任务配置。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。