天眼早报
🤖 AI 大模型
𝕏 OpenAI 发布 CoT 监控分析,揭示模型对齐关键防御机制
OpenAI发布关于**Chain of Thought (CoT)**监控的深入分析,指出这是防止 AI 代理不对齐的关键防线。团队发现并修复了RLHF过程中意外进行的 CoT 评分问题,并与第三方安全组织合作验证结果,公开了相关技术细节与修复方案。
𝕏 GPT-5.5 Instant 上线,多模态与多轮对话榜单表现提升
OpenAI正式推出GPT-5.5 Instant并集成至 ChatGPT。在Vision Arena排名升至第 11,与 Claude-Sonnet-4.6 持平;Text Arena 位列第 18,多轮对话能力升至第 5。该模型还提升了长文档分析与职业场景推理能力。
𝕏 OpenAI 推出三款实时语音模型,GPT-5 级推理进入语音 Agent
OpenAI在 Realtime API 推出GPT-Realtime-2、Translate 和 Whisper,支持 128K 上下文、70 多种语言输入与并行工具调用,面向实时语音 Agent 提供更强推理与多语言能力。相关模型也已在Bolna上线,用于印度多语言语音智能体场景。
𝕏 Google DeepMind 推出 AI 数学协作系统,FrontierMath Tier 4 得分达 48%
Google DeepMind介绍AI co-mathematician多智能体系统,在FrontierMath Tier 4自主评测中得分48%。该系统覆盖群论、哈密顿系统和代数组合等开放数学问题,被视为 Gemini 系列在复杂逻辑推理方向的重要进展。
𝕏 Claude Code 本周新增 60 多项可靠性修复,长运行会话更流畅
Anthropic团队宣布本周为Claude Code推送超过60 项可靠性修复,重点优化长运行会话、代理循环效率和多环境认证功能。此次更新旨在减少开发中断,提升复杂任务中的持续执行体验。
𝕏 Google 工程师将资深判断打包为 20 个 AI Agent Skills
Google工程师 Addy Osmani 将资深工程师的判断逻辑封装成20 个 AI Agent Skills,涵盖测试金字塔、Hyrum 法则等硬规则。这些技能已内嵌至工作流检查点,适配Claude Code、Cursor 等主流工具,项目 Star 数突破 3.2 万。
𝕏 Code Arena 新增 7 个前端模型榜单,基于 25 万条提示词拆分任务类型
Code Arena推出7 个前端输出榜单,基于**250,000+**提示词划分品牌营销、数据分析、游戏、仿真等类别。评测显示 Anthropic 模型在 7 类榜单中均进入前 4,为前端生成模型提供了更细分的比较维度。
𝕏 AWS 赋予 AI Agent 支付钱包,推动代理经济实体化
AWS宣布为AI Agents提供支付钱包功能,使其能在任务执行中自主支付 API、数据及 MCP Server 费用。这一更新标志着 AI 代理从工具向独立商业实体演进,是构建Agentic Economy的重要基础设施。
𝕏 Claude 正式集成至 Microsoft Office,支持跨应用上下文记忆
Claude已部署于Excel、Word和 PowerPoint,并在 Outlook 开启公测。其核心能力是跨应用保持上下文记忆,减少用户在不同办公软件之间重复解释需求的成本,进一步强化办公自动化流程。
𝕏 Claude Code 2.1.136 发布,包含 52 项 CLI 变更和 MCP OAuth 修复
Claude Code 2.1.136包含52 项 CLI 变更,新增自动模式硬拒绝规则,并修复MCP OAuth并发刷新导致重复认证的问题。该版本主要面向命令行开发体验、认证稳定性和代理执行边界进行改进。
𝕏 vLLM-Omni v0.20.0 发布,Qwen3-Omni 吞吐提升 72%
vLLM-Omni v0.20.0对齐 vLLM 0.20,针对Qwen3-Omni等多模态模型优化推理性能。在 H20 硬件测试中,相关吞吐提升达到72%,有助于降低多模态模型部署成本。
𝕏 百度 Ernie-5.1 登上 Search Arena 第四
百度 Ernie-5.1进入Search Arena第 4 名,使百度成为搜索性能排名前列的实验室之一。该结果显示百度新模型在搜索与答案生成评测中的竞争力进一步提升。
𝕏 DeepSeek-TUI 开源终端 Agent 已获 1.2 万星,围绕 V4 长上下文设计
DeepSeek-TUI用Rust实现终端 Coding Agent,支持文件、Shell、Git、Web、MCP、任务队列和回滚,并围绕DeepSeek V4 1M 上下文优化。项目已获得约 1.2 万星,面向偏好终端工作流的开发者。
𝕏 Gemma 4 26B 在 LLaMA.cpp 中推理提速约 40%
atomic.chat让Gemma 4 26B在LLaMA.cpp中生成速度提升约40%,测试环境包括 MacBook Pro M5 Max。该优化面向本地 LLM 用户,改善了消费级硬件上的推理体验。
𝕏 Google 一周发布多项 AI 更新,Gemma 4 工作流最高提速 3 倍
Google AI汇总本周更新:Gemma 4加入 MTP 草稿器,工作流最高提速3 倍;Gemini API 同时新增文件搜索、多模态能力和 Webhook,面向开发者扩展模型调用与应用集成场景。
𝕏 ZAYA1-74B-Preview 号称首个用 AMD 训练的大参数 LLM
ZAYA1-74B-Preview使用AMD 芯片训练,模型能力表现并不突出,但展示了非英伟达路线进行大参数模型训练的可行性。该案例对多元化 AI 算力生态具有参考价值。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。