天眼晚报
🤖 AI 大模型
𝕏 OpenAI 发布三款实时语音模型,GPT-Realtime-2 接入 GPT-5 级推理
OpenAI 在 API 中推出 GPT-Realtime-2、Realtime-Translate 和 Realtime-Whisper 三款实时语音模型。GPT-Realtime-2 将 GPT-5 级推理 引入实时语音 API,上下文从 32K 扩展至 128K,支持并行工具调用、5 档推理强度、中断协作与更复杂的语音助手工作流;Realtime-Translate 支持 70 多种输入语言实时翻译为 13 种输出语言。
Anthropic 开源 NLA,让 Claude 内部激活可翻译成人类语言
Anthropic 正式开源 NLA (Natural Language Autoencoders) 项目,训练 Claude 将模型内部的数字激活状态翻译为人类可读的自然语言,用于解释模型推理与“思考”过程。测试显示,该工具在安全审计中将识别隐藏动机的成功率从不足 3% 提升至 12%-15%,已用于 Claude Opus 4.6 和 Mythos Preview 的预部署审计。
Claude 深度集成 Microsoft 365,支持 Office 跨应用上下文共享
Anthropic 宣布 Claude 正式接入 Microsoft Excel、PowerPoint、Word 及 Outlook。用户可在 Office 应用中直接调用 Claude 处理文档、表格、演示和邮件,并利用跨应用记忆能力读取不同文件之间的关联数据,减少窗口切换,面向更复杂的办公自动化与企业知识工作场景。
𝕏 OpenAI 上线 Codex for Chrome,AI 可直接操作已登录网页环境
OpenAI 发布 Codex for Chrome 浏览器插件,支持 macOS 和 Windows,可让 AI 直接控制用户已登录的浏览器环境。该扩展能够跨标签页获取上下文,自动填写表单、读取后台数据、整理页面,并可调用 DevTools 进行网页测试与调试;在敏感操作前仍需用户确认,适合 CRM、内部系统等传统 API 难以覆盖的场景。
𝕏 Anthropic 完成 Agent-to-Agent 经济实验,Claude 代理员工买卖二手物品
Anthropic 进行内部实验,让 Claude 代理员工在一周内完成 186 笔二手交易,总额超过 4000 美元。结果显示,Opus 4.5 促成的交易条件明显优于 Haiku 4.5,但后者用户未明显察觉差异,说明 Agent 间经济交易具备可行性,同时模型质量会影响谈判结果与经济收益。
𝕏 Google 将 Gemini 3.1 Flash-Lite 转为正式版,主打低成本高吞吐
Google 将 Gemini 3.1 Flash-Lite 转为正式可用版本,面向低成本、高吞吐生产场景。该模型输入价格为 0.25 美元/百万 token,支持 100 万 token 上下文,并在 GPQA 上取得 86.9% 得分,适合大规模调用、长上下文处理和成本敏感型应用。
💹 商汤推出 SenseNova 6.7 Flash-Lite,复杂任务 Token 消耗下降 60%
商汤 发布新一代轻量化多模态智能体模型 SenseNova 6.7 Flash-Lite,采用原生多模态架构,取消视觉转文本中间层。在信息搜索等场景中,该模型相较纯文本智能体的 Token 消耗下降 60%,同时参数量更小、智能体能力更强,有助于提升长链路复杂任务成功率。
𝕏 OpenAI 推出 GPT-5.5-Cyber 限量预览,面向关键基础设施防御
OpenAI 发布 GPT-5.5-Cyber 限量预览,面向关键基础设施防御人员、安全研究团队和代码审计场景。该模型定位为高能力安全模型,支持 软件漏洞发现、漏洞分级、补丁验证、授权红队与渗透测试,重点服务防御者保护 关键基础设施。
DeepSeek V4 Pro 架构升级,阿里云率先支持 V4 系列模型
阿里云 率先支持 DeepSeek-V4 系列模型,包括 V4-Pro 和 V4-Flash。新架构引入流形约束残差连接 mHC 与 Muon 优化器,支持 1M token 上下文,推理 FLOPs 仅为上一代的 27%,并在 Agentic Coding 评测中达到开源模型最佳水平。
𝕏 Claude Code 2.1.133 移除高风险操作逐次确认规则
Claude Code 2.1.133 发布,包含 17 项 CLI 变更 和 3 项系统提示词变更。其中一个关键变化是移除高风险操作的逐次确认规则,可能改变自动化任务中的安全边界与用户授权流程,值得依赖 Claude Code 执行开发自动化的团队关注。
𝕏 微软内部邮件披露早期曾不看好 OpenAI,后因 AWS 风险转向投资
微软 2017 至 2018 年内部邮件显示,高管早期曾质疑 OpenAI 的研究价值和合作必要性。但随着 OpenAI 可能转向 AWS 的风险上升,微软最终在约 18 个月后决定投资 10 亿美元,为后续双方深度绑定奠定基础。
𝕏 上海交大开源 F5-TTS 语音生成模型,支持商用与零样本克隆
上海交通大学 开源 F5-TTS 语音生成模型,基于 10 万小时 数据训练,支持中文和英文语音合成、Zero-shot 声音克隆及商用使用。该项目为语音合成、个性化音色生成和多语言语音应用提供了新的开源基础模型选择。
𝕏 Grok 4.3 上线 xAI API,支持百万 token 上下文和应用连接器
Grok 4.3 已上线 xAI API,新增 Gmail、GitHub、Notion 等应用连接器,并支持 100 万 token 上下文。该更新增强了 Grok 在长文档处理、跨应用信息读取和 Agent 工作流中的可用性。
𝕏 Prime Intellect Lab 结束 Beta,开放自训练模型平台
Prime Intellect Lab 结束 Beta 阶段,向用户开放自训练模型能力,主打能够从经验中学习的自改进 Agent。该平台面向希望训练、迭代并部署自主智能体的开发者和研究者,强调模型在持续交互中的学习与改进。
𝕏 Gemini 交互 API 转向多步骤智能体工作流
Gemini 交互 API 将每个 思考与工具调用 表示为独立步骤,使开发者能够更清晰地追踪模型推理、工具调用和多阶段执行过程。这一设计更贴近 多步骤智能体 工作流,有助于调试复杂 Agent 行为与构建可观察的自动化系统。
𝕏 GPT-Realtime-Translate 实测接近同声传译,但仍有语音与上下文限制
tuwa 完成 gpt-realtime-translate 端到端测试,确认其延迟极低,体验接近同声传译。测试同时指出,该功能目前仍存在不能自定义语音、非 VAD 分段 时偶发上下文翻译错误等限制,说明实时翻译能力虽强,但在稳定性和可控性上仍需改进。
𝕏 Claude Code 向付费用户翻倍 5 小时速率额度
Anthropic 将 Claude Code 的 5 小时速率限制 对 Pro、Max 和 Team 计划用户翻倍。该调整提升了付费用户在集中编码、长时间调试和高频 Agent 开发任务中的可用额度。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。