天眼早报
🤖 AI 大模型
𝕏 OpenAI 发布 GPT-Realtime-2,推出新一代实时语音模型套件
OpenAI在 Realtime API 正式推出GPT-Realtime-2,并同步发布GPT-Realtime-Translate和 GPT-Realtime-Whisper。新模型具备 GPT-5 级语音推理能力,Big Bench Audio 准确率从 81.4%提升至96.6%,上下文窗口扩展至128K,支持可调推理强度、透明化工具调用和多工具并行。Translate 支持 70 多种输入语言翻译到 13 种输出语言,定价为音频输入每百万 token 32 美元、输出 64 美元。
𝕏 Claude 正式集成 Microsoft 365,支持跨应用上下文流转
Anthropic宣布将Claude全面集成至Microsoft 365套件,Excel、PowerPoint 和 Word 插件从 Beta 转为正式版,Outlook 插件同步公测。用户可在文档内调用 AI 处理数据、生成图表和起草邮件,且 Claude 能携带前一步骤上下文跨应用流转,减少重复输入。所有付费套餐用户可免费使用。
𝕏 Anthropic 发布 Natural Language Autoencoders,将 Claude 激活值翻译成自然语言
Anthropic发布Natural Language Autoencoders技术,让 Claude 把隐藏激活状态转化为人类可读的自然语言解释。该方法也被称为 Claude Mythos 相关能力,已用于安全测试,可帮助识别模型潜在作弊意图,是 AI 可解释性研究从抽象分析走向可读解释的重要进展。
𝕏 Google DeepMind 推出 AlphaEvolve,加速量子与生物技术等研发
Google DeepMind宣布其由Gemini驱动的编码代理AlphaEvolve在过去一年中加速了量子计算、生物技术、物流以及 Google AI 基础设施的算法优化。该案例展示了 AI 代理从代码生成扩展到科研与工程优化问题的应用潜力。
𝕏 Claude 包揽 Code Arena 视觉前端编码榜前五
Code Arena前端视觉编码榜更新,Claude模型包揽前五名,其中Opus 4.7 Thinking排名第一,领先 Sonnet 4.6 约 30 分。该结果显示 Claude 系列在视觉驱动的前端实现、界面还原和交互代码生成方面保持强势。
𝕏 OpenAI Codex 推出 Chrome 扩展,支持跨标签页并行工作
OpenAI发布Codex Chrome 扩展,现可直接在macOS和 Windows 浏览器中运行。新功能支持后台跨标签页并行操作,无需接管浏览器界面即可与网页应用交互,有助于开发者在真实浏览环境中完成调试、代码修改和应用操作。
𝕏 Vibe Code Bench 论文被 CAIS 接收,评估端到端应用构建能力
ValsAI团队宣布Vibe Code Bench被CAIS会议接收。该基准用于测试模型能否根据纯英文产品规格从零构建完整 Web 应用,目标是评估大模型在真实开发场景中的代码生成、前后端协作和工程落地能力。
𝕏 Anthropic 公布研究议程,聚焦 AI 经济扩散与野外系统
Anthropic公布The Anthropic Institute研究议程,重点覆盖四个方向:AI 在经济中的扩散与影响、威胁与社会韧性、野外 AI 系统的实际行为,以及 AI 驱动研发。该议程显示其将从模型能力本身延伸到社会部署、风险治理和科研生产力等更宏观问题。
𝕏 BACH 1.0 解决 AI 视频多镜头角色面部一致性问题
Video Rebirth推出BACH 1.0模型,主攻 AI 视频生成中的跨镜头角色面部一致性难题。该模型可在不同角度和剪辑中保持同一角色的骨骼结构、肤色和眼睛特征稳定,减少变形与漂移,并支持电影级情感表达,目前在 Artificial Analysis 排名第六。
𝕏 Google 推出 Gemini 3.1 Flash-Lite,主打高吞吐低成本任务
Google在 AI Studio 更新Gemini 3.1 Flash-Lite,定位为高性价比轻量模型,面向高并发 Agent 任务、翻译和简单数据处理等高频工作流。该模型强调低价格与高速度,适合需要大量调用但任务复杂度相对有限的企业和开发者场景。
𝕏 DeepSeek V4 用自研内核实现端到端确定性计算
DeepSeek在 V4 版本中用自研DeepGEMM和TileLang替换 cuBLAS,实现位级确定性和批次不变性。通过自定义内核优化,模型在保持确定性的同时未牺牲性能,并解决了浮点运算非结合性带来的可复现问题。
𝕏 Microsoft 将 GPT 5.5 Instant 集成至 M365 Copilot 等企业产品
Microsoft CEO Satya Nadella 宣布GPT 5.5 Instant已上线M365 Copilot,用于提供更快速、清晰的回答并减少交互轮次。该模型同时部署至 Copilot Studio 和 Foundry,进一步扩展企业级 AI 应用中的模型选择。
𝕏 Cursor 3.0 上线全新 PR 审查体验与 Pin Skills 功能
Cursor更新Cursor 3.0版本,引入全新的PR 审查体验。开发者可在单一界面查看评论、差异、提交记录和审查状态,并借助文件树导航大型 PR。新增 Pin Skills 功能可将常用技能固定为快捷操作按钮,提升代码审查和修复效率。
𝕏 智谱发布 GLM-5V-Turbo 技术报告,面向多模态 Agent 基础模型
智谱 Z.ai发布GLM-5V-Turbo技术报告,介绍其面向多模态 Agent 的模型设计、训练流程和工具链扩展。报告覆盖 CogViT、MMTP、30+任务类别联合强化学习,以及多模态工具使用能力,显示模型重点不只是视觉理解,而是面向可执行任务的智能体能力。
𝕏 Firefox 团队称借助 Claude Mythos Preview 单月修复漏洞超去年总和
Firefox团队借助Claude Mythos Preview在4 月修复的安全漏洞数量超过过去 15 个月总和。该案例显示,大语言模型在复杂代码审计、安全漏洞定位和应急响应中可能带来显著效率提升,也为 AI 辅助安全工程提供了具体样本。
𝕏 Gemma-4 进入 Vision Arena 开放模型第 2 和第 4
Gemma-4-31b在 Vision Arena 开放模型榜单中位列第2,Gemma-4-26b-a4b位列第 4。该排名显示 Gemma-4 系列在开放视觉模型竞争中表现靠前,尤其是 31B 版本具备较强的视觉理解与多模态对比优势。
𝕏 Google 多令牌预测让 Gemma 4 本地推理最高提速 3 倍
Google推出多令牌预测起草器,使Gemma 4在本地硬件上的运行速度最高提升3 倍,且无需新增硬件。该技术通过一次预测多个后续 token 来减少解码开销,对本地部署和低延迟推理有直接价值。
𝕏 Qwopus3.6-35B-A3B-v1 称可在单张 RTX 5090 达到 162tps
Qwopus3.6-35B-A3B-v1上线,作者称其在单张RTX 5090上可达到162tps,适合本地前端生成与推理场景。该信息主要体现开源或本地模型在消费级高端显卡上的吞吐表现。
𝕏 SWE-bench Verified 榜单纳入近 50 个模型,DeepSeek 居首
Hugging Face的SWE-bench Verified榜单已比较近50 个模型,前五包含 DeepSeek、Kimi、小米 MiMo 与 Z.ai 等模型。该榜单聚焦真实软件工程问题修复能力,是观察代码模型工程落地表现的重要参考。
𝕏 Anthropic 披露 Claude 需求增速远超算力规划
Anthropic披露,其原本按10 倍增长规划资源,但实际遭遇约80 倍需求冲击,算力规划偏差超过 8 倍。这反映出头部 AI 服务在用户增长、企业采用和基础设施供给之间仍存在明显错配。
𝕏 GigaAI 称实时幻觉纠正系统可将幻觉率降至约 1%
GigaAI称其流式检测系统能够在生成过程中实时发现并修正 AI 编造内容,将幻觉率降低70%,最终降至约1%。如果该效果能在开放场景中稳定复现,将对客服、搜索问答和企业知识库等高可靠性应用有较大价值。
𝕏 Opus 4.6 在 llmsnare 与 Base44 评测中表现优于 Opus 4.7
llmsnare评测显示,Opus 4.6的挫败指数为1.3,低于 Opus 4.7 与 GPT 5.5 的 1.5,意味着在该测试中更不容易被诱导失败。该结果提示新版本模型并不总是在所有鲁棒性或对抗测试上全面领先。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。