天眼日报
🤖 AI 大模型
Claude Code 2.1.84 正式发布,新增 PowerShell 支持及系统提示优化
Anthropic 发布 Claude Code 2.1.84 版本,新增 PowerShell 工具支持 Windows 自动化、critical-files 输出仅列文件路径、闲置 75 分钟后提示 /clear 等功能。包含 8 个标志变更、40 个 CLI 变更、5 个系统提示更新。系统提示变更包括:移除“避免过度工程化”规则、GitHub 引用格式统一为 owner/repo#123、强调并行工具批处理、减少推测性搜索。
Anthropic 详解 Claude Code Auto Mode 设计及新增运行时安全过滤器
Anthropic 发布工程博客,介绍 Claude Code Auto Mode:使用 Sonnet 4.6 分类器替代人工审批,双层防御(输入探针+输出分类器),17% 漏报率、0.4% 误报率,支持 20+ 阻断规则。同时推出自动模式新增运行时安全过滤器,在工具调用前添加分类器,低风险动作自动执行,高风险如批量删除或数据泄露被阻挡,支持长任务无需频繁审批。
ARC-AGI-3 基准上线,前沿 LLM 得分均低于 1%,奖金 200 万美元
ARC Prize 发布 ARC-AGI-3 基准,包含 100+ 新型游戏环境近 1000 关卡,测试代理智能。人类得分 100%,前沿 AI 仅 ~0%:Opus 4.6%、GPT-5.4 0.3%、Gemini 3.1 0.2%、Grok 4.20 0 分。奖金 200 万美元,Kaggle 竞赛 2026 年举办。
Chandra OCR 2 模型 SOTA 85.9% 支持 90+ 语言
Chandra OCR 2 在 olmocr 测试集达 85.9% SOTA,4B 参数全开源,支持 90+ 语言、手写、公式、表格及图像生成。
Google Gemini API 开发者技能提升编码代理性能
Gemini API 开发者技能覆盖 SDK 特性、当前模型、代码示例及文档,117 提示评估中 gemini-3.1-pro-preview 多领域通过率提升。
PyTorch 加速 DeepSeek-V3 训练,吞吐提升 41%
PyTorch 与 Nebius 合作,使用 TorchTitan 在 256 张 NVIDIA B200 GPU 上训练 DeepSeek-V3(16B & 671B),MXFP8 结合 DeepEP 提升 41% 吞吐,收敛等效 BF16。
Cursor 云端 Agent 支持自有基础设施部署
Cursor 云端 Agent 现支持运行在用户私有基础设施上,提供与云端相同的 Agent 体验,同时保持代码和工具执行完全在私有网络内。访问 https://cursor.com 了解详情。
Google 发布 Lyria 3 Pro 和 Lyria 3 Clip 音乐生成模型
Google 推出 Lyria 3 Pro,支持完整歌曲生成(最长 3 分钟)高保真音乐,并支持前奏、主歌、副歌、桥段等结构控制;Lyria 3 Clip 生成 30 秒片段。通过 Gemini API 和 Google AI Studio 公测,支持图像转音乐、控制节奏和歌词对齐,SynthID 水印标识,已扩展至更多产品与开发入口。
AI2 开源视觉网页代理 MolmoWeb,8B 模型在 WebVoyager 达 78.2%
AI2 发布开源网页代理 MolmoWeb,仅依赖屏幕截图操作网页。8B 版本在 WebVoyager 得分 78.2%,并同步开放数据集与模型权重。
Google 发布 TurboQuant,将 LLM KV Cache 压缩至少 6 倍,H100 上提速 8 倍
Google 推出 TurboQuant,可将 KV Cache 压缩至少 6 倍,在 H100 上实现最高 8 倍注意力计算加速,且无需重新训练。Gemma 模型在 LongBench 等基准零精度损失,支持更大上下文窗口。
OpenAI 解析 Model Spec,强调模型行为边界与指令优先级框架
OpenAI 公开解读 Model Spec,说明模型如何处理冲突指令、行为边界及迭代机制,为更强自主能力下的模型治理提供公开框架。
百度 2025 年 AI 相关营收突破 400 亿元
百度 披露 2025 年 AI 驱动业务营收突破 400 亿元,主要来自文心大模型企业化与智能云,显示大模型业务已进入规模化变现阶段。
Claude 工作工具现支持移动端访问
Anthropic 宣布 Claude 移动版支持 Figma 设计、Canva 幻灯片和 Amplitude 仪表盘查看。
LlamaParse 优化 Word 文档解析,支持复杂表格结构
LlamaIndex 推出 LlamaParse 新功能,解析 .docx 文件 XML 结构,识别合并单元格、嵌套表格及页面位置,优于 PDF 解析。适用于表格密集文档,提升 73% 任务成功率。
xAI 加倍押注 AI 视频生成,新版 Grok Imagine 即将震撼发布
埃隆·马斯克 宣布 xAI 升级 Grok Imagine 视频生成工具,抓住 OpenAI 停用 Sora 的市场空白。3 月 26 日表示正加倍投入,计划发布更震撼版本,支持逼真图像和视频生成。
Meta 推出 Hyperagents,自改进智能体实现跨领域元认知优化
Meta 与合作者发布 Hyperagents 论文,DGM-Hyperagent 结合任务代理和元代理,支持自编辑改进。从 0.0 到 0.710 测试准确率,在机器人奖励设计从 0.060 到 0.372,转移到奥林匹克数学评级达 0.630。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。