03月26日 · 科技日报

天眼日报

科技|2026年03月26日|50 分钟阅读
来源:2160 条推文 + 500 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-03-25 — 2026-03-26
分享
科技 日报封面
AI 速读19 条精选

🤖 AI 大模型

Anthropic 发布 Claude Code 2.1.84,支持 PowerShell 工具和 Auto 模式

Anthropic 发布 Claude Code 2.1.84 版本,新增 PowerShell 工具支持 Windows 自动化、关键文件输出仅列路径、闲置 75 分钟后自动/clear。包含 8 个标志变更、40 个 CLI 变更、5 个系统提示更新,如移除'避免过度工程化'规则、标准化 GitHub 引用格式为 owner/repo#123、强调并行工具批处理。Auto 模式使用 Sonnet 4.6 双阶段分类器替代人工审批,误报率 0.4%、漏报率 17%,覆盖输入/输出防御、三层权限决策,针对过度行为、提示注入等威胁。支持低风险操作如文件写入和 shell 命令自动执行,提升长任务自主编码效率。

维基百科禁止 AI 生成文章文本,仅允许两种例外

维基百科新规禁止编辑使用 LLM 生成新文章或改写现有内容,仅例外为人类编辑的风格语法帮助(需验证含义不变)和翻译初稿(需双语验证)。旨在确保每句与真实来源绑定。

Google 发布 Lyria 3 Pro 音乐生成模型

Google DeepMind 推出 Lyria 3 Pro,支持生成长达 3 分钟完整歌曲、复杂风格过渡和音乐结构(如 intro、verse、chorus、bridge),支持文本/图像/视频提示、精确控制节奏和歌词、SynthID 水印。另有 Lyria 3 Clip 生成 30 秒片段。今天向 Google AI Plus/Pro/Ultra 用户、Gemini App、Google AI Studio API、Google Vids、Vertex AI 开放,开发者可构建应用。训练数据来自授权内容。

ARC-AGI-3 基准发布,前沿模型得分不足 1%

ARC-AGI-3 代理智能基准发布,Claude Opus 4.6 得分 0.2%-0.25%、GPT-5.4 0.3%-0.26%、Gemini 3.1 0.2%-0.37%、Grok 4.2/4.20 0 分。人类得分远超,设计检测持续学习突破,无 harness 测试。

美团发布 LongCat-Next 多模态模型

美团推出 LongCat-Next,68.5B 参数(3B 活跃),统一处理文本/视觉/音频,支持 OCR、图表、GUI、文档分析、任意分辨率生成、语音合成。开源 HuggingFace 和 GitHub。

Google 发布 TurboQuant 算法,实现 LLM KV 缓存 6 倍内存压缩

Google 推出 TurboQuant 算法,使用随机正交旋转+极坐标量化,将 LLM 键值缓存压缩至 3 位精度,无需重训,内存减少至少 6 倍,H100 GPU 上 4-bit 注意计算加速 8 倍,Gemma 模型在 LongBench 等基准零退化。影响 AI 硬件需求,Micron 等内存股下跌 4-6.5%。适用于本地 AI 推理,支持更大上下文窗口。

哈佛教授两周训练 Claude 达物理研二水平

哈佛教授 Schwartz 用两周导师制训练 Claude,拆解 102 任务、270 对话、3600 万 token,迭代 110 稿完成专业论文。人类仅指路纠偏。

OpenAI 确认保留 Codex App 并加大资源投入

OpenAI 工程负责人确认 Codex App 保留,投入更多资源迭代,性能将大幅提升。驱动 GitHub Copilot 等工具,商业模式稳健。

Zed 发布 Zeta2 代码补全模型

Zed 推出 Zeta2,接受率提升 30%,训练数据 200 倍增长,支持 LSP 上下文,更快预测,开源权重。重建数据管道,现已在 Zed 中可用。

Inworld TTS 1.5 Max 领跑 TTS 排行榜,Elo 达 1238

Artificial Analysis 发布 TTS 排行,Inworld TTS 1.5 Max Elo 1238 位居首位,其次 ElevenLabs Eleven v3(1197)、Inworld TTS 1 Max(1183)。WaveNet 批量生成速度 419 字符/秒最快,Kokoro 82M 性价比最高 0.65 美元/百万字符。

Meta 提出 Hyperagents 自参照代理,支持元认知自修改

Meta 等发布 Hyperagents 论文,DGM-Hyperagent 结合任务代理和元代理,实现可编辑自改进。在论文审阅任务准确率从 0.0 升至 0.710,机器人奖励设计从 0.060 至 0.372,跨域转移达 0.630。

Claude Opus 4.6 出现故障,高故障率

Anthropic 的 Claude Opus 4.6 在 Claude AI 和 Claude Code 中故障率升高,Anthropic 正在调查原因。

Anthropic 推出 Harness 多代理架构,支持 Claude 长时软件工程

Anthropic 发布 Harness 设计,受 GAN 启发,使用生成器-评估器分离架构,支持 Claude Opus 4.6 前端设计和全栈开发。实验显示完整架构下复古游戏制作器功能完整,成本$200,优于单代理$9 失败案例。

Cursor 团队分享 AI Agent 友好 CLI 设计 10 原则

Cursor 团队总结 AI Agent CLI 设计原则:非交互优先、延迟加载文档、示例驱动、管道友好等。强调从人类优先转向 Agent 优先,支持--dry-run 和结构化输出。

Claude 新增 38+连接器、Agent 团队、100 万上下文等多项功能

Anthropic 的 Claude 升级包括语音模式、Agent 团队、38+连接器、Cowork 项目、定时任务、插件市场、持久记忆和 100 万上下文窗口,支持电脑运行应用。

AMP 针对不同任务优化模型组合:Claude Opus 4.6 主 Agent 等

AMP 使用 Claude Opus 4.6(Smart Mode)、Claude Haiku 4.5(Rush Mode)、GPT-5.3 Codex(Deep Mode)、Gemini 3.1 Pro 代码审查等多模型组合,兼顾性能、速度和成本。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。