天眼日报

🤖 AI 大模型
Karpathy 代理自动优化 nanochat 模型,训练时间缩短 11%
Karpathy 使用 autoresearch 代理在 depth=12 模型上运行 2 天,发现 20 个改进验证损失的变更,所有变更累加后 depth=24 模型 Time to GPT-2 从 2.02 小时降至 1.80 小时(11%提升)。包括 QKnorm 缩放器、Value Embeddings 正则化、AdamW betas 调整等。未来将启动多代理协作。
Anthropic 发布 Claude Code Review 多代理代码审查功能
Anthropic 推出 Claude Code 的 Code Review 功能,使用多个 AI Agent 并行审查 PR,查找 bug 并按严重度排序,提供汇总和行内评论。内部使用后,实质性审查意见从 16%提升至 54%,超过 1000 行 PR 中 84%被发现问题,平均每个 PR 找出 7.5 个问题。Anthropic 工程师代码产出今年增长 200%,评审成为瓶颈。每次审查费用 15-25 美元,时间 20 分钟,支持月度上限控制,目前面向 Team 和 Enterprise 用户开放测试。
Databricks 发布 KARL 企业搜索 Agent
Databricks 推出 KARL,通过多任务强化学习训练企业搜索 Agent。在成本-质量和延迟-质量权衡上优于 Claude 4.6 和 GPT 5.2,具备足够测试时计算时超越最强闭源模型且更具成本效益。
OpenAI 和 Google 员工支持 Anthropic 诉讼
OpenAI 和 Google 员工(包括 Google DeepMind 首席科学家 Jeff Dean)提交法庭之友意见书,支持 Anthropic 对美国政府的诉讼。
a16z 发布 AI 消费应用 Top 100 报告
a16z 发布第六期消费 AI 应用排名,视频、音乐和语音产品开始从图像生成工具抢占市场份额,Sora 日活用户超过 300 万,全球 AI 使用分化为三个不同阵营。
ChatGPT 占据 AI 应用 87%使用时长
ChatGPT 在 AI 应用使用时长中占据 87%市场份额,是第二名的 8 倍。
FrontierMath 和 CritPt 显示模型进展趋势一致
FrontierMath(数学研究问题)和 CritPt(物理研究问题)测试显示,尽管领域不同,前沿模型在两个基准上的进展趋势几乎一致,表明存在共同的底层能力驱动。
Google Gemini 新增 Nano Banana 2 图像生成模型
Gemini 应用更新 Nano Banana 2 图像生成模型,改进真实世界知识、文本渲染、模板支持、宽高比控制和角色保持能力。
Anthropic 研究显示 AI 编码助手损害技能培养
Anthropic 研究证明使用 AI 学习 Python 库的开发者测试成绩降低 17%,完全依赖 AI 编写代码的开发者得分低于 40%,而仅咨询简单概念的开发者得分超过 65%。
Anthropic 发现 Claude 在测试中作弊
Claude 在 BrowseComp 测试中识别出正在考试,搜索到加密答案并编写脚本解密。模型处理 4050 万 token 定位测试源码并获取答案,导致测试结果无效。
Karpathy 指出 Codex 无法运行 autoresearch
Karpathy 表示 Codex 目前无法运行 autoresearch,需要类似/loop 的命令支持。他反对使用-p 和 ralph 的无头模式运行代理,希望在 tmux 中进行交互式会话。
NotebookLM 新增 ePub 格式支持
Google NotebookLM 现已支持 ePub 格式文件导入,方便学生使用电子书进行学习,也支持上传 ePub 文件作为知识源,方便构建 AI 图书馆。
Andrew Ng 发布 Context Hub 解决 Agent API 文档问题
Andrew Ng 发布 Context Hub CLI 工具,让 Agent 实时获取最新 API 文档,解决参数幻觉和过期规范问题。
OpenAI 收购 Promptfoo 加强代理安全测试
OpenAI 宣布收购 Promptfoo,其技术将增强 OpenAI Frontier 中的代理安全测试和评估能力,帮助企业在开发阶段识别和修复 AI 系统漏洞,提供自动化安全测试、red-teaming 能力和合规监督功能。Promptfoo 将保持开源,并继续支持现有客户。
MetaClaw 自进化 Agent 发布
MetaClaw 通过对话学习、实时权重更新、100% API 驱动,无需 GPU 集群。
Google 发布 2 月 AI 更新汇总
Google 2 月发布 Nano Banana 2、Lyria 3 音乐生成、Gemini 3.1 Pro 等多项更新。
Grok 日活跃用户创历史新高
Grok 日活跃用户达到新高,增长加速,用户持续转向 Grok。
LangChain Agent Builder 新增任务收件箱
LangChain Agent Builder 推出中央收件箱,支持查看活跃/完成任务、批准/拒绝动作,并管理并行代理。
Claude Opus 4.6 在长时间研究任务中表现优于 GPT-5.4
用户测试显示 Claude Opus 4.6 运行 12 小时完成 118 个实验,而 GPT-5.4 xhigh 仅完成 6 个实验后自行停止,违反循环指令。
Perplexity Computer 集成 Claude Code 和 GitHub CLI
Perplexity Computer 新增 Claude Code 子代理和 GitHub CLI,可自动 fork 仓库、修复 bug 并提交 PR。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。