天眼日报

科技|2026年02月21日|约 48 分钟阅读

来源：2168 条推文 + 274 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-20 — 2026-02-21

AI 速读23 条精选

🤖 AI 大模型

Claude Opus 4.6 在 METR 软件任务测试中 50%成功率时间视界达 14.5 小时

METR 评估显示，Claude Opus 4.6 在软件任务测试中，50%成功率时间视界达 14.5 小时（95% CI 6-98 小时），较 GPT-5.2 的 6.5 小时提升 2.2 倍，为最高点估计，但测量噪声较大因任务饱和。这标志着代理能力显著进步。

Claude Opus 4.6 在 Fiction.LiveBench 长上下文召回率达 93.8%

Claude Opus 4.6 在 Fiction.LiveBench 120K 测试中召回率 93.8%，领先 GLM-5 的 85.7%、Kimi-K2.5 的 78.1%，MiniMax-M2.5 仅 40.6%。

Claude Code 负责人称现 100%代码由 Claude 生成

Claude Code 负责人 bcherny 表示，自 11 月起 Claude 编写其 100%代码，无手动编辑；此前 2 月为 20%，5 月为 30%。

Box CEO Levie：AI 模型长任务处理能力过去一年增长 15 倍

Box CEO Levie 称，最新 AI 模型处理长任务能力过去一年提升 15 倍，首先在编码领域，后扩展知识工作。

Claude Code 桌面版新增应用预览、PR 监控与会话迁移功能

Anthropic 更新 Claude Code 桌面版，支持预览运行应用、本地代码审查、PR 监控自动修复 CI 失败并合并、会话跨设备迁移（从 CLI 到桌面或云端）、后台处理 CI 失败。

Anthropic 推出 Claude Code Security 研究预览版，Claude Opus 4.6 发现开源代码 500+漏洞

Anthropic 发布 Claude Code Security 研究预览版，内置网页版 Claude Code，扫描代码库漏洞并建议针对性补丁供人工审核，针对传统工具遗漏问题。Claude Opus 4.6 在开源代码中发现 500+隐藏多年漏洞，已开始报告并贡献补丁。现有限研究预览开放等待列表，同时引入 safeguard probes 检测网络滥用。

Google 发布 Gemini 3.1 Pro 等多项 AI 更新

Google AI 推出 Gemini 3.1 Pro 提升核心智能处理复杂工作流，在 SimpleBench 基准测试中位列第一（166.6 分），超越 GPT-5.2（165.9 分），支持更强推理能力；Photoshoot 将单张产品图转为工作室级视觉；Lyria 3 从照片和文本生成带人声歌词的动态音乐；NotebookLM 新增 Zillow 合作购房笔记本和幻灯片更新。

Qwen3.5-397B-A17B 视觉竞技场排名开源前 2

Arena 公布 Qwen3.5-397B-A17B 视觉结果，与 Kimi-K2.5-Instant 并列开源前 2，整体第 13 位媲美 GPT-4o。

Claude Sonnet 4.6 在 LMSYS/Arena 排行榜表现显著提升

Anthropic 的 Claude Sonnet 4.6 在 Arena 排行榜升至#13（较 Sonnet 4.5 的#16 提升），Code Arena 跃升至#3（提升 130 分），WebDev 从 22 位升至 3 位，指令跟随#5，软件/IT 服务#8，文本领域数学#4。多轮对话仍落后 4.5 3 位。

LlamaIndex 发布 Gemini 3.1 Pro 收据分析 Demo

LlamaIndex 构建 Gemini 3.1 Pro Demo，使用 LlamaParse 解析收据图像、SQLite 存储、月度支出聚合，提供财务趋势分析和优化建议。GitHub 仓库：https://t.co/Ny22F4I3n1。

llama.cpp 团队正式加入 Hugging Face，共同开发 ggml

ggerganov 宣布 llama.cpp（原 ggml 项目）加入 Hugging Face，双方将共同开发 ggml，提升本地 AI 在个人硬件上的易用性和效率，继续推进 llama.cpp 开发，使本地 AI 更高效。

Gemini 3.1 Pro 图像转代码能力全球最佳

Google 的 Gemini 3.1 Pro 在图像到代码任务中领先，已集成至 MagicPathAI 平台。

Qwen3-Coder-Next API 正式上线阿里云

Alibaba 发布 Qwen3-Coder-Next API，支持 Coding Plan 集成，提供可扩展编程端点。

Llama3.1 405B 在 8GB VRAM 上高效运行

新工具支持 Llama3.1 405B 模型在 8GB VRAM 硬件上高效运行。

Gemini 3.1 Pro 3D 交互可视化 10 大案例

Gemini 3.1 Pro 上线后，精选 10+硬核 3D 建模+交互案例，如实时 ISS 航天仪表盘、广州塔微缩城市模型。每例附完整 Prompt+体验链接，直接复制至 Gemini App 或 AI Studio 运行。

Claude Code 上下文窗口优化技巧分享

omarsar0 分享构建 Claude Code 和 Codex 代理时处理上下文窗口限制的提示缓存技巧，适用于长运行代理。

Anthropic 发布 AI 代理自治度评估框架

Anthropic 推出框架评估 AI 代理自治能力，包括规划、工具使用、错误恢复和端到端任务完成，将影响代理竞争格局。

Qwen3.5-Plus VLM 体验优于豆包

Qwen3.5-Plus 支持 1M 上下文，图片视频输入限制少于豆包，价格相当，实测全能表现突出。

Cohere 发布 Tiny Aya：支持 70 种语言的 3.35B 参数小型语言模型

Cohere 推出 Tiny Aya 系列模型，3.35B 参数，支持 70 种语言翻译和生成。Global 版在 WMT24++基准上 46/61 语言优于 Gemma3-4B，4 位量化后仅 2.14GB，iPhone 17 Pro 上 32 tokens/s，可在手机本地运行。

Google 推出 Jetpack Compose Glimmer：专为下一代 AI 眼镜设计的空间 UI 框架

Google 发布 Jetpack Compose Glimmer，针对 AI 眼镜的加法显示优化。使用视觉角度（最小 0.6 度文本），加法对比公式计算可见性，支持 48kHz 音频和 2 秒通知动画。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情