天眼日报

科技|2026年02月11日|约 59 分钟阅读

来源：2125 条推文 + 347 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-10 — 2026-02-11

AI 速读20 条精选

🤖 AI 大模型

Claude Code 2.1.39 更新：Bash 工具移除内部编辑字段

Claude Code 2.1.39 发布，Bash schema 移除 _simulatedSedEdit 字段，推动编辑向正常流程；包含 5 个 CLI 和 1 个提示变更。

LLaDA 2.1 100B 扩散 LLM 发布，编码速度达 892 tokens/s

ant_oss 发布 LLaDA 2.1，100B 参数离散扩散 LLM，采用 draft-then-edit 方式，峰值速度 892 tokens/s 处理复杂编码任务，支持中途修正错误、统一解码、用户控制模式、Mask-to-Token 编辑和 Token-to-Token 编辑。SGLang 提供 Day-0 支持，大规模块级 RL 训练实现 SOTA 效率，打破速度-质量权衡。

Claude Cowork Windows 版正式发布

Anthropic 的 Claude Cowork 现支持 Windows，实现与 MacOS 全功能一致，包括文件访问、多步任务执行、插件和 MCP 连接器。付费用户可立即使用研究预览版。

Cursor 团队开启 AMA，解答模型、长代理和 AI 编码问题

Cursor 团队 mntruell 等开启 AMA，持续 30 分钟，欢迎提问 Cursor、模型、长运行代理和 AI 编码等话题，Sualeh 和 Aman 可能加入。

Arena 推出 PDF 上传功能，支持文档推理评估

Arena 新增 PDF 上传，支持 Battle 和 Side by Side 模式，用户可上传文档测试 10 个模型的文档推理、总结提取，排行榜即将上线。

OpenAI ChatGPT 深度研究现由 GPT-5.2 驱动

OpenAI 宣布 ChatGPT 深度研究功能升级为 GPT-5.2 驱动，从今日开始逐步推出更多改进，支持连接应用、实时跟踪进度和全屏报告查看。

OpenAI Responses API 新增代理长时任务原语

OpenAI 在 Responses API 中引入服务器端压缩、带网络的容器和技能支持，支持多小时代理运行、互联网访问安装库及 Agent Skills 标准，首推电子表格技能。

Google Gemini 3 Flash 支持代理式“思考-行动-观察”循环

Gemini 3 Flash 新增代理循环，自动运行 Python 代码处理复杂视觉任务，如缩放检查物品、图像标注和数据图表重可视化。

Google Research 发布 DialogLab 开源对话原型框架

DialogLab 使用人机循环控制实现真实人类-AI 群组模拟，支持编辑、接受或拒绝实时 AI 建议，在真实性、有效性和参与度上优于全自主代理。

Claude Code 推出贡献度指标跟踪功能

Anthropic 为 Claude Code 推出贡献度指标，支持跟踪 PR 数量和代码行数。Team/Enterprise 用户安装 GitHub App 后启用，数据显示开发者日均 PR 增加 67%，70-90% 代码由 Claude 生成。

Qwen-Image-2.0 图像生成模型发布，支持专业排版和 2K 分辨率

阿里通义实验室/阿里云发布 Qwen-Image-2.0，支持 1K token 长提示、2K 原生分辨率、专业排版、文本渲染、专业信息图生成（如 PPT、海报）和逼真照片输出（人物、自然、建筑）。架构更轻，推理更快，基准测试 HPS v2.1 得分 92.1，GenEval 得分 86.4，超越 GPT-4o 和 Gemini 2.0，已开放试用。

Baseten 推出 Kimi K2.5，TTFT 0.26 秒 TPS 340

Baseten Model APIs 上线 Kimi K2.5，Artificial Analysis 测试 TTFT 0.26 秒、TPS 340，多模态能力强，支持大量工具调用，超越多数开源模型。

GPT-5.3 Codex 在 Next.js 评测中达 90% 完成率，领先 Claude Opus 4.6

OpenAI 的 GPT-5.3 Codex (xhigh) 在 Next.js 的 20 个 AI Agent 任务评测中完成率 90%，大幅领先 Claude Opus 4.6 的 80%、Gemini 3.0 Pro 第三。评测覆盖代码生成和迁移，零调优达高性能。

Firecrawl 插件接入 Anthropic 市场

Firecrawl 插件现通过 Anthropic 官方市场安装，支持 Claude Code 内抓取/提取网站数据。

ElevenLabs 推出 Expressive Mode，支持 70+ 语言情感对话代理

ElevenLabs 发布 Expressive Mode，为 ElevenAgents 添加情感表达，支持 70+ 语言如印地语，适应客户情绪，实现品牌化对话代理。

Runway AI 视频融资 3.15 亿美元，估值达 53 亿美元

Runway 完成 3.15 亿美元 E 轮融资，估值 53 亿美元，聚焦世界模型开发，支持 2K 分辨率视频生成和更强编辑能力。

Claude 代码技能结合 Remotion 制作动态视频工作流

Claude Code 结合 Remotion 和浏览器自动化，实现实时视频迭代：描述需求→生成组件→预览调整→最终渲染，无需手动编码。

Ramp 后台 AI 代理贡献 57% 合并 PR，环境一致性关键

Ramp 后台代理 Inspect 在 Modal 沙箱 VM 运行，访问 Sentry/Datadog/GitHub 等工具，自测自审 PR 通过人类标准，加速产品迭代。

OpenClaw MemOS 插件降低 Token 消耗 72%

MemOS 插件为 OpenClaw 优化内存：精准 Recall+激活记忆，仅加载必要状态，支持多 Agent 共享，实测 Token 降 72%、调用减 60%。

GLM-4.7-Flash-GGUF 成为 UnslothAI 最下载模型

Zai_org 宣布 GLM-4.7-Flash-GGUF 在 UnslothAI 平台下载量第一，支持高效推理。

Artificial Analysis 推出个性化模型推荐工具

Artificial Analysis 发布 Model Recommender，基于智能、成本、速度和模态支持推荐模型，支持编码和代理能力权重调整。

Claude 代码技能支持 Home Assistant 配置和仪表板管理

Anthropic 的 Claude 新增代码技能，用于 Home Assistant 配置和仪表板管理，提供 Python 运行和可视化输出。

Claude Opus 4.6 系统卡第 2 部分：前沿对齐评估

Anthropic 发布 Claude Opus 4.6 系统卡第 2 部分，涵盖破坏、欺骗、情境意识、外部红队测试及灾难风险评估。ASL-3 级别模型，CBRN 评估显示 2 倍性能提升但未达 ASL-4 阈值，自治基准接近 R&D-4 阈值。Apollo Research 测试显示模型能区分评估与部署场景。

LLM 对哲学观点的 2026 年看法

Jonathan Erhardt 让 Claude Opus 4.6、ChatGPT 5.2 等模型完成 PhilPapers 2020 调查，创建仪表板对比哲学家观点。LLM 更倾向一箱决策（100% 一箱）、先验知识（100% 接受）、贬值实在论（83%），但对道德一般主义较少（少于哲学家）。

Hugging Face Transformers + MongoDB Atlas 构建语义搜索引擎

Arek Borucki 使用 sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 模型和 MongoDB Atlas Vector Search 构建多语言语义搜索引擎。支持法语/波兰语查询英文时尚产品数据集，实现跨语言相似性搜索。384 维向量索引，FastAPI API 端点。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情