天眼日报

科技|2026年02月06日|约 57 分钟阅读

来源：2801 条推文 + 438 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-05 — 2026-02-06

AI 速读24 条精选

🤖 AI 大模型

Anthropic 发布 Claude Opus 4.6，支持 1M token 上下文、Agent Teams 和多项基准 SOTA

Anthropic 推出 Claude Opus 4.6，核心升级包括 1M token 上下文（Beta）、128k 输出、更严谨逻辑规划、代码自我纠错、长时 agent 任务支持和大代码库操作。新增 Agent Teams 功能，支持多个代理实例并行协作、互发消息，适用于 PR 审查、bug 排查和大型代码库任务（如 Claude Code 中通过 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 启用）。在 Terminal-Bench 2.0 得分 65.4%、GDPval-AA 达 1606 Elo（领先 GPT-5.2 144 Elo）、BrowseComp 84.0%、ARC AGI 2 68.8%、SWE-Bench Pro 等基准领先。工程博客详述使用代理团队自主构建 C 编译器，两周后成功编译 Linux 内核，展示自主软件开发潜力。Cursor 集成优化长任务代码审查，峰值 1000+ commits/小时；OpenRouter 上线提供高可靠性；集成 GitHub Copilot、Figma、Notion、Excel/PowerPoint；Claude Code 新增/insights 命令生成使用报告。SemiAnalysis 称其为拐点，改变开发格局。定价$5/$25 每百万 Token，现已在 Claude.ai、开发者平台和云平台开放。

OpenAI 发布 GPT-5.3-Codex，Terminal-Bench 2.0 达 77.3%、SWE-Bench Pro 57%

OpenAI 推出 GPT-5.3-Codex 编码模型，Terminal-Bench 2.0 得分 77.3%（超 GPT-5.2 64.0%和 Opus 4.6 65.4%）、OSWorld-Verified 64.7%、SWE-Bench Pro SOTA 57%。支持实时交互协作、任务中途转向、从零构建复杂游戏；token 消耗减半、速度提升 25%-40%（总 2.93 倍）。首个网络安全 High 能力模型，直接识别软件漏洞，承诺 1000 万美元 API 信用。Zed 通过 Codex ACP 适配器支持 Zed Pro 用户。企业首批客户包括 Uber、Intuit；用于自身开发调试，支持所有付费 ChatGPT 计划，API 即将上线。发布后 Anthropic 迅速推出竞品。

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情

天眼日报

🤖 AI 大模型

Anthropic 发布 Claude Opus 4.6，支持 1M token 上下文、Agent Teams 和多项基准 SOTA

OpenAI 发布 GPT-5.3-Codex，Terminal-Bench 2.0 达 77.3%、SWE-Bench Pro 57%

OpenBMB 发布 MiniCPM-o 4.5，支持非阻塞全双工语音对话

OpenAI GPT-5 连接自主实验室，蛋白质生产成本降 40%

Kaggle 2026 游戏竞技场结果：GPT-5.2 赢扑克，Gemini 3 Pro 称霸狼人杀与象棋

Cursor 发布长运行编码代理研究，峰值每小时 1000+提交

Laravel AI SDK 正式发布，支持代理、图像、音频等多功能

Remote Labor Index：Opus 4.5 自动化 3.75%远程劳动项目

LlamaIndex 启动 Document Agent Olympics 竞赛，总奖池 600 美元

OpenAI 推出 Frontier 平台，支持企业构建 AI 代理团队

Perplexity 推出 Model Council，支持三模型并行推理

VoyageAI 发布 voyage-4-nano 开源嵌入模型

Skywork Desktop 推出本地 AI 协作者，支持多模型路由和 100+技能

Kling AI 3.0 正式发布，支持多镜头和原生音频

ChatGPT 2026 年首月下载与月活双增长

mlx-lm 最新版支持 DeepSeek v3 加速，长上下文提升 2.5 倍

10 种策略减少 MCP 令牌膨胀

Anthropic 工程博客：量化代理编码评估中的基础设施噪声

免费先跟踪重点，再决定是否升级

获取下一次重大事件提醒