天眼日报

科技|2026年02月06日|约 38 分钟阅读

来源：2133 条推文 + 315 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-06

AI 速读20 条精选

🤖 AI 大模型

【重磅】OpenAI 发布 GPT-5.3-Codex，编码性能达 SWE-Bench Pro 57%、TerminalBench 2.0 76%、OSWorld 64%

OpenAI 推出 GPT-5.3-Codex，编码基准大幅提升：SWE-Bench Pro 57%、TerminalBench 2.0 76.3%（超 GPT-5.2 的 64.0%）、OSWorld-Verified 64.7%；任务令牌用量减半、每 token 速度提升 25%以上，支持中途转向、实时交互、自我调试和高/超高推理努力，总速度提升 2.93 倍。专为 NVIDIA GB200-NVL72 优化，与 Ginkgo Bioworks 合作蛋白生产成本降 40%；Macroscope 代码审查 v3 bug 检测提升 3.5 倍。首个参与自身训练的编程代理，已有 100 万活跃用户，社区开发者构建复杂应用，支持中文思考过程和大代码库操作。即刻可用，Codex 应用和 CLI 更新。

【重磅】Anthropic 发布 Claude Opus 4.6，支持 100 万 token 上下文、代理团队和自纠错

Anthropic 推出 Claude Opus 4.6，首款 Opus 级 1M token 上下文模型（Beta），基准领先：Terminal-Bench 2.0 65.4%（超 GPT-5.2 的 64.7%）、ARC-AGI-2 68.8%（+31.2%，创 SOTA）、MRCR v2（1M）76%、GDPval-AA 1606 Elo（领先 GPT-5.2 144 Elo）、BrowseComp 84.0%。新增 Agent Teams 多代理协作（并行拆任务、PR 审查、bug 排查，实验中两周构建 C 编译器编译 Linux 内核）、自适应思考（四档）、128k 输出 token、上下文压缩。行为审计低欺骗率，已集成 GitHub Copilot、Cursor、Databricks、Zed 等 20+公司，支持 Zed Pro 用户和 Claude Code 桌面版。规划稳定性、长代理任务、代码库处理提升 30%-700%（均 152%），定价不变。

⭐ Cursor 发布长期编码代理研究，每小时超 1000 提交

Cursor 团队分享一周长运行编码代理实验，峰值每小时超 1000 提交，数百代理协作拆解任务，支持 Python 等语言，强调人类干预减少。现开放研究预览和早期访问，集成 Claude Opus 4.6 擅长长任务和代码审查，Rakuten 用其管理 50 人组织跨 6 仓库问题。

⭐ OpenAI GPT-5 连接自主实验室，蛋白生产成本降 40%

OpenAI 与 Ginkgo 合作，将 GPT-5 接入自主实验室，设计实验、执行 36,000+反应组合、跨越 6 迭代和 580 自动化板，蛋白合成成本降低 40%。模型生成设计，实验室测试反馈闭环加速生物优化。

Claude Code 占 GitHub 公共提交 4%，预计 2026 年底超 20%

Claude Code 目前占 GitHub 公共提交 4%，按当前轨迹预计 2026 年底达 20%以上，标志 AI 主导软件开发。

⭐ Arena 推出 Max 智能路由器，实时选最佳模型

Arena 发布 Max，基于 500 万+社区投票实时路由提示至最佳模型，支持 Coding、Expert 等排行榜第一。无需手动选模，提升质量与速度。

Anthropic与OpenAI深夜发布 Claude Opus 4.6 和 GPT-5.3-Codex 对比

Anthropic Claude Opus 4.6 支持 100 万 token 上下文，Terminal-Bench 2.0 最高分；OpenAI GPT-5.3-Codex 在 SWE-Bench Pro 达 56.8%、OSWorld-Verified 64.7%。两模型强调代理编码与金融应用，Claude 注重 Agent 边界控制和稳定性，GPT-5.3 聚焦自主规划，在 Agentic 编码测试中得分 80.8%和 80.0%，标志 AI 从聊天转向系统级 Agent。同时 OpenAI 发布 GPT-5.3-Codex Terminal-Bench 77.3%、Claude Opus 4.6 Agentic 测试 65.4%。

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情