02月06日 · 科技日报

天眼日报

科技|2026年02月06日|38 分钟阅读
来源:2133 条推文 + 315 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-06
分享
科技 日报封面
AI 速读20 条精选

🤖 AI 大模型

【重磅】OpenAI 发布 GPT-5.3-Codex,编码性能达 SWE-Bench Pro 57%、TerminalBench 2.0 76%、OSWorld 64%

OpenAI 推出 GPT-5.3-Codex,编码基准大幅提升:SWE-Bench Pro 57%、TerminalBench 2.0 76.3%(超 GPT-5.2 的 64.0%)、OSWorld-Verified 64.7%;任务令牌用量减半、每 token 速度提升 25%以上,支持中途转向、实时交互、自我调试和高/超高推理努力,总速度提升 2.93 倍。专为 NVIDIA GB200-NVL72 优化,与 Ginkgo Bioworks 合作蛋白生产成本降 40%;Macroscope 代码审查 v3 bug 检测提升 3.5 倍。首个参与自身训练的编程代理,已有 100 万活跃用户,社区开发者构建复杂应用,支持中文思考过程和大代码库操作。即刻可用,Codex 应用和 CLI 更新。

【重磅】Anthropic 发布 Claude Opus 4.6,支持 100 万 token 上下文、代理团队和自纠错

Anthropic 推出 Claude Opus 4.6,首款 Opus 级 1M token 上下文模型(Beta),基准领先:Terminal-Bench 2.0 65.4%(超 GPT-5.2 的 64.7%)、ARC-AGI-2 68.8%(+31.2%,创 SOTA)、MRCR v2(1M)76%、GDPval-AA 1606 Elo(领先 GPT-5.2 144 Elo)、BrowseComp 84.0%。新增 Agent Teams 多代理协作(并行拆任务、PR 审查、bug 排查,实验中两周构建 C 编译器编译 Linux 内核)、自适应思考(四档)、128k 输出 token、上下文压缩。行为审计低欺骗率,已集成 GitHub Copilot、Cursor、Databricks、Zed 等 20+公司,支持 Zed Pro 用户和 Claude Code 桌面版。规划稳定性、长代理任务、代码库处理提升 30%-700%(均 152%),定价不变。

⭐ Cursor 发布长期编码代理研究,每小时超 1000 提交

Cursor 团队分享一周长运行编码代理实验,峰值每小时超 1000 提交,数百代理协作拆解任务,支持 Python 等语言,强调人类干预减少。现开放研究预览和早期访问,集成 Claude Opus 4.6 擅长长任务和代码审查,Rakuten 用其管理 50 人组织跨 6 仓库问题。

⭐ OpenAI GPT-5 连接自主实验室,蛋白生产成本降 40%

OpenAI 与 Ginkgo 合作,将 GPT-5 接入自主实验室,设计实验、执行 36,000+反应组合、跨越 6 迭代和 580 自动化板,蛋白合成成本降低 40%。模型生成设计,实验室测试反馈闭环加速生物优化。

Claude Code 占 GitHub 公共提交 4%,预计 2026 年底超 20%

Claude Code 目前占 GitHub 公共提交 4%,按当前轨迹预计 2026 年底达 20%以上,标志 AI 主导软件开发。

⭐ Arena 推出 Max 智能路由器,实时选最佳模型

Arena 发布 Max,基于 500 万+社区投票实时路由提示至最佳模型,支持 Coding、Expert 等排行榜第一。无需手动选模,提升质量与速度。

AnthropicOpenAI深夜发布 Claude Opus 4.6 和 GPT-5.3-Codex 对比

Anthropic Claude Opus 4.6 支持 100 万 token 上下文,Terminal-Bench 2.0 最高分;OpenAI GPT-5.3-Codex 在 SWE-Bench Pro 达 56.8%、OSWorld-Verified 64.7%。两模型强调代理编码与金融应用,Claude 注重 Agent 边界控制和稳定性,GPT-5.3 聚焦自主规划,在 Agentic 编码测试中得分 80.8%和 80.0%,标志 AI 从聊天转向系统级 Agent。同时 OpenAI 发布 GPT-5.3-Codex Terminal-Bench 77.3%、Claude Opus 4.6 Agentic 测试 65.4%。

⭐ Claude Opus 4.6 与 GPT-5.3-Codex 编程能力对比实测

程序员鱼皮实测 Claude Opus 4.6 与 GPT-5.3-Codex,前者编程、办公全面,100 万 token 上下文;后者 SWE-Bench Pro 57%、速度提升 25%,前端开发突出。

OpenAI 发布 Frontier 平台,支持企业级 AI 代理管理

OpenAI 推出 Frontier 平台,Oracle、Uber 等企业合作伙伴,支持 Codex 驱动代理访问控制、共享语义层。Codex 用户今日降价,Oracle、Uber、State Farm 等首批伙伴。

⭐ OpenAI 宣布 2026-02-13 下线 GPT-4o 等老模型

OpenAI 于 2026-01-29 公告,2026-02-13 下线 ChatGPT 内 GPT-4o、GPT-4.1、GPT-4.1 mini、o4-mini 和 GPT-5(Instant/Thinking)。API 暂不变,仅 0.1%用户仍选 GPT-4o。新版 GPT-5.1/5.2 已吸收其创意风格。

Kimi K2.5 Code CLI 编程测试:10 分钟 React 博客,优于 GLM-4.7

Kimi K2.5 Code CLI 用 10 分钟生成完整 React 博客,8%配额。接入 Claude Code 测试 13 分钟。Code Arena 排名第 5,GLM-4.7 第 7。国产编程套餐 49 元/月,性价比高。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。