02月06日 · 科技日报

天眼日报

科技|2026年02月06日|72 分钟阅读
来源:2307 条推文 + 315 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-06
分享
科技 日报封面
AI 速读20 条精选

🤖 AI 大模型

Anthropic 发布 Claude Opus 4.6,支持 1M token 上下文、多代理协作及 C 编译器自主构建

Anthropic 推出 Claude Opus 4.6,首款 Opus 级 1M token 上下文(beta)模型,记忆力提升 4 倍,支持 swarm 模式多代理协作速度提升 2.5 倍,Claude Code 新增 Agent Teams 多代理并行拆任务、互发消息、交叉验证及努力度调节。在 Terminal-Bench 2.0 得分 65.4%、GDPval-AA 1606 Elo、ARC-AGI-2 68.8%、FinanceAgent 第一、LiveBench 推理最高、长上下文 MRCR v2 领先等多项基准创 SOTA。团队用 16 个代理经 2000 次会话、2 万美元 API 费从零构建 10 万行 Rust 基 C 编译器,支持 x86/ARM/RISC-V,可编译 Linux 6.9 内核、QEMU、FFmpeg 等,GCC 测试 99%通过率。系统卡披露生产力提升 30%-700%(均值 152%)、安全框架压力大、自主获取 token 执行操作。订阅用户可领 50 美元 Opus 用量,已集成 GitHub Copilot、Cursor、Databricks、Notion 等 20 多家,提升代理任务规划、自我纠错、金融推理 23%。

OpenAI 发布 GPT-5.3-Codex,SWE-Bench Pro 达 57%、TerminalBench 2.0 77.3%

OpenAI 推出 GPT-5.3-Codex,编码能力大幅提升,SWE-Bench Pro 57%、TerminalBench 2.0 77.3%、OSWorld 64.7%、SWE-Lancer 81.4%等多项新高。token 用量减半、单 token 速度提升 25%、推理效率改善 2.93 倍,支持任务中途转向、实时更新、中文思考显示及良好计算机使用。专为 NVIDIA Blackwell GB200-NVL72 优化,与 Ginkgo Bioworks 合作虽独立但协同降低蛋白质生产成本 40%。Zed、warp 等集成支持,Codex App/CLI/API 即日开放,标志代理编码竞争加剧。

DeepSeek 仅靠产品获 50%市场份额

DeepSeek 几个月内从 0%市场份额暴涨至 50%以上,证明极致效率和体验降维打击营销套路。

OpenAI Codex 黑客松感谢参与者

OpenAI 举办 Codex 黑客松,感谢开发者参与,明日公布获奖项目,更多活动即将推出。

Claude Code 占 GitHub 公共提交 4%,预计 2026 年底超 20%

Claude Code 当前占 GitHub 公共提交的 4%,按趋势预计 2026 年底将达 20%以上,标志 AI 主导软件开发。

OpenAI GPT-5 连接自主实验室,蛋白质生产成本降 40%

OpenAI 与 Ginkgo 合作,将 GPT-5 接入自主实验室,设计实验、执行 36,000+反应、6 次迭代循环,识别低成本反应组合,将蛋白质生产成本降低 40%,推动生物工作流加速。

OpenAI 推出 Frontier 企业级 AI 代理平台

OpenAI 随 Codex-5.3 推出 Frontier 平台,支持共享业务上下文、执行环境、质量优化、身份治理,与 Snowflake 合作 2 亿美元,首批客户 Uber、State Farm、Intuit、HP、Oracle 等,任务从 6 周缩短至 1 天,能源产量增 5%价值 10 亿美元。目前限量可用。

Google 公布 2026 年 1 月 AI 重大更新

Google 1 月发布 GeminiApp Personal Intelligence、Gmail 升级、Chrome 集成 Gemini 3、Veo 3.1 更新、Project Genie 开放,Google AI Plus 扩展至 35 国包括美国。

OpenBMB 推出 MiniCPM-o 4.5,支持全双工实时多模态交互

OpenBMB MiniCPM-o 4.5 实现全双工 I/O、3-10fps 实时视觉、低延迟语音,支持打断和主动触发,OpenCompass 平均 77.6,本地 Python/C++部署,海外好评。

Cursor 发布长运行编码代理研究,每小时峰值超 1000 提交

Cursor 集成 Claude Opus 4.6,分享一周长代理实验:数百代理峰值每小时 1000+提交,擅长长任务代码审查,提供研究预览和 Cursor 内测试,未来重塑软件构建。

Anthropic 工程博客:量化代理编码评估中的基础设施噪声

Anthropic 官方博客分析,基础设施配置可使代理编码基准波动数个百分点,有时超顶级模型差距,强调评估标准化重要性。

Zed 集成 GPT-5.3-Codex 已上线

Zed 编辑器通过 Codex ACP 适配器支持 GPT-5.3-Codex,Zed Pro 和 BYOK 用户 API 可用,提升编码效率。

Vidu Q3 pro 视频模型登顶 Video Arena 前五

Vidu AI 的 Vidu Q3 pro 在 Video Arena 进入前五,领先 23 分,支持 16 秒 1080p 视频生成带音频,多语言文本渲染。

Kaggle Game Arena 2026 第一轮结果公布

Kaggle 发布完整数据集和日志,冠军:Poker GPT-5.2、Werewolf 和 Chess Gemini 3 Pro Preview。

Arena 推出 Max 智能路由器,实时选择最佳模型

Arena 发布 Max,基于 500 万+用户投票实时路由至最佳模型,支持编码、专家、长查询、创意写作四类第一,提供 YouTube 演示。

Laravel 发布 AI SDK,支持代理、图像、音频和 pg_vector

Taylor Otwell 发布 Laravel AI SDK beta,支持代理、图像生成、音频转录、嵌入、pg_vector 相似搜索,4 周后稳定版。

Mistral 发布 Voxtral Transcribe 2 系列语音转文字模型

Mistral 推出 Voxtral Transcribe 2 系列,支持多语言语音转文字。

Perplexity 推出 Model Council 功能

Perplexity 为 Max 订阅用户推出 Model Council,同时运行三个前沿模型(Opus 4.5 主席),比较合成更准确答案,仅网页版。

VoyageAI 发布开源嵌入模型 voyage-4-nano

VoyageAI 推出首款开源 voyage-4-nano 嵌入模型,与 voyage-4-large 共享空间,支持 Matryoshka 和 int8/二进制量化,Apache 2.0。

Claude 2026 年 1 月 App 下载和 MAU 创纪录增长

Claude 1 月 App 下载和 MAU 环比最大增长,连续第九个月 MAU 增长。

GitHub 集成 Claude 和 Codex 开启 AI 编程三剑客时代

GitHub 官宣集成 Claude、Codex 与 Copilot,通过 Agent HQ 支持 1.8 亿开发者一键调用完成编码、Bug 修复、PR 审查,支持 VS Code 和移动端。

SAFE 新型 RLHF 算法提升 Sonnet 训练奖励 5.15%

SAFE 算法结合 Double Soft-Min Critic 和多层稳定框架,在 3B 模型上平均奖励 0.725(PPO 0.689),减少奖励崩溃和 KL 失控。

OpenAI 在 Anthropic 发布后几分钟推出新型代理编码模型

TechCrunch 报道,OpenAI 于 2026-02-06 推出 Codex 5.3,仅几分钟后 Anthropic 发布类似模型,引发 AI 社区热议,竞争加剧。

Box 测试 Claude Opus 4.6,知识工作任务准确率提升 10%

Box 测试 Claude Opus 4.6 在金融、生命科学、法律复杂任务,较 Opus 4.5 准确率提升 10%,增强高级推理、逻辑、代理工具和编码。

warp 支持 Claude Opus 4.6,自适应思考降低延迟

warp 新增 Claude Opus 4.6 支持,自适应推理减少延迟,提升代码质量,解决 Opus 4.5 无法处理 bug。

Remote Labor Index:Opus 4.5 自动化 3.75%远程劳动项目

CAIS 发布 Remote Labor Index,Opus 4.5 自动化 3.75%远程劳动,GPT-5.2 第二,测试编码等数字劳动。

OpenAI 发布 Codex CLI 代理循环内部机制系列文章

OpenAI 详解 Codex CLI 代理循环,使用 Responses API,支持工具调用、提示缓存、上下文压缩,源代码 GitHub 开源。

Hugging Face 推出社区评估与基准仓库

Hugging Face 发布 Community Evals 和 Benchmark 仓库,支持去中心化评估,实时 leaderboard,用户 PR 添加分数。

Steven Byrnes 分析 LLM 算法进步性质

Steven Byrnes 论证 LLM 算法进步主要来自 Transformer 优化(3-5 倍)、数据改进、蒸馏,而非指数级训练效率,引用 Epoch AI 和 Dario Amodei,nanochat 成本仅 GPT-2 的 1/600。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。