天眼日报

🤖 AI 大模型
Anthropic 发布 Claude Opus 4.6,支持 1M token 上下文、多代理协作及 C 编译器自主构建
Anthropic 推出 Claude Opus 4.6,首款 Opus 级 1M token 上下文(beta)模型,记忆力提升 4 倍,支持 swarm 模式多代理协作速度提升 2.5 倍,Claude Code 新增 Agent Teams 多代理并行拆任务、互发消息、交叉验证及努力度调节。在 Terminal-Bench 2.0 得分 65.4%、GDPval-AA 1606 Elo、ARC-AGI-2 68.8%、FinanceAgent 第一、LiveBench 推理最高、长上下文 MRCR v2 领先等多项基准创 SOTA。团队用 16 个代理经 2000 次会话、2 万美元 API 费从零构建 10 万行 Rust 基 C 编译器,支持 x86/ARM/RISC-V,可编译 Linux 6.9 内核、QEMU、FFmpeg 等,GCC 测试 99%通过率。系统卡披露生产力提升 30%-700%(均值 152%)、安全框架压力大、自主获取 token 执行操作。订阅用户可领 50 美元 Opus 用量,已集成 GitHub Copilot、Cursor、Databricks、Notion 等 20 多家,提升代理任务规划、自我纠错、金融推理 23%。
OpenAI 发布 GPT-5.3-Codex,SWE-Bench Pro 达 57%、TerminalBench 2.0 77.3%
OpenAI 推出 GPT-5.3-Codex,编码能力大幅提升,SWE-Bench Pro 57%、TerminalBench 2.0 77.3%、OSWorld 64.7%、SWE-Lancer 81.4%等多项新高。token 用量减半、单 token 速度提升 25%、推理效率改善 2.93 倍,支持任务中途转向、实时更新、中文思考显示及良好计算机使用。专为 NVIDIA Blackwell GB200-NVL72 优化,与 Ginkgo Bioworks 合作虽独立但协同降低蛋白质生产成本 40%。Zed、warp 等集成支持,Codex App/CLI/API 即日开放,标志代理编码竞争加剧。
DeepSeek 仅靠产品获 50%市场份额
DeepSeek 几个月内从 0%市场份额暴涨至 50%以上,证明极致效率和体验降维打击营销套路。
OpenAI Codex 黑客松感谢参与者
OpenAI 举办 Codex 黑客松,感谢开发者参与,明日公布获奖项目,更多活动即将推出。
Claude Code 占 GitHub 公共提交 4%,预计 2026 年底超 20%
Claude Code 当前占 GitHub 公共提交的 4%,按趋势预计 2026 年底将达 20%以上,标志 AI 主导软件开发。
OpenAI GPT-5 连接自主实验室,蛋白质生产成本降 40%
OpenAI 与 Ginkgo 合作,将 GPT-5 接入自主实验室,设计实验、执行 36,000+反应、6 次迭代循环,识别低成本反应组合,将蛋白质生产成本降低 40%,推动生物工作流加速。
OpenAI 推出 Frontier 企业级 AI 代理平台
OpenAI 随 Codex-5.3 推出 Frontier 平台,支持共享业务上下文、执行环境、质量优化、身份治理,与 Snowflake 合作 2 亿美元,首批客户 Uber、State Farm、Intuit、HP、Oracle 等,任务从 6 周缩短至 1 天,能源产量增 5%价值 10 亿美元。目前限量可用。
Google 公布 2026 年 1 月 AI 重大更新
Google 1 月发布 GeminiApp Personal Intelligence、Gmail 升级、Chrome 集成 Gemini 3、Veo 3.1 更新、Project Genie 开放,Google AI Plus 扩展至 35 国包括美国。
OpenBMB 推出 MiniCPM-o 4.5,支持全双工实时多模态交互
OpenBMB MiniCPM-o 4.5 实现全双工 I/O、3-10fps 实时视觉、低延迟语音,支持打断和主动触发,OpenCompass 平均 77.6,本地 Python/C++部署,海外好评。
Cursor 发布长运行编码代理研究,每小时峰值超 1000 提交
Cursor 集成 Claude Opus 4.6,分享一周长代理实验:数百代理峰值每小时 1000+提交,擅长长任务代码审查,提供研究预览和 Cursor 内测试,未来重塑软件构建。
Anthropic 工程博客:量化代理编码评估中的基础设施噪声
Anthropic 官方博客分析,基础设施配置可使代理编码基准波动数个百分点,有时超顶级模型差距,强调评估标准化重要性。
Zed 集成 GPT-5.3-Codex 已上线
Zed 编辑器通过 Codex ACP 适配器支持 GPT-5.3-Codex,Zed Pro 和 BYOK 用户 API 可用,提升编码效率。
Vidu Q3 pro 视频模型登顶 Video Arena 前五
Vidu AI 的 Vidu Q3 pro 在 Video Arena 进入前五,领先 23 分,支持 16 秒 1080p 视频生成带音频,多语言文本渲染。
Kaggle Game Arena 2026 第一轮结果公布
Kaggle 发布完整数据集和日志,冠军:Poker GPT-5.2、Werewolf 和 Chess Gemini 3 Pro Preview。
Arena 推出 Max 智能路由器,实时选择最佳模型
Arena 发布 Max,基于 500 万+用户投票实时路由至最佳模型,支持编码、专家、长查询、创意写作四类第一,提供 YouTube 演示。
Laravel 发布 AI SDK,支持代理、图像、音频和 pg_vector
Taylor Otwell 发布 Laravel AI SDK beta,支持代理、图像生成、音频转录、嵌入、pg_vector 相似搜索,4 周后稳定版。
Mistral 发布 Voxtral Transcribe 2 系列语音转文字模型
Mistral 推出 Voxtral Transcribe 2 系列,支持多语言语音转文字。
Perplexity 推出 Model Council 功能
Perplexity 为 Max 订阅用户推出 Model Council,同时运行三个前沿模型(Opus 4.5 主席),比较合成更准确答案,仅网页版。
VoyageAI 发布开源嵌入模型 voyage-4-nano
VoyageAI 推出首款开源 voyage-4-nano 嵌入模型,与 voyage-4-large 共享空间,支持 Matryoshka 和 int8/二进制量化,Apache 2.0。
Claude 2026 年 1 月 App 下载和 MAU 创纪录增长
Claude 1 月 App 下载和 MAU 环比最大增长,连续第九个月 MAU 增长。
GitHub 集成 Claude 和 Codex 开启 AI 编程三剑客时代
GitHub 官宣集成 Claude、Codex 与 Copilot,通过 Agent HQ 支持 1.8 亿开发者一键调用完成编码、Bug 修复、PR 审查,支持 VS Code 和移动端。
SAFE 新型 RLHF 算法提升 Sonnet 训练奖励 5.15%
SAFE 算法结合 Double Soft-Min Critic 和多层稳定框架,在 3B 模型上平均奖励 0.725(PPO 0.689),减少奖励崩溃和 KL 失控。
OpenAI 在 Anthropic 发布后几分钟推出新型代理编码模型
TechCrunch 报道,OpenAI 于 2026-02-06 推出 Codex 5.3,仅几分钟后 Anthropic 发布类似模型,引发 AI 社区热议,竞争加剧。
Box 测试 Claude Opus 4.6,知识工作任务准确率提升 10%
Box 测试 Claude Opus 4.6 在金融、生命科学、法律复杂任务,较 Opus 4.5 准确率提升 10%,增强高级推理、逻辑、代理工具和编码。
warp 支持 Claude Opus 4.6,自适应思考降低延迟
warp 新增 Claude Opus 4.6 支持,自适应推理减少延迟,提升代码质量,解决 Opus 4.5 无法处理 bug。
Remote Labor Index:Opus 4.5 自动化 3.75%远程劳动项目
CAIS 发布 Remote Labor Index,Opus 4.5 自动化 3.75%远程劳动,GPT-5.2 第二,测试编码等数字劳动。
OpenAI 发布 Codex CLI 代理循环内部机制系列文章
OpenAI 详解 Codex CLI 代理循环,使用 Responses API,支持工具调用、提示缓存、上下文压缩,源代码 GitHub 开源。
Hugging Face 推出社区评估与基准仓库
Hugging Face 发布 Community Evals 和 Benchmark 仓库,支持去中心化评估,实时 leaderboard,用户 PR 添加分数。
Steven Byrnes 分析 LLM 算法进步性质
Steven Byrnes 论证 LLM 算法进步主要来自 Transformer 优化(3-5 倍)、数据改进、蒸馏,而非指数级训练效率,引用 Epoch AI 和 Dario Amodei,nanochat 成本仅 GPT-2 的 1/600。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。