02月07日 · 科技日报

天眼日报

科技|2026年02月07日|40 分钟阅读
来源:2013 条推文 + 329 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-06 — 2026-02-07
分享
科技 日报封面
AI 速读22 条精选

🤖 AI 大模型

LlamaIndex 发布 LlamaExtract 升级,支持引用边界框提取

LlamaIndex 发布 LlamaExtract 升级,支持大批量文档键值对提取带引用边界框,UI 悬停高亮源文档。适用于简历、发票审核,提升 5 倍验证效率。

Anthropic 发布 Claude Opus 4.6,登顶多项基准榜单并支持 Agent Teams

Anthropic 发布 Claude Opus 4.6 系统卡,领先 GDPval-AA 和 AA-Omniscience 测试,支持 100 万 token 上下文和 Agent Teams 多代理协作。在 Code Arena 领先 Opus 4.5 达 106 分,Text Arena 1496 分领先 Gemini 3 Pro 10 分,Expert Arena 领先 49 分;SVG 生成超越 Opus 4.5;Frontier Math Level 4 达 21%新高,Artificial Analysis Leaderboard 第一。物理学研究卓越,理解文献、多页计算、撰写 20 页量子场论教程,几乎无误。系统提示达 1000 行,包含 computer_use 模块支持 Linux Ubuntu 24、docx/pptx/pdf/xlsx 技能、React/Tailwind artifacts。Claude Code 占 GitHub 公共代码提交 4%,预计 2026 年底超 20%。Claude Code #4 提供代码沙盒、任务系统、插件市场,从 80%手动编码转向 80%代理编码。推出 Built with Opus 4.6 黑客松,获胜者获 10 万美元 Claude API 积分。

OpenAI 发布 GPT-5.3-Codex,Terminal-Bench 2.0 得分 77.3%

OpenAI 发布 GPT-5.3-Codex,Terminal-Bench 2.0 得分 77.3%(前代 64%),推理速度提升 25%,Token 消耗减半。支持实时引导、自我迭代,用户反馈速度更快、工具调用更少、结果更准确,兴奋度媲美 GPT-4 首发。Plus 用户可通过 Codex App、CLI 或 IDE 插件使用。

OpenRouter 发布 Pony Alpha 模型,擅长编码推理和角色扮演

OpenRouter 发布 Pony Alpha 新一代基础模型,免费使用但提供商记录提示。优化代理工作流,工具调用准确率高,在编码、推理和角色扮演上表现强劲。

Google Research 推出 Native Adaptation 接口,动态适配用户认知

Google Research 在 A3Forum2026 发布 NAI(Natively Adaptive Interfaces),实时根据用户上下文重构 UI;Grammar Laboratory 平台自定义语言体验;利用 Gemini 多模态合成视觉、听觉、视频意图。

即梦 2.0 支持 32 分镜视频生成,稳定还原画面

即梦 2.0 处理 32 分镜输入,每段 15 秒视频还原度高;文本输入自动设计分镜和对话,简化短剧制作流程。

字节跳动开源 Protenix-v1,性能超 AlphaFold 3

字节跳动开源 Protenix-v1,首个性能超 AlphaFold 3 的全开源生物分子结构预测模型,支持蛋白质、核酸、配体等通用预测,在多基准测试中优于 AlphaFold 3,开源完整训练数据、MSA 管道和工具。

Anthropic 工程团队用 16 个 Claude 实例构建完整 C 编译器

Anthropic 工程团队部署 16 个 Claude 实例,无需人工监督,构建 10 万行 Rust 代码的 C 编译器,能编译 Linux 内核。总计 20 亿输入 token、1.4 亿输出 token、耗时 2 周、成本 2 万美元。

Vercel 上 Claude 用户部署量激增,上周占 12.8%

Vercel 报告 Claude 使用团队上周生成 12.8%部署量,比非 Claude 团队多部署 7.6 倍,部署增长 14%周环比。

Kimi-K2.5 在优化问题基准上接近 GPT-5.2-high

Kimi-K2.5 在 Ale-Bench 优化任务(如路由调度)中表现优于开源模型,需 16 步自精炼达 GPT-5.2-high 单步性能。

Qwen 团队发布 MiniCPM o 4.5,支持全双工通信

Xianbao_QIAN 分享 MiniCPM o 4.5,9B 参数模型基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B,直接在 Mac 上实现全双工通信。

InfMem 研究提升 AI Agent 长文档记忆能力

omarsar0 介绍 InfMem,通过 PRETHINK–RETRIEVE–WRITE 协议处理 1M token 文档,在超长 QA 基准上 Qwen3-4B 模型准确率提升+11.84,推理延迟降 3.9x。

Hugging Face 发布多项平台更新

Hugging Face 新增社区评估和基准数据集,支持模型仓库 PR 贡献评估结果;Data Studio 集成聊天代理和电子表格式选择;模型仓库显示 MLX 兼容硬件和 SGLang 代码片段;数据集支持 LanceDB 格式。

Anthropic Claude 集成 WordPress 站点监控

TechCrunch 报道 Claude 新增 WordPress 站点检查功能,便于 AI 监控网站状态。

Claude Code 2.1.34 发布,修复沙盒和权限 bug

Claude Code CLI 2.1.34 修复代理团队渲染崩溃及沙盒排除命令绕过 Bash 权限规则的 bug,支持 autoAllowBashIfSandboxed。

Claude Opus 4.6 与 GPT-5.3-Codex 优化实验对比及市场竞争

Opus 4.6 优化 nanochat GPT-2 训练时间从 174.42 分钟降至 171.40 分钟,使用 torch compile 和 Muon 优化器;Codex 5.3 MFU 更高但质量下降。Anthropic Claude Opus 4.6 与 OpenAI GPT-5.3-Codex 针锋相对,两款聚焦 AI Agent 与工程化,Claude 强调多任务协作,Codex 突出实时操控与 Token 效率。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。