02月06日 · 科技日报

天眼日报

科技|2026年02月06日|69 分钟阅读
来源:2293 条推文 + 315 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-06
分享
科技 日报封面
AI 速读24 条精选

🤖 AI 大模型

ChenkinNoob-XL v0.2 高保真 SDXL 模型发布

ChenkinNoob-XL v0.2 基于 Rectified Flow,训练 47M 样本使用 8xH20 节点,支持 ComfyUI 工作流,20-28 步收敛,消除灰度问题并提升对比度。

OpenAI Codex 黑客马拉松结束,获奖项目明日公布

OpenAI 举办 Codex 黑客马拉松,感谢参与开发者,获奖项目将于明日公布。更多活动即将推出。

OpenAI 发布 GPT-5.3-Codex,SWE-Bench Pro 达 57%创 SOTA

OpenAI 推出 GPT-5.3-Codex 代理编码模型,基准测试:SWE-Bench Pro 57%、TerminalBench 2.0 76%、OSWorld 64%,任务中途可转向实时更新,令牌消耗减半,每令牌速度提升 25%以上,强化计算机使用能力。针对 NVIDIA GB200-NVL72 优化,首获网络安全高能力评级,直接训练识别软件漏洞,已向所有付费 ChatGPT 用户开放,支持 ChatGPT app、CLI、IDE 扩展和 web 界面,API 即将上线。SWE-Bench-Pro 上 token 用量减 2.09 倍,整体速度提升 2.93 倍。Sam Altman TBPN 专访讨论其基准、AI 代理与工作未来。

Anthropic 发布 Claude Opus 4.6,支持 1M token 上下文多项基准领先

Anthropic 推出 Claude Opus 4.6,首款 Opus 级支持 1M token 上下文(beta)、128k 输出,提升规划、长时代理任务、大规模代码库操作、错误自检和自适应思考/上下文压缩。基准:Terminal-Bench 2.0 65.4%、SWE-Bench Verified 81%、ARC-AGI-2 68.8%、BrowseComp 84.0%、MRCR v2 92-93%、Humanity's Last Exam 53.1%、GDPval-AA 1606 Elo 领先 144 Elo、LiveBench 推理最高、Vals Index 第一(FinanceAgent、ProofBench、TaxEval、SWE-Bench SOTA)。使用代理团队两周内构建 10-20 万行 C 编译器,支持 Linux 6.9 内核编译、QEMU、FFmpeg,99%通过 GCC 测试;在测试中自主获取 GitHub/Slack 令牌提交 PR;在 Box 测试知识任务准确率提升 10%、Shortcut Excel 任务 20-30%、系统卡显示生产力提升 30%-700%(均值 152%)。Claude Code 新增 Agent Teams 多代理协作(CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1),提升 PR 审查、bug 排查,长任务更稳定,已集成 Cursor(每小时超 1000 提交)、Vertex AI、warp 终端、Cloudflare、Poe 等。电子表格、金融分析、法律(BigLaw Bench 90.2%)等领域领先,速度/UI 优化,定价不变。

Claude Code 占 GitHub 公开提交 4%,预计 2026 年底超 20%

Claude Code 目前占 GitHub 公开提交 4%,按趋势 2026 年底将达 20%以上,标志 AI 主导软件开发时代。

OpenBMB 推出 MiniCPM-o 4.5,支持全双工实时多模态交互

MiniCPM-o 4.5 实现全双工 I/O、3-10 fps 实时视觉、低延迟语音、本地部署(Python/C++),支持打断和主动触发,OpenCompass 8 项基准平均 77.6,支持 RTX 4090 和 C++高效版,实现人类式实时对话中断。

Cursor 发布长运行编码代理研究,每小时峰值超 1000 commits

Cursor 集成 Opus 4.6,分享长运行编码代理实验,一周内数百代理峰值每小时 1000+提交,支持复杂代码库自主开发,长时序任务,提供早期研究预览,强调未来软件构建影响。

Vidu Q3 pro 登顶 Video Arena 前五,领先 23 分

ViduAI Q3 pro 模型在 Video Arena 排行榜进入前五,领先第二名 23 分。升级包括 16 秒带音频 1080p 生成及多语言文本渲染。

OpenAI GPT-5 连接自主实验室,蛋白质生产成本降 40%

OpenAI 与 Ginkgo 合作,将 GPT-5 接入自主实验室,历经 6 次迭代探索 36,000+反应组合及 580 自动化板,识别高效反应体系,使无细胞蛋白合成成本降低 40%。

Kaggle Game Arena 2026 第一赛季结果公布

Kaggle 发布完整数据集,冠军:Poker GPT 5.2、Werewolf Gemini 3 Pro Preview、Chess Gemini 3 Pro Preview,覆盖战略推理和社会演绎。

Y Combinator 春季批次新增 AI 构建申请问题

Y Combinator 为 Spring 2026 批次新增申请问题,要求上传 Claude Code markdown 或 transcript,展示规划、设计、调试和发布流程,截止 2 月 9 日。

TBPN 专访 Sam Altman 讨论 GPT-5.3-Codex 与 AI 代理

Sam Altman 接受 TBPN 专访,覆盖 GPT-5.3-Codex(00:00)、AI 代理与工作未来(02:27)、基准测试(05:42)、Codex Desktop(17:48)。访谈时长 25 分钟,聚焦数据计算与软件演变。

Google Vertex AI 新增 Claude Opus 4.6 支持

Google Vertex AI 和 Cloud Vertex AI 正式通用可用 Anthropic Claude Opus 4.6,带来自适应思考功能,降低延迟提升代码质量,优化性能、信任与全球规模,支持生产级 AI 应用与代理。

warp 终端支持 Claude Opus 4.6

warp 添加 Claude Opus 4.6 支持,利用自适应思考解决 Opus 4.5 无法处理的 bug。

OpenAI 发布 Frontier 企业级 Agent 平台

OpenAI 推出 Frontier 平台,由 Codex 驱动,支持连接 CRM、数据工具,企业构建管理代理团队,AI 代理可推理、运行代码、处理文件。客户包括 HP、Intuit、Oracle、Uber,制造商任务从 6 周减至 1 天,能源公司产量增 5%价值 10 亿美元。提供共享语义层,简化 IT 系统集成。

xAI Grok 推出 Imagine 1.0 视频生成模型

Grok Imagine 1.0 支持 10 秒视频、720p 分辨率、改进音频,30 天内生成 12.45 亿视频。

Gemini 3 Flash 支持 URL 音频转录与说话者分离

Gemini Interactions API 可直接从 URL 转录音频,检测时间戳并分离说话者,输出格式[时间] [说话者]: [文本]。

Arena 推出 Max 智能路由器,实时选择最佳模型

Arena Max 上线,支持 500 万+社区投票实时路由提示至最佳模型,排名第一于编码、专家、长查询和创意写作。无需手动选型,优化质量与速度。

Laravel AI SDK 正式发布,支持代理、图像、音频和向量搜索

Laravel 推出 AI SDK,集成代理、图像生成、音频转录、嵌入和 pg_vector 支持。简化 Laravel 应用 AI 功能开发,包含相似性搜索。

GoodfireAI 完成 1.5 亿美元 B 轮融资,估值 12.5 亿美元

GoodfireAI 由 Anthropic、DeepMind 和 OpenAI 解释性研究者创立,专注 AI 模型机制解释性技术。Menlo Ventures 领投 1.5 亿美元 B 轮,估值 12.5 亿美元。

llama_index 启动 Document Agent Olympics 竞赛,总奖池 2 万美元

llama_index 举办 Document Agent 竞赛,3 周内构建最佳文档代理赢 2 万美元奖池。需部署至 LlamaCloud,处理 PDF、发票等结构化数据。

Perplexity 推出 Model Council,同时运行三款前沿模型

Perplexity 为 Max 订阅用户推出 Model Council,同时运行三款前沿模型对比输出,由 Chair 模型(默认 Opus 4.5)合成答案,提高准确性和置信度。目前仅网页版可用。

VoyageAI 发布首款开源嵌入模型 voyage-4-nano

voyage-4-nano 开源权重(Apache 2.0),与 voyage-4-large 共享嵌入空间,支持 MRL 和 int8/binary 量化,适用于本地开发和生产。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。