天眼日报

🤖 AI 大模型
Anthropic 发布 Claude Opus 4.6,支持 1M token 上下文、Agent Teams 和多项基准 SOTA
Anthropic 推出 Claude Opus 4.6,核心升级包括 1M token 上下文(Beta)、128k 输出、更严谨逻辑规划、代码自我纠错、长时 agent 任务支持和大代码库操作。新增 Agent Teams 功能,支持多个代理实例并行协作、互发消息,适用于 PR 审查、bug 排查和大型代码库任务(如 Claude Code 中通过 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 启用)。在 Terminal-Bench 2.0 得分 65.4%、GDPval-AA 达 1606 Elo(领先 GPT-5.2 144 Elo)、BrowseComp 84.0%、ARC AGI 2 68.8%、SWE-Bench Pro 等基准领先。工程博客详述使用代理团队自主构建 C 编译器,两周后成功编译 Linux 内核,展示自主软件开发潜力。Cursor 集成优化长任务代码审查,峰值 1000+ commits/小时;OpenRouter 上线提供高可靠性;集成 GitHub Copilot、Figma、Notion、Excel/PowerPoint;Claude Code 新增/insights 命令生成使用报告。SemiAnalysis 称其为拐点,改变开发格局。定价$5/$25 每百万 Token,现已在 Claude.ai、开发者平台和云平台开放。
OpenAI 发布 GPT-5.3-Codex,Terminal-Bench 2.0 达 77.3%、SWE-Bench Pro 57%
OpenAI 推出 GPT-5.3-Codex 编码模型,Terminal-Bench 2.0 得分 77.3%(超 GPT-5.2 64.0%和 Opus 4.6 65.4%)、OSWorld-Verified 64.7%、SWE-Bench Pro SOTA 57%。支持实时交互协作、任务中途转向、从零构建复杂游戏;token 消耗减半、速度提升 25%-40%(总 2.93 倍)。首个网络安全 High 能力模型,直接识别软件漏洞,承诺 1000 万美元 API 信用。Zed 通过 Codex ACP 适配器支持 Zed Pro 用户。企业首批客户包括 Uber、Intuit;用于自身开发调试,支持所有付费 ChatGPT 计划,API 即将上线。发布后 Anthropic 迅速推出竞品。
OpenBMB 发布 MiniCPM-o 4.5,支持非阻塞全双工语音对话
OpenBMB 推出 MiniCPM-o 4.5 大模型,首个开源全双工全模态 LLM,支持一边回答一边收听的实时语音交互,同时处理视觉、听觉和语音。可本地部署于 RTX 4090,C++高效版可用;OpenCompass 平均得分 77.6,多模态性能第一梯队。海外开发者好评,项目地址 https://t.co/DL4h3aNCPr。
OpenAI GPT-5 连接自主实验室,蛋白质生产成本降 40%
OpenAI 与 Ginkgo 合作,将 GPT-5 接入自主实验室,设计实验、执行 36,000+反应组合、跨越 580 自动化板,进行 6 次迭代闭环优化。将细胞游离蛋白合成成本降低 40%,识别人类未测试的低成本反应组合,推动生物工作流加速。
Kaggle 2026 游戏竞技场结果:GPT-5.2 赢扑克,Gemini 3 Pro 称霸狼人杀与象棋
Kaggle 首届 2026 游戏竞技场结束,GPT-5.2 获扑克冠军,Gemini 3 Pro Preview 赢得狼人杀与象棋。发布完整数据集、环境代码与日志,支持分析模型决策与自定义基准。
Cursor 发布长运行编码代理研究,峰值每小时 1000+提交
Cursor 分享长时编码代理实验,一周运行中峰值达数百代理每小时超 1000 次提交。系统模拟软件团队结构,包括规划者和工作者;强调实验性高成本,但预示软件开发变革。提供早期研究预览,支持 Cursor 内测试。
Laravel AI SDK 正式发布,支持代理、图像、音频等多功能
Taylor Otwell 发布 Laravel AI SDK,支持 agents、图像生成、音频转录、嵌入和 pg_vector,简化 Laravel 应用集成 AI 功能。4 周内稳定版发布,欢迎开源贡献。
Remote Labor Index:Opus 4.5 自动化 3.75%远程劳动项目
CAIS 发布 Remote Labor Index,Opus 4.5 自动化 3.75%远程劳动项目,GPT-5.2 位列第二。评估 AI 代理自动化数字劳动能力。
LlamaIndex 启动 Document Agent Olympics 竞赛,总奖池 600 美元
LlamaIndex 举办 Document Agent Olympics,构建文档代理处理 PDF、发票、简历等,3 周内最佳代理获 200 美元 x3。需部署 LlamaCloud。
OpenAI 推出 Frontier 平台,支持企业构建 AI 代理团队
OpenAI 发布 Frontier 平台,帮助企业构建、部署和管理 AI coworker,支持 Codex 驱动代理访问企业工具、共享上下文、持续学习和权限控制。整合 CRM、数据仓库等系统,缩短 POC 到生产时间。合作伙伴包括 Oracle、Uber、State Farm、Thermo Fisher、Intuit、HP;首批采用者有 T-Mobile、Cisco、BBVA。制造商称 6 周工作缩短至 1 天。
Perplexity 推出 Model Council,支持三模型并行推理
Perplexity 发布 Model Council,同时运行三个前沿模型,比较输出并合成更准确答案。现向 Max 订阅用户开放,仅限网页版。
VoyageAI 发布 voyage-4-nano 开源嵌入模型
VoyageAI 推出首款开源权重 voyage-4-nano 嵌入模型,与 voyage-4-large 共享嵌入空间,支持 MRL 和 int8 量化。Apache 2.0 许可,现于 Hugging Face 可用。
Skywork Desktop 推出本地 AI 协作者,支持多模型路由和 100+技能
Skywork_ai 发布 Windows 桌面应用,构建本地语义索引,支持 PDF/Docs/Slides 等文件查询。集成 Anthropic/Google 前沿模型,100+技能覆盖文档/网页/图像/视频生成,本地沙箱运行无云泄露风险。
Kling AI 3.0 正式发布,支持多镜头和原生音频
Kling AI 推出 3.0 版本和 Omni 3.0,支持 3-15 秒多镜头序列、多角色原生音频、视频角色参考和一致声音。Ultra 订阅用户立即可用,Higgsfield AI 平台提供访问。
ChatGPT 2026 年首月下载与月活双增长
ChatGPT 结束 2026 年 1 月,App 下载首现增长(此前三月连降),MAU 连续第二月增长。
mlx-lm 最新版支持 DeepSeek v3 加速,长上下文提升 2.5 倍
mlx-lm 更新添加 Kimi K2.5、Step3.5 flash 模型,支持分布式推理;DeepSeek v3 长上下文加速超 2.5 倍,内存效率更高。
10 种策略减少 MCP 令牌膨胀
Merge CTO Gil Feig 分享 MCP 工具膨胀优化策略:设计专注工具、最小化上下文、渐进披露、子代理等。Merge 团队观察工具元数据占 40-50%上下文,优化后令牌使用降 30-60%,提升响应速度。
Anthropic 工程博客:量化代理编码评估中的基础设施噪声
Anthropic 博客分析基础设施配置导致代理编码基准波动数个百分点,有时超过顶级模型间差距。Opus 4.6 展示自适应思考,减少延迟提升质量。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。