天眼日报

🤖 AI 大模型
MiniMax 发布 M2.5 开源模型,即将开源权重,SWE-Bench Verified 80.2%,Agent 总分提升 42.8%
MiniMax 官方宣布 M2.5 模型权重即将开源(REALLY, REALLY, SOON),此前 MiniMax-M2.5 被评为开源 SOTA 候选,支持 Pokémon + Minecraft 游戏构建。在 SWE-Bench(index split)排名第 1,SWE-Bench Verified 达 80.2%,Terminal Bench 2 排名第 2,Multi-SWE-Bench 第一,BrowseComp 76.3%,BFCL 76.8%,编程能力媲美 Claude Opus 4.6,支持全栈 Vibe Coding 和智能体任务,激活参数 10B,推理 100TPS,复杂任务执行速度提升 37%,每小时 1 美元支持 100 tps。实测 4000 万 token,指令遵循 80%部分正确率、65.9%完全正确,长文本召回 96.7%,Agent 总分 599 较 M2.1 提升 42.8%,输出速度稳定 100 token/s,Lightning 变体支持 196608 token 上下文。
ModelScope 开源 Ring-2.5-1T:首个混合线性 1T 思考模型
ModelScope 开源 Ring-2.5-1T,MoE 结构 63B 活跃参数,支持 Claude Code 和 OpenClaw。IMO25 得分 35/42,CMO25 105/126,长上下文 10x 低内存 3x 吞吐。
阿里通义实验室发布 Qwen-Image-2.0 开源图像生成模型及 Zvec 向量数据库
Ali_TongyiLab 发布 Qwen-Image-2.0 图像生成模型,并首次开源 Zvec 向量数据库,称为“SQLite of vector databases”,支持高性能 AI 基础设施部署。
OpenBMB 发布 MiniCPM-SALA 9B 开源模型,支持 1M token 上下文
OpenBMB 发布 MiniCPM-SALA-9B,Apache 2.0 许可,单 RTX 5090 GPU 运行 1M-2M token,推理速度提升 3.5 倍,RULER 基准 92.65(64K)。采用 75%线性注意力+25%稀疏注意力,从 MiniCPM-4.0 转换训练 2T token。
BIOS 生物医学 AI 科学家登顶 BixBench 基准
BIOS 发布世界级 AI 科学家,支持文献搜索、数据分析、多步研究工作流。BixBench 数据分析基准#1,人类在环控制,持久记忆,子代理协调。学术用户免费(.edu 邮箱)。
Claude Code CLI 2.1.41 更新修复多项问题
Claude Code CLI 2.1.41 新增 AWS auth 超时 3 分钟、Windows ARM64 支持、/rename 自动生成名称,修复文件读取阻塞、通知交付、权限等待计时等 10+问题。
智谱 GLM5 模型压缩至 241GB,256GB 内存即可本地运行
团队将智谱 GLM5 从 1.65TB 压缩到 241GB,256GB 统一内存 Mac 或 24GB 显存 GPU+256GB 内存 PC 即可运行,动态 8 位版需 1TB 内存顶级工作站。
月之暗面 Kimi K2.5 性能媲美 Claude Opus 4.6,称霸 OpenRouter 付费调用榜
Kimi K2.5 性能达 Claude Opus 4.6 水平,价格便宜 8 倍,成为 OpenClaw 最常用模型及 OpenRouters 整体第一,占据付费调用前十首位,调用量远超其他模型。
谷歌 Gemini 3 DeepThink 重大升级,姚顺宇参与多项基准创纪录
谷歌发布 Gemini 3 DeepThink 重大升级,清华姚顺宇参与核心开发。ARC-AGI-2 得分 84.6%刷新纪录,Codeforces Elo 3455 全球前 8,人类最后考试 48.4% SOTA,国际物理化学奥赛金牌水平,支持草图转 3D 打印文件。现向 Google AI Ultra 订阅用户开放,Gemini API 向研究人员开放。
OpenClaw 2026.2.12 发布,支持 GLM-5 和 MiniMax M2.5
OpenClaw 新版集成 GLM-5+MiniMax M2.5,新增 IRC 频道支持、40+安全修复、自定义提供商接入和压缩改进。
OpenAI 发布 GPT-5.3-Codex-Spark 超低延迟编程模型
OpenAI 与 Cerebras 合作推出 GPT-5.3-Codex-Spark,提供秒级响应开发者代码需求,上下文窗口 128k tokens,推理速度>1000 tokens/秒,运行于 WSE-3 硬件。目前向 ChatGPT Pro 用户开放,支持 Codex 应用、CLI 和 VS Code 扩展。
DeepSeek 处理 529 页科学书籍仅需 19 秒
DeepSeek 新模型处理 529 页科学书,Gemini 3 Pro 估算 296241 token,DeepSeek 思考 7 秒优于 Gemini(72 秒)。
Spotify 顶级开发者 12 月起零手动代码,使用 Claude Code 和 Honk 系统
Spotify 使用 Claude Code 和 Honk 系统,顶级开发者自 2025 年 12 月未写一行代码,2025 年发布 50+新功能,PR 审查时间降至 2-3 分钟。
OpenAI 计划在 ChatGPT 下架 GPT-4o
OpenAI 计划下架 GPT-4o,因新模型使用量达 99.9%。
智谱 AI GLM-5 在代理编码开源榜单领先
智谱 AI GLM-5(745 亿参数,44 亿激活)在代理编码媲美 Gemini 3.0 和 Codex,开源榜首,仅次 Opus 4.6。
Anthropic 完成 300 亿美元 G 轮融资,投后估值 3800 亿美元
Anthropic 宣布完成 300 亿美元 G 轮融资,由 GIC 和 Coatue 领投,微软追加 50 亿美元、英伟达承诺 100 亿美元,投后估值 3800 亿美元。Claude 年化收入达 140 亿美元,过去三年年增长超 10 倍,Claude Code 年化收入超 25 亿美元,贡献全球 4% GitHub 公开提交,每周活跃用户翻倍,500+客户年付超 100 万美元。
Google Gemini 团队发布官方技能库
Google Gemini 团队维护技能库,支持 Gemini API、SDK 和模型交互。
海致科技港股 IPO,总市值超 300 亿港元
海致科技港股上市,开盘涨 204%总市值 329 亿港元,2024 年营收 5.03 亿,Atlas 智能体营收 8660 万占 17.2%。高瓴 B/C/E 轮投资,募资用于图模融合技术优化及香港新加坡市场拓展。
AdaptEvolve:通过自适应模型选择提升演化 AI 代理效率
AdaptEvolve 框架利用生成置信度动态选择 LLM,在演化代理系统中平均降低 37.9%推理成本,同时保留 97.5%静态大模型基准精度。代码开源:https://github.com/raypretam/adaptive_llm_selection。
HyPO:缓解参考偏好优化中的不匹配问题
HyPO 修改 DPO,条件去偏参考信号,在悲观对中加强学习,提升推理对齐指标和成对胜率。保持 DPO 目标形式和计算成本。
RouterXBench:协作 LLM 系统中路由器的公平全面评估
RouterXBench 框架评估路由器能力、场景对齐和跨域鲁棒性。ProbeDirichlet 路由器在多域数据上训练,提升 16.68%路由能力。
Native Reasoning Training:LLM 在不可验证数据上原生推理训练
NRT 框架将推理过程视为潜在变量,使用标准 QA 对自生成推理轨迹。优于 SFT 和无验证器 RL,在复杂推理域提升显著。
Krause Synchronization Transformers:受有界置信共识动态启发的注意力机制
Krause 注意力用局部稀疏交互替换全局 softmax,促进结构化局部同步。在 ViT、生成和 LLM 上提升性能,序列长度线性复杂度。
苹果 Xcode 26.3 扩展支持编程智能体,接入 Claude Agent 和 Codex
苹果发布 Xcode 26.3,扩展编程智能体支持,接入 Anthropic Claude Agent 和 OpenAI Codex,新增协作、文档搜索、文件浏览、项目设置修改功能,支持 Model Context Protocol (MCP)集成第三方工具,仅限 macOS 26 Tahoe。
Gemini 模型常将当前事件视为假设情景
Gemini 3.0 Pro 在处理 2026 年事件时,常视作假设情景,内部思考中质疑搜索结果真实性,如将 Pete Hegseth 任战争部长或 JD Vance 主持节目视为虚构,需额外推理确认现实。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。