天眼日报

🤖 AI 大模型
Anthropic 完成 300 亿美元 G 轮融资,估值达 3800 亿美元
Anthropic 官方宣布完成 300 亿美元 Series G 融资,由 GIC 和 Coatue 领投,后估值 3800 亿美元,总融资达 640 亿美元。年化收入达 140 亿美元,过去 3 年每年增长超 10 倍;500 家客户年花费超 100 万美元,8 家财富 10 强企业使用 Claude。Claude Code 年化收入超 25 亿美元。资金用于研究、产品创新和基础设施扩展。
OpenAI 发布 GPT-5.3-Codex-Spark 超低延迟编码模型,速度超 1000 token/s
OpenAI 推出 GPT-5.3-Codex-Spark(约 700B@30B 参数)研究预览版,专为实时编码优化,在 Cerebras 硬件上运行,流式输出超 1000 token/s,128K token 上下文。Terminal-Bench 2.0 得分 58.4%,SWE-Bench Pro 准确率 46%-52%(最高 51%,仅需 2.3 分钟)。限 ChatGPT Pro 用户在 Codex app/CLI/IDE 测试,后续融合长任务与实时交互,支持快速构建应用。
Google Gemini 3 Deep Think 升级,ARC-AGI-2 达 84.6%创多项基准新纪录
Google DeepMind 发布 Gemini 3 Deep Think 升级版,ARC-AGI-2 得分 84.6%(从 45.1%提升,仅 3 个月),Humanity’s Last Exam 无工具 48.4%,Codeforces Elo 3455(超人类第 8),MMMU-Pro 81.5%,原 ARC-AGI-1 达 96%。支持开放数学研究、设计 3D 打印组件、优化半导体晶体生长(Duke 大学 Wang Lab 生长超 100μm 薄膜,Google R&D 设计涡轮叶片速度提升 10 倍)、物理/化学/IMO 金牌水平。现向 Gemini AI Ultra 订阅者和 Vertex AI 早期访问开放。
MiniMax 发布 M2.5 开源模型,SWE-Bench Verified 达 80.2%登顶 Code Arena
MiniMax 推出 M2.5 开源前沿模型,SWE-Bench Verified 80.2%(最快达 80%模型),Multi-SWE-Bench 51.3%(超 Opus 4.6 的 50.3%),BrowseComp 76.3%,BFCL 76.8%,VIBE-Pro 与 Opus 4.5 持平。与 Opus 4.5/4.6 正面竞争甚至胜出,复杂任务 37%更快,速度匹配 Claude Opus 4.6,解码成本仅其 1/6。Cline 集成达 SOTA,100 tokens/s,10B 激活参数,混合成本$0.06/M。Ollama 合作免费试用,支持 OpenCode/Claude Code/Codex/OpenClaw,OpenRouter 上线(输入 0.30 美元/百万 token,输出 1.20 美元/百万 token),限时免费。期待 MiniMax-M3 开源。
智谱 AI 发布 GLM-5 开源模型,登顶全球开源第一支持国产算力
智谱 AI 推出 GLM-5 前沿开源 MoE 模型,参数 744B(活跃 40B),专家规模 2048、数量 256,预训练 28.5T token,使用多头潜在注意力及 DeepSeek 稀疏注意力。SWE-Bench Verified 77.8%、Terminal Bench 2.0 56.2%,Code Arena 开源 No.1(总榜#6),优于 GLM-4.5,与 Opus 4.6 相当。在 Fireworks 日 0 可用,5 倍便宜、2 倍吞吐,202k 上下文。支持 Apple Silicon MLX 部署(M3 Ultra Q4 生成 Space Invaders 游戏,15.4 tok/s),国产芯片(华为昇腾、摩尔线程等 7 家,1000 TFLOPS 单卡),单 RTX 5090 或 A6000D 处理 1M-2M token。25 分钟一镜到底构建 X 平台监控系统/Next.js 全栈/MacOS App。结合 OpenClaw 构建 AI 女友(自拍语音、服务器操作)。Coding Plan Max 用户开放,权重 Hugging Face/Kilo CLI 免费。
Seedance 2.0 超越 Sora 2 Pro 和 Veo 3.1,成为当前最佳 AI 视频模型
字节跳动推出 Seedance 2.0 视频模型,支持生成广告、3D 游戏、动漫及不可能场景,多模态输入、多镜头长叙事,性能超越 Sora 2 Pro 和 Veo 3.1。马斯克称其发展速度太快,已接入豆包和即梦。提供 10 个示例与提示词。
Cursor 推出长运行代理,支持更大任务
Cursor 官方发布长运行代理,支持 Ultra、Teams 和 Enterprise 计划。新 harness 机制优化上月研究,让代理完成更大任务。
PyTorch 采用 Pyrefly 类型检查,加速 10 倍
PyTorch 核心仓库迁移 Pyrefly 类型检查,替换 MyPy,基准测试从 50.6 秒降至 5.5 秒,统一配置并发现代码 bug。
OpenAI 指 DeepSeek 蒸馏其模型获竞争优势
OpenAI 备忘录称 DeepSeek 持续蒸馏美方模型训练 R1 聊天机器人,提供不公平优势。
OpenBMB 发布 MiniCPM-SALA 9B 模型,支持单 RTX 5090 上 1M token 上下文
MiniCPM-SALA 采用 75%线性注意力+25%稀疏注意力混合,单 RTX 5090 处理 1M-2M token,RULER@1M 得分 86.3%。推理速度 3.5 倍提升,HumanEval 95.12%,AIME24 83.75%。在 A6000D GPU 上 256K token 推理比 Qwen3-8B 快 3.5 倍,支持 5090 级消费级 GPU。Apache 2.0 许可,Hugging Face 可用,SOAR 竞赛 10 万美元奖金。
TinyFish Web Agent 在 Mind2Web 基准达 90%
TinyFish Web 代理在 Mind2Web 基准 90%,超 Gemini 21 分、OpenAI 29 分、Anthropic 34 分。公开 300 任务运行数据,支持并行执行。
StepFun 发布 Step 3.5 Flash MoE 模型,AIME 2025 达 97.3%
StepFun 发布 196B 参数 MoE 模型,每 token 激活 11B,推理成本仅 GPT-5.2 xHigh/Gemini 3.0 Pro 的 1/6,MathArena 排名#1,AIME 2025 得分 97.3%。
OpenAI Codex Pro 计划推出特别功能
Sam Altman 宣布 Codex Pro 计划用户今日晚些获特别功能,激发喜悦,预计用户喜爱。结合近期 GPT-5 传闻,或推动编码代理革命。
OpenAI 工程师 Sherwin Wu:95%工程师每天用 Codex,每人管理 10-20 个 AI 代理
OpenAI API 工程负责人 Sherwin Wu 透露,95%工程师每天使用 Codex,每人管理 10-20 个并行 AI 代理。代码审查时间从 10 分钟降至 2 分钟,企业 AI 部署多为负 ROI。
BIOS 推出世界级生物医学 AI 科学家
BIOS 协调子代理进行文献搜索、数据分析、多步研究工作流,在 BixBench 数据分析基准排名第 1,超越所有 AI 科学家模型。支持人类循环控制、持久内存,学术用户免费。
OpenClaw 模型选型经验:优先选择 Opus 以提升体验
OpenClaw 实测显示 Opus 模型体验最佳,能有效指挥任务;GPT-4 和 Gemini 易跑偏需兜底。模型匹配后系统效率显著提升。
DeepWiki+MCP 提炼 torchao fp8 训练代码,性能提升 3%
DeepWiki 结合 MCP 和 GitHub CLI 从 torchao 提取 fp8 训练功能,自包含 150 行代码,测试等效且 torch compile 下快 3%。
Claude 新增代码沙盒执行、对话历史 Web 界面及 50 人组织级代码能力
Anthropic 为 Claude 添加代码沙盒执行 Python,支持可视化输出;Web 界面查看 Claude Code 对话历史。新增 50 人组织级代码能力,支持文件组织、PPT/Excel 构建、合同审查等,Claude Code 技能表提供完整配置。
OpenClaw 开启 AI 原生应用后端转型
OpenClaw 采用 Pi Agent 框架,推动 AI 原生应用后端架构转型,支持浏览器服务 CDP 协议,补足小龙虾在浏览器端的短板。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。