天眼早报

科技|2026年04月26日|约 87 分钟阅读

来源：1084 条推文 + 146 篇 RSS 文章·Lanyun·BatchV2 生成·2026-04-25 — 2026-04-26

AI 速读15 条精选

🤖 AI 大模型

𝕏 LMSYS 披露 DeepSeek V4 首日适配细节：B200/H200 上高吞吐，900K 上下文仍保持性能

LMSYS发布 DeepSeek V4 技术博客：V4 Pro 1.6T 在 B200 上达 199 tok/s，V4 Flash 284B 在 H200 上达 266 tok/s；并称在 900K 上下文 下吞吐仍可维持 180/240 tok/s。该结果展示了 DeepSeek V4 在新一代 GPU 与超长上下文场景下的高效推理能力，也为生产部署提供了较清晰的性能参考。

𝕏 微软发布 DELEGATE-52 基准：前沿模型在长文档工作流中平均破坏 25% 内容

Microsoft推出DELEGATE-52，覆盖52 个专业领域的长文档编辑流程。测试 19 个模型 后发现，包括 Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4 在内的前沿模型，最终平均破坏 25%文档内容，且代理式工具调用未带来改善，暴露出当前模型在复杂长文档编辑与工作流执行中的稳定性短板。

𝕏 腾讯发布混元 Hy3 Preview：295B 参数、256K 上下文，支持快慢思考融合

腾讯混元发布Hy3 Preview，采用 295B 参数/21B 激活 的 MoE 架构，支持 256K 上下文 与快慢思考融合；官方披露其在 FrontierScience-Olympiad 达 70.0、GPQA-Diamond 达 87.2，显示其在长上下文与高难度推理任务上的综合能力。

𝕏 Sakana AI 提出 TRINITY：用少于 2 万参数协调多模型协作，刷新 LiveCodeBench

Sakana AI在 ICLR 2026 论文中提出 TRINITY，用少于 2 万 可学习参数协调多模型分别担任 Thinker、Worker、Verifier，在 LiveCodeBench 取得 86.2% pass@1，并可零样本迁移到 AIME、GPQA 等任务。该方法显示，轻量级协调器也能显著放大多模型协作效果。

𝕏 DeepSeek V4-Pro API 限时降价 75%，并开放 100 万上下文接入

DeepSeek宣布V4-Pro API在5 月 5 日前限时降价 75%，价格降至每百万 token 约 0.43/0.87 美元；同时更新接入能力，Claude Code 可启用 100 万 token 上下文，OpenCode v1.14.24+ 与 OpenClaw v2026.4.24+ 已支持。按开发者测算，优惠后 100 万输出约 6 元，明显降低长上下文与 Agent 场景的使用门槛。

𝕏 Qwen-Image-2.0-Pro 正式上线，并在 ModelScope 开放 Demo

阿里巴巴 Qwen 宣布 Qwen-Image-2.0-Pro 上线，主打多语言文字渲染、图像质量升级、风格一致性与更强指令遵循；产品已在 ModelScope 开放 Demo，并同步提供 API 入口，在 Arena 文生图榜单位列第 9，显示其在中文与多语言图文生成场景中的竞争力。

𝕏 LisanBench：GPT-5.5-medium 成为最强非思考模型

GPT-5.5-medium 在 LisanBench 两项指标中登顶非思考模型，较 GPT-5.4-medium 平均少用 45.6% token，难度加权得分提升 1.14 倍，合法有效率达 99.44%。结果表明其在不启用思维链强化的前提下，兼顾了效率、质量与稳定性。

𝕏 DeepSeek V4-Pro 宣称显著降低 100 万上下文推理成本

DeepSeek V4-Pro 在 100 万上下文 下，每 token 计算量仅为 V3.2 的 27%，KV Cache 降至 10%，意味着单卡可承载更多并发用户，并降低长会话 Agent 与超长上下文推理的部署成本。

𝕏 GitHub Copilot Pro+ 接入 GPT-5.5

GitHub Copilot Pro+ 已上线 GPT-5.5，计费倍率为 7.5x，意味着开发者可在 Copilot 高阶套餐中直接调用新模型能力，但需权衡性能提升与成本增加。

𝕏 GPT-5.5 在 APEX-Agents 榜单居首，投行与咨询任务领先

GPT-5.5在APEX-Agents获得38.4% Pass@1与53.9%均分，在投行与咨询类代理任务中位居榜首，说明其在结构化商业分析、任务执行与多步骤决策方面具备较强竞争力。

𝕏 Qwen 3.6 27B 以更低活跃参数逼近 DeepSeek V4 Flash 表现

Qwen 3.6 27B在Artificial Analysis指数中仅落后DeepSeek V4 Flash 284B 1 分，显示其以更小规模与更低活跃参数，已逼近大型稀疏模型的综合表现，体现出较高的参数效率。

𝕏 GPT-5.5 高档位性价比仍低于 Sonnet

GPT-5.5 xhigh 虽然提价，但按 Artificial Analysis Index 测算，整体性价比仍优于 Sonnet，说明其高档位版本在价格上升后仍保有一定竞争力。

𝕏 ChatGPT 桌面版新增语音输入

ChatGPT 桌面版已支持 语音输入，用户可直接口述生成文本，进一步简化桌面端的人机交互流程，适合快速记录、写作与轻量办公场景。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情