天眼早报
🤖 AI 大模型
𝕏 LMSYS 披露 DeepSeek V4 首日适配细节:B200/H200 上高吞吐,900K 上下文仍保持性能
LMSYS发布 DeepSeek V4 技术博客:V4 Pro 1.6T 在 B200 上达 199 tok/s,V4 Flash 284B 在 H200 上达 266 tok/s;并称在 900K 上下文 下吞吐仍可维持 180/240 tok/s。该结果展示了 DeepSeek V4 在新一代 GPU 与超长上下文场景下的高效推理能力,也为生产部署提供了较清晰的性能参考。
𝕏 微软发布 DELEGATE-52 基准:前沿模型在长文档工作流中平均破坏 25% 内容
Microsoft推出DELEGATE-52,覆盖52 个专业领域的长文档编辑流程。测试 19 个模型 后发现,包括 Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4 在内的前沿模型,最终平均破坏 25%文档内容,且代理式工具调用未带来改善,暴露出当前模型在复杂长文档编辑与工作流执行中的稳定性短板。
𝕏 腾讯发布混元 Hy3 Preview:295B 参数、256K 上下文,支持快慢思考融合
腾讯混元发布Hy3 Preview,采用 295B 参数/21B 激活 的 MoE 架构,支持 256K 上下文 与快慢思考融合;官方披露其在 FrontierScience-Olympiad 达 70.0、GPQA-Diamond 达 87.2,显示其在长上下文与高难度推理任务上的综合能力。
𝕏 Sakana AI 提出 TRINITY:用少于 2 万参数协调多模型协作,刷新 LiveCodeBench
Sakana AI在 ICLR 2026 论文中提出 TRINITY,用少于 2 万 可学习参数协调多模型分别担任 Thinker、Worker、Verifier,在 LiveCodeBench 取得 86.2% pass@1,并可零样本迁移到 AIME、GPQA 等任务。该方法显示,轻量级协调器也能显著放大多模型协作效果。
𝕏 DeepSeek V4-Pro API 限时降价 75%,并开放 100 万上下文接入
DeepSeek宣布V4-Pro API在5 月 5 日前限时降价 75%,价格降至每百万 token 约 0.43/0.87 美元;同时更新接入能力,Claude Code 可启用 100 万 token 上下文,OpenCode v1.14.24+ 与 OpenClaw v2026.4.24+ 已支持。按开发者测算,优惠后 100 万输出约 6 元,明显降低长上下文与 Agent 场景的使用门槛。
𝕏 Qwen-Image-2.0-Pro 正式上线,并在 ModelScope 开放 Demo
阿里巴巴 Qwen 宣布 Qwen-Image-2.0-Pro 上线,主打多语言文字渲染、图像质量升级、风格一致性与更强指令遵循;产品已在 ModelScope 开放 Demo,并同步提供 API 入口,在 Arena 文生图榜单位列第 9,显示其在中文与多语言图文生成场景中的竞争力。
𝕏 LisanBench:GPT-5.5-medium 成为最强非思考模型
GPT-5.5-medium 在 LisanBench 两项指标中登顶非思考模型,较 GPT-5.4-medium 平均少用 45.6% token,难度加权得分提升 1.14 倍,合法有效率达 99.44%。结果表明其在不启用思维链强化的前提下,兼顾了效率、质量与稳定性。
𝕏 DeepSeek V4-Pro 宣称显著降低 100 万上下文推理成本
DeepSeek V4-Pro 在 100 万上下文 下,每 token 计算量仅为 V3.2 的 27%,KV Cache 降至 10%,意味着单卡可承载更多并发用户,并降低长会话 Agent 与超长上下文推理的部署成本。
𝕏 GitHub Copilot Pro+ 接入 GPT-5.5
GitHub Copilot Pro+ 已上线 GPT-5.5,计费倍率为 7.5x,意味着开发者可在 Copilot 高阶套餐中直接调用新模型能力,但需权衡性能提升与成本增加。
𝕏 GPT-5.5 在 APEX-Agents 榜单居首,投行与咨询任务领先
GPT-5.5在APEX-Agents获得38.4% Pass@1与53.9%均分,在投行与咨询类代理任务中位居榜首,说明其在结构化商业分析、任务执行与多步骤决策方面具备较强竞争力。
𝕏 Qwen 3.6 27B 以更低活跃参数逼近 DeepSeek V4 Flash 表现
Qwen 3.6 27B在Artificial Analysis指数中仅落后DeepSeek V4 Flash 284B 1 分,显示其以更小规模与更低活跃参数,已逼近大型稀疏模型的综合表现,体现出较高的参数效率。
𝕏 GPT-5.5 高档位性价比仍低于 Sonnet
GPT-5.5 xhigh 虽然提价,但按 Artificial Analysis Index 测算,整体性价比仍优于 Sonnet,说明其高档位版本在价格上升后仍保有一定竞争力。
𝕏 ChatGPT 桌面版新增语音输入
ChatGPT 桌面版已支持 语音输入,用户可直接口述生成文本,进一步简化桌面端的人机交互流程,适合快速记录、写作与轻量办公场景。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。