天眼早报

科技|2026年04月25日|约 123 分钟阅读

来源：1543 条推文 + 239 篇 RSS 文章·Lanyun·BatchV2 生成·2026-04-24 — 2026-04-25

AI 速读17 条精选

🤖 AI 大模型

𝕏 DeepSeek-V4 Preview 正式开源，发布 V4 Pro 与 V4 Flash

DeepSeek 正式开源 DeepSeek-V4 Preview，同步推出 V4 Pro 与 V4 Flash 两档新架构模型，API、权重与技术报告当日一并开放。该系列主打 100 万 token 长上下文与更低成本：V4 Pro 总参数约 1.6T、激活参数 49B，在 Artificial Analysis 智能指数达到 52，重回开源权重模型前列；V4 Flash 则面向更高性价比与更低部署门槛。

𝕏 DeepSeek-V4 Pro 前端生成与代码平台适配同步推进

测试者以“大象牙膏”案例评估 DeepSeek-V4-Pro，认为其在建模、粒子与物理模拟上的表现较 V3 系列明显提升，但在玻璃材质等参数遵循上仍有不足。与此同时，Together AI 已上线 DeepSeek V4 Pro，提供 三种推理模式、长上下文与混合注意力，并披露 93.5% LiveCodeBench、80.6% SWE-Bench Verified 等指标，显示其正快速进入开发者实战平台。

𝕏 GPT-5.5 正式发布，已进入 ChatGPT、Codex 与 API

OpenAI 正式发布 GPT-5.5，定位为面向真实工作的代理模型，强调复杂目标理解、工具调用与自检能力。该模型已接入 ChatGPT 与 Codex，并与 GPT-5.5 Pro 一同上线 API，支持 100 万上下文窗口，可用于 Responses 与 Chat Completions 接口。多家平台随后快速适配，标志其已从发布阶段直接进入开发者生产使用阶段。

𝕏 小米 MiMo V2.5 Pro 进入开源权重模型第一梯队

小米 MiMo V2.5 Pro 在 Artificial Analysis Intelligence Index 中获得 54 分，追平 Kimi K2.6，进入开源权重模型第一梯队。其上下文长度达到 100 万 token，总参数约 1T、激活参数 42B，API 定价为每百万输入/输出 1/3 美元，显示小米在大模型能力、长上下文和定价策略上都已具备较强竞争力。

𝕏 谷歌据称拟向 Anthropic 追加最高 400 亿美元投资

据路透与 FT 消息，Google 拟先向 Anthropic 投资 100 亿美元，并在达成业绩条件后再追加 300 亿美元，对应估值基准约 3500 亿美元。若成真，这将是 AI 基础模型阵营中又一笔超大规模资本下注，也将进一步巩固 Google 与 Anthropic 在算力、分发和模型生态上的深度绑定。

𝕏 OpenAI 推出 ChatGPT for Clinicians，并发布医疗评测基准

OpenAI 宣布推出免费版 ChatGPT for Clinicians，面向真实临床对话与医疗工作流场景；同时发布医疗评测基准 HealthBench Professional。这表明 OpenAI 正尝试把通用模型能力进一步产品化到专业垂直领域，并以专门基准来衡量模型在高风险医疗场景中的可用性。

𝕏 GPT-5.5 被多家推理与网关平台接入，Perplexity 将其设为 Computer 默认编排模型

在模型分发与调用平台侧，OpenRouter、Cloudflare AI Gateway、Vercel AI Gateway、Arena 等已相继上线 GPT-5.5 或 GPT-5.5 Pro。其中 Perplexity 宣布向 Max 用户开放 GPT-5.5，并逐步将其设为 Computer 的默认编排模型，覆盖 Pro 与 Max 用户；公司还称，在内部复杂工作流中，使用 GPT-5.5 可使 token 用量减少 56%，体现其在多智能体编排中的成本优势。

𝕏 GPT-5.5 快速进入微软与开发者工具生态

GPT-5.5 发布后迅速扩散至主流工具链。微软表示其已开始向 GitHub Copilot、M365 Copilot、Copilot Studio、Foundry 滚动上线；Cursor 也已接入，并给出限时 5 折 优惠。与此同时，Windsurf 2.0、Cline、Warp Agent、Devin、Notion、Hermes Agent 等产品均已支持或宣布接入，显示 GPT-5.5 正迅速成为通用 Agent 与知识工作场景的新默认模型之一。

𝕏 DeepSeek-V4 Flash 本地部署与生态接入加速

DeepSeek-V4 Flash 的本地运行配置已被披露：在 4×RTX 6000 条件下可无压缩运行，实测约 38.6 tok/s 解码、2000 tok/s 预填充，并支持 40 万上下文。生态侧，Ollama Cloud 已上线 deepseek-v4-flash，支持与 Claude Code、OpenClaw、Hermes 集成调用，说明其不仅面向云端 API，也正快速进入本地与工具链生态。

𝕏 DeepSeek-V4 Pro 进入模型榜前列，GLM-5.1、Kimi-K2.6 同列开源强者

Text Arena 最新开源模型榜显示，GLM-5.1 位列开源第 1、总榜第 15；新发布的 DeepSeek-V4-Pro 首发即进入总榜第 20；Kimi-K2.6 位列总榜第 26。榜单还显示三者在医疗、中文、数学等细分任务上各有领先，说明开源模型竞争已从单一总分转向多能力维度。

𝕏 DeepSeek V4 Pro 性价比受关注：价格远低于 GPT-5.4，Flash 成本更低

围绕 DeepSeek V4 Pro 的首批对比显示，其输入价格约 0.14 美元/M tokens，显著低于 GPT-5.4 与 Claude Opus 4.6 等前沿闭源模型。进一步比较还显示，V4 Flash 与 V4 Pro 均支持 100 万 token 上下文，但 Flash 首发价格约为 Pro 的 1/12，体现出 DeepSeek 在长上下文与成本控制上的双路线布局。

𝕏 DeepSeek-V4 技术细节曝光：长上下文降本与部署规格进一步明确

围绕 DeepSeek-V4 的技术信息持续披露：论文称在 100 万 token 上下文下，单 token 计算约降至 V3.2 的 27%，KV cache 约为 10%；同时，DeepSeek V4 Pro 采用 FP4+FP8 混合检查点，可适配单台 8×B200 节点推理。另有面向智能体场景的规格披露指出，V4 Pro 具备 1.6T 参数 与超长上下文能力，显示其设计重点已明显偏向长任务与 Agent 工作流。

𝕏 Anthropic 发布 Project Deal，研究 AI 代理在内部市场中的谈判行为

Anthropic 发布研究项目 Project Deal，在旧金山办公室搭建内部市场，让 Claude 代理员工进行买卖与谈判，以观察 AI 代理在市场机制中的优势、失灵点与协作方式。这项研究把关注点从单体模型能力转向多代理交互与经济行为，为 Agent 在企业采购、协商与资源分配中的实际应用提供了实验样本。

𝕏 Yansu App 发布：本地记录操作与会议，自动沉淀为应用和自动化

Yansu App 正式发布，主打在本地采集 操作记录 与 会议内容，并将其自动沉淀为应用、Automation、知识与记忆。产品定位偏向个人效率与主动式 AI 助手，希望把用户在电脑上的真实行为转化为可复用的流程和工具，而不是只停留在聊天式交互。

𝕏 GPT-5.5 在代码与文档评测中表现强势，但 OCR 成本偏高

第三方评测显示，GPT-5.5 在开发与理解类任务中延续强势表现：其在 Terminal-Bench 取得 82.7 分，超过部分未公开预览模型；在 ParseBench 中的表格与 视觉定位 项目领先。不过，文档理解场景的成本也受到关注，其中中等思考模式每页 OCR 成本约 13 美分，0-thinking 模式约 5.93 美分，意味着其在高质量解析之外仍需权衡价格。

𝕏 Google DeepMind 研究显示“先思考再回答”可降低模型给出欺骗性建议

Google DeepMind 在 ICLR 2026 展示研究称，允许模型先进行内部推理再输出答案，能够降低其推荐欺骗性行为的概率。该结果为“推理过程是否应被鼓励”提供了安全层面的支持，也说明提升模型思考步骤不仅影响准确率，还可能影响其行为边界与对齐表现。

𝕏 本地 Qwen3.6-27B 在 MacBook 上展现接近闭源编程模型的可用性

开发者称，在 MacBook Pro 上通过 Llama.cpp 运行 Qwen3.6-27B 并接入 Pi coding agent 后，处理 Hugging Face 代码库时已接近最新闭源编程模型的实用水平。这一案例再次说明，中等规模开源模型在本地设备上的工程可用性正在快速提升。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情