04月24日 · 科技晚报

天眼晚报

科技|2026年04月24日|148 分钟阅读
来源:1730 条推文 + 515 篇 RSS 文章·Lanyun·BatchV2 生成·2026-04-24
分享
AI 速读17 条精选

🤖 AI 大模型

𝕏 DeepSeek 正式发布并开源 V4 Preview:Pro/Flash 双版本、100 万上下文与 MIT 许可同步上线

DeepSeek正式发布并开源DeepSeek-V4 Preview,提供 V4-Pro(总参数 1.6T、激活 49B)与 V4-Flash(总参数 284B、激活 13B)两个版本,均默认支持100 万 token上下文,并同步开放 API、技术报告、模型权重与下载页。多方信息显示其训练规模约为 32T-33T tokens,并采用 MIT 许可开放模型与内核,定位新一代旗舰级开源平台,重点面向代码、推理与 Agent 场景。

𝕏 GPT-5.5 公布更多能力与成本信息:支持视频输入,API 较 GPT-5.4 翻倍

除基础发布外,GPT-5.5 还披露了更完整的能力与定价信息。相关报道称其新增视频输入能力,并支持 1M 上下文;API 定价较 GPT-5.4 上涨约 100%,示例口径为输入 5 美元、输出 30 美元(每百万 token)。Sam Altman 的解释是,更强的推理与结果质量可能减少重试和 token 消耗,从而降低总体使用成本。另有评测显示其在代码审查中问题发现率达到 79.2%,并在大规模电子表格任务上表现突出。

𝕏 GPT-5.5 正式发布并接入 ChatGPT、Codex:主打真实工作、Agent 执行与编程能力

OpenAI 正式发布 GPT-5.5,已上线 ChatGPTCodex,并向 Plus、Pro、Business、Enterprise 等用户开放。官方强调其更擅长理解复杂目标、执行多步骤任务、调用工具并进行自我检查,定位面向真实工作流与智能体任务。评测信息显示,GPT-5.5Terminal-Bench 2.0 达到 82.7%、在 SWE-Bench Pro 达到 58.6%,并突出其编程与 Agentic 执行能力。

DeepSeek V4 适配国产与多元算力生态:昇腾 Supernode、华为 NPU 与 8 款芯片完成接入

DeepSeek V4 发布后迅速推进多平台适配。公开信息显示,华为昇腾 Supernode 将支持 DeepSeek V4,并有报道强调其兼容华为昇腾 NPU 与英伟达 GPU。与此同时,智源 FlagOS 已完成 DeepSeek-V4-Flash8 款 AI 芯片 上的 Day0 全量适配,覆盖昇腾、海光、沐曦、英伟达等,并实现全算子替代、独立张量并行与 FP4+FP8 精度转换,表明 V4 正加速进入国产异构算力生态。

𝕏 DeepSeek V4 获推理框架首日支持:vLLM、SGLang 与 ModelScope 同步跟进

围绕 DeepSeek V4 的生态适配迅速展开。vLLM 宣布对 DeepSeek V4 Pro/Flash 提供 Day-0 支持,面向100 万 token任务,并披露在 1M 上下文下单层 KV 状态可大幅缩小;SGLang 也同步宣布 Day-0 优化支持,包含 ShadowRadix 前缀缓存、10x 压缩内核加速与 15µs TopK 索引;同时 ModelScope 上线 DeepSeek-V4 四个开源权重,包含 Pro、Flash 及两个 Base 版本,并提供 Non-Think/Think High/Think Max 三种推理模式。

𝕏 Anthropic 修复 Claude Code 三大问题,恢复高强度推理并重置额度

Anthropic 确认并修复导致 Claude Code 性能退化的三项工程问题,涉及推理强度误调、缓存或上下文保留逻辑漏洞,以及系统提示词/交互策略修改。修复后默认恢复 xhigh 高强度推理,并在 v2.1.116 前后完成主要调整,同时重置用户订阅额度,回应此前关于“降智”和额度消耗过快的争议。

𝕏 DeepSeek V4 在多项基准进入开源前列:VCB 开源第一、Vals Index 第二、GDPval-AA 登顶

DeepSeek V4 发布后迅速在多项评测中跻身开源前列。综合多条信息,V4 ProGDPval-AA 得分 1554、超过多款开源对手;在 Vibe Code Benchmark 成为开源第一;在 Vals Index 排名第 2,与 Kimi K2.6 差距仅 0.07%;在 Text Arena 达到开源第 2、Code Arena 达到开源第 3。另有披露称其相较 V3.2 在 VCB 得分从 5% 提升近 10 倍,显示代码与通用能力显著跃升。

𝕏 DeepSeek V4 公布定价与产品细节:Flash 最低每百万输入 0.2 元,旧版模型将于 7 月 24 日下线

围绕 DeepSeek V4 的产品信息进一步披露:V4-Pro1.6T/49BV4-Flash284B/13B,并给出 API 定价。综合不同口径,Flash 缓存命中输入最低可至 0.2 元/百万 token,国际口径约为输入 $0.14/百万 tokens、输出 $0.28/百万 tokensPro 输入约 1 元/百万 token、输出 24 元/百万 token。同时官方还披露旧版模型将于 7 月 24 日下线,突出其以低成本长上下文能力争夺高性价比市场。

𝕏 xAI 发布 Grok Voice Think Fast 1.0,主打低延迟复杂语音工作流

xAI 推出 Grok Voice Think Fast 1.0,强调复杂多步骤语音工作流、低延迟响应与高准确率,并称其在 Tau Voice Bench 取得第一。另有信息显示,Grok Voice 已用于 Starlink 相关场景,表明 xAI 正将语音模型从能力展示推进到实际应用。

𝕏 DeepSeek V4 强化长上下文架构:1M 场景下 FLOPs 降至 V3.2 的 27%,KV Cache 仅为 10%

技术解读显示,DeepSeek V4 为实现100 万 token长上下文,引入了 DSA 稀疏注意力、token 压缩与 hybrid attention 等机制。公开信息称,在 1M 上下文场景下,其单 token 推理 FLOPs 可降至 V3.2 的 27%KV Cache 压缩到约 10%,显著改善长文本推理和多并发部署效率。另有信息显示 V4 Pro 采用 FP4 为主,模型体积进一步收缩,整体体现出其在长上下文成本控制上的系统级优化。

𝕏 DeepSeek V4 扩展 Agent 与云端可用性:兼容主流接口,Ollama 与 EasyClaw 已接入

围绕 DeepSeek V4 的应用层集成也在快速推进。公开信息称,DeepSeek V4 已针对 Claude CodeOpenClaw 等 Agent 工具优化,并兼容 OpenAIAnthropic 接口格式。此后 Ollama 上线云端托管 DeepSeek-V4-Flash支持通过 Claude CodeOpenClawHermes 等 Agent 平台直接调用,并可通过 ollama launch 一键启动多智能体工作流;国内版 EasyClaw 也已接入 DeepSeek V4

𝕏 Kimi K2.6 在视觉与文档评测中升至开源第一

Kimi K2.6 在多项 Arena 榜单中继续上升:其在 Vision ArenaDocument Arena 均排名开源模型第 1,其中 Document Arena 相比此前提升 14 分,总榜达到第 8。相关评价认为,其长文档分析能力已接近 Muse SparkGemini 3.1 Pro,显示 Kimi 在多模态理解与文档任务上的竞争力持续增强。

𝕏 腾讯混元开源 Hy3 预览版:295B/21B 激活,聚焦推理、Agent 与代码能力

腾讯混元宣布开源 Hy3 preview,模型规模为 295B / 21B 激活,上下文长度 256K,主打推理与 Agent 场景。相关信息显示,该版本获得 vLLM Day-0 支持,并采用混合快慢思考的 MoE 设计,官方称此次重建重点提升了编码与 Agent 能力,模型与文档已同步开放供开发者试用反馈。

GitHub 暂停 Copilot 个人新订阅,并改为限制会话数与每周 token 用量

GitHub Copilot 暂停个人新注册,并收紧使用规则,改为限制会话数每周 token 用量。官方解释称,长时并行的 agent 工作流已对基础设施和定价结构形成明显压力,这也反映出 AI 编程助手在大规模 Agent 化使用后的成本约束。

𝕏 蚂蚁 Ling 2.6 Flash 上线:生成速度最高 340 tokens/s,并提供 1T 版本

AntLingAGI 旗下模型更名为 ling-2.6-flash,最高生成速度达 340 tokens/s,并上线 1T 版本。官方表示月底前可免费使用,之后保留每日 50 万 tokens 免费额度,主打高吞吐、低门槛体验。

𝕏 ModelScope 上线 MiMo-V2.5-ASR,覆盖方言、中英混说与复杂真实语音场景

ModelScope 上线端到端语音识别模型 MiMo-V2.5-ASR,覆盖吴语、粤语、闽南语、四川话等方言,并支持中英混说、歌词识别、噪声环境、多人重叠对话及专业名词场景。该模型面向更复杂、更接近真实生产环境的语音识别需求。

🔶 Cohere 拟收购 Aleph Alpha,施瓦茨集团计划参与 6 亿美元 E 轮融资

Cohere 计划收购德国 AI 公司 Aleph Alpha,其主要投资方施瓦茨集团还拟向 Cohere 即将启动的 6 亿美元 E 轮融资 注资。若交易推进,将是欧洲企业级 AI 与北美大模型公司之间的重要整合动作。

𝕏 Sakana AI 推出 Fugu Beta,多智能体编排系统提供 OpenAI 兼容 API

Sakana AI 发布 Fugu Beta,提供 Fugu MiniFugu Ultra 两档模式,并支持 OpenAI 兼容 API。官方称其在 SWE-Pro、GPQA-D、ALE-Bench 等基准达到领先表现,产品定位是多智能体编排系统,强调通过协作式代理提升复杂任务能力。

𝕏 OpenAI 为 Codex 加入浏览器操作与 Auto-review 监督模式

OpenAI Codex 新增 browser useAuto-review 功能,可通过浏览器执行测试、读取控制台日志,并由独立 AI 代理对高风险步骤进行审批。该更新延续了 OpenAI 围绕 Agent 工作流的产品推进方向,强化了代码执行、验证与监督闭环。

𝕏 OpenAI 发布 PrivacyFilter 隐私过滤模型,可预先识别姓名、邮箱、密码与 API 凭证

OpenAI 发布 PrivacyFilter,可识别 姓名、电话、邮箱、密码、API 凭证 等敏感信息。官方建议开发者先用该模型过滤或脱敏文本,再将处理后的内容交给其他大模型,以降低隐私泄露风险并提升企业场景可控性。

DeepSeek V4 被阿里国际 Accio Work 接入,企业级智能体场景开始落地

阿里国际宣布企业级智能体 Accio Work 接入 DeepSeek V4,同时也集成 Qwen 3.6 等国产模型,用于全球企业场景。这表明 DeepSeek V4 不仅在开源社区和开发框架中快速扩散,也开始进入企业级 Agent 与跨境业务流程,成为国产大模型在真实商业环境中的候选底座。

xAI 被曝企业推介受阻,部分 SpaceX 工程师更偏向使用 Claude

有消息称,xAI 在向企业推销 Grok 的编程与建模能力时进展受阻,部分 SpaceX 工程师更倾向使用 Claude 完成技术工作。该信息更接近竞争态势与内部使用偏好,反映 Grok 在开发者生产力场景仍面临口碑与产品力压力。

𝕏 Qwen3.6-27B 与 Fun-ASR1.5 在周报中亮相,分别强调代理编程与生产级语音输出

周报信息显示,Qwen3.6-27B 主打紧凑型代理编程,强调在较小体量下服务 Agent 场景;Fun-ASR1.5 则扩展语言覆盖与生产级文本输出能力。两者属于产品进展类更新,展示阿里系模型线在编码与语音方向的持续迭代。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。