天眼早报
🤖 AI 大模型
🔶 OpenAI 称已签署 10GW 算力合同,并调整 Stargate 更依赖租赁
OpenAI称已签署10GW AI 算力合同,过去90 天新增 3GW,其中亚马逊提供 2GW;另有报道称其调整Stargate基础设施计划,更依赖算力租赁,并将 2030 年目标推进至 30GW。该系列动作显示 OpenAI 正加速锁定长期算力供给。
中国禁止 Meta 收购 Manus,首次公开叫停 AI 行业外资控制交易
国家发改委4 月 27 日禁止Meta收购Manus,认定其通用 AI 智能体属于重要信息技术,外资取得实际控制权需进行安全审查申报。该事件被视为中国首次公开叫停 AI 行业外资控制交易。
🔶 DeepSeek V4 与美团 LongCat 同日进入万亿参数俱乐部
DeepSeek V4适配华为昇腾 950PR,LongCat-2.0则使用 5 万至 6 万张国产算力卡完成万亿参数预训练。两者同日进入万亿参数俱乐部,显示中国大模型厂商正加速利用国产算力推进超大规模模型训练。
𝕏 Qwen3.6-Plus 登陆 Together AI,支持 100 万上下文与多模态推理
Together AI上线Qwen3.6-Plus,提供100 万上下文以及文本、图像、视频推理能力。API 价格为输入 0.50 美元/百万 token、输出 3 美元,进一步压低长上下文多模态模型的调用成本。
📄 ReaLM-Retrieve 让推理模型在思考中自适应检索,F1 平均提升 10.1 个百分点
ReaLM-Retrieve在推理步骤级检测知识缺口,让模型在思考过程中自适应调用检索。在MuSiQue等三项多跳问答中,F1 平均提升10.1 个百分点,同时检索调用减少47%,兼顾准确率与检索成本。
🔵 Anthropic 考虑以超 9000 亿美元估值融资,或挑战 OpenAI 估值地位
Anthropic正权衡新一轮融资方案,估值可能超过9000 亿美元,较当前估值翻倍以上,并有望超越OpenAI成为全球最高估值 AI 初创公司。报道称公司还收到预防性融资邀约,潜在募资规模可达500 亿美元,资金将主要用于扩充 AI 基础设施以满足产品需求。
𝕏 IBM 发布 Granite 4.1 开放权重模型家族,主打企业与边缘部署
IBM发布Granite 4.1三款开放权重模型,规模为30B、8B、3B,采用Apache 2.0许可并支持 128K 上下文。该系列强调企业部署、边缘推理与低评测成本,其中 8B 模型评测仅用 4M 输出 token。
𝕏 腾讯混元开源 440MB 离线翻译模型,支持 33 种语言
腾讯混元开源Hy-MT1.5-1.8B-1.25bit,模型约440MB,可在手机端离线运行,约需 0.4GB 内存。模型支持33 种语言和 1056 个翻译方向,面向端侧低资源翻译场景。
📄 RaMP 按专家路由动态选择 MoE 推理内核,vLLM 端到端提速 1.30 倍
RaMP根据运行时专家直方图调度MoE内核,平均后悔值仅0.93%。在vLLM中,相比 Triton 实现端到端提速 1.30 倍,说明面向专家路由分布的动态内核选择可显著改善 MoE 推理效率。
𝕏 小米 MiMo-V2.5-Pro 登 Arena 专家文本全球第 6,前端代码榜开源第 3
小米 MiMo-V2.5-Pro在Arena最新榜单获得专家文本全球第 6、开源第 1,并在Code Arena: Frontend WebDev排名第 11、开源模型第 3。其 API 价格为每百万 token 输入 1 美元、输出 3 美元,显示国产开源模型在文本和前端代码任务上同时取得突破。
蚂蚁百灵开源 Ling-2.6-1T,vLLM 首日支持
蚂蚁百灵开源Ling-2.6-1T,定位真实智能体工作流旗舰模型,支持262k 上下文,在工具调用、代码修复、多步任务执行等指标达到开源 SOTA。vLLM提供 Day-0 支持,便于开发者快速部署与评测。
📄 TildeOpen 发布 30B 开源多语种模型,覆盖 34 种欧洲语言
TildeOpen LLM为30B 参数开源权重模型,面向34 种欧洲语言优化。人类评测显示,相较领先基线最高可减少 10 倍语言错误,突出其在欧洲多语种覆盖和本地化质量上的优势。
📄 Lowest Centroid 用熵质心筛选多采样答案,覆盖 14B 至 480B 模型
Lowest Centroid把高熵片段位置作为内在奖励,用于从多采样答案中筛选更可靠输出。方法在数学、代码、逻辑和智能体任务中,跨14B-480B模型稳定优于基线,显示其具备较强的模型规模迁移性。
🟩 Google 发布 GenUI SDK,让 AI 运行时动态生成 Flutter 界面
Google在 Cloud NEXT '26 发布GenUI SDK for Flutter和A2UI开放标准,支持 AI 在运行时动态生成 UI。示例应用 FinnishIt 可按用户需求实时生成闪卡、拼图、填空等交互练习,适用于学习应用、个性化 onboarding 等高度定制化场景。
𝕏 商汤开源 SenseNova-U1 统一多模态模型,覆盖 8B 与 MoE 版本
商汤发布并开源SenseNova-U1,采用统一架构原生支持理解、推理与生成,并开放8B 稠密模型和38B MoE/3B 激活两版权重。Lite 版本包含 U1-8B-MoT 和 U1-A3B-MoT,强调文图统一表征能力。
🔶 OpenAI 将向关键网络防御者推出 GPT-5.5-Cyber
Sam Altman表示,OpenAI将在未来几天向关键网络防御者推出GPT-5.5-Cyber,定位为前沿网络安全模型。该模型预计面向高风险网络防御任务,体现 OpenAI 在垂直安全领域的模型产品化尝试。
生数科技发布 MotuBrain,登顶两项具身智能基准
生数科技发布具身智能模型MotuBrain,在WorldArena和RoboTwin2.0双榜刷新纪录,复杂扰动环境平均分超过 95。该模型聚焦具身智能任务中的环境理解、规划与执行能力。
📄 DUAL-BLADE 用 NVMe 直连卸载 KV 缓存,边缘 LLM 解码延迟降 42.4%
DUAL-BLADE在页缓存与NVMe-direct路径间动态分配 KV 张量,使边缘设备上的 LLM 推理更高效。实验显示其预填充延迟降低33.1%、解码延迟降低42.4%,适合显存受限场景下的长上下文服务。
📄 CapKV 用信息瓶颈重构 KV 缓存淘汰,提升长上下文推理效率
CapKV以信息瓶颈推导 KV 缓存保留目标,并用统计杠杆分数近似 log-det 选择关键缓存。在多模型长上下文基准中,该方法优于多种启发式淘汰策略,为长上下文推理降本提供了新的理论化方案。
𝕏 IBM Granite 发布两款多语言嵌入模型,支持 200 多种语言
IBM Granite发布97M和311M参数嵌入模型,支持200+语言与 32K 上下文。新模型面向多语言检索、RAG 和企业知识库场景,补齐 Granite 生态中的向量表示能力。
𝕏 DeepSeek-V4 Pro 登陆 Together AI,支持 512K 上下文和可控推理
Together AI披露DeepSeek-V4 Pro细节:模型支持512K 上下文、可控推理模式,并提供长上下文缓存输入计费。该版本强化了长文档处理与推理成本控制能力。
Reiner Pope 拆解 GPT-5、Claude 与 Gemini 的训练和推理成本逻辑
Reiner Pope从 API 定价反推大模型架构与成本结构,认为推理批处理可降本1000 倍。文章还分析DeepSeek V3的 MoE 配置,称其含256 个专家、每次激活 32 个,用于解释前沿模型价格与架构选择之间的关系。
Chrome 发布 Prompt API,网页可直接调用本地 Gemini Nano
Chrome Prompt API允许网页用JavaScript直接调用本地Gemini Nano模型。该能力使浏览器端 AI 应用可以在用户设备上完成部分生成式任务,降低云端调用依赖并增强隐私友好性。
智谱披露 GLM-5 Coding Agent 底层推理优化经验
智谱披露GLM-5推理实践,重点修复KV Cache竞态与SGLang HiCache加载时序问题,相关方案已获开源社区采纳。该案例提供了 Coding Agent 在高并发推理服务中的工程优化参考。
📄 PATCH 提出可学习混合稀疏方案,加速 0.5B 至 13B 模型推理
PATCH提出可学习的混合稀疏推理方案,在LLaMA-2 7B上实现1.18x-1.38x端到端加速。相比MaskLLM,其精度提升 0.37%-2.96%,为中小规模模型部署提供了兼顾速度与质量的稀疏化路径。
𝕏 Ernie-5.1 登上 Text Arena 第 13 名,成中国实验室最高排名模型
Ernie-5.1在Text Arena排名第 13,并在数学第 9、法律政务第 1、商业金融第 4、软件 IT 第 7。该成绩使其成为当前中国实验室在 Text Arena 中排名最高的模型之一。
范式智能拟 4 亿元采购 GPU 服务器,扩充 API 推理与训练产能
范式智能计划斥资4 亿元购买 GPU 服务器,以扩充 API 推理与训练产能。公司披露 Q1 客户Token 调用量环比增长超过 400%,显示其模型服务需求快速上升。
🔶 DeepSeek 与 Kimi 的 AGI 路线对照:模型即产品与 Agent 能力竞赛
Kimi 2.6与DeepSeek V4相继强化 Agent 编码能力,文章对比梁文锋、杨植麟在开源、Scaling Law 和 C 端策略上的共性与差异。该文提供了两家中国大模型公司在 AGI 路径选择上的行业观察。
英伟达发布开源多模态模型 Nemotron 3 Nano Omni
英伟达发布开源Nemotron 3 Nano Omni,把视觉、语音和语言整合进单一企业级智能体系统。该模型面向多模态企业智能体部署,延续英伟达在模型、推理和企业 AI 平台上的组合策略。
𝕏 OpenAI DevDay 定档 9 月 29 日在旧金山举行
OpenAI DevDay将于9 月 29 日在旧金山回归,面向开发者发布平台与模型进展。该活动预计将集中展示 OpenAI 在 API、工具链和模型能力上的最新更新。
中央企业发布星辰大模型等十项数字技术成果
国务院国资委发布星辰大模型等10 项成果,覆盖工业软件、电子元器件和人工智能。该发布体现中央企业在关键数字技术与行业大模型方向上的集中布局。
𝕏 OpenAI 模型进入 Amazon Bedrock,企业可在 AWS 环境直接调用
OpenAI 模型已可通过Amazon Bedrock使用,企业无需新建模型接入链路,即可在现有AWS环境中调用相关能力。这降低了企业在云端集成 OpenAI 模型的部署门槛,也加强了 Bedrock 作为多模型平台的吸引力。
🔵 Alphabet 云业务创历史最高季度增速,AI 解决方案销售额增 8 倍
Alphabet一季度营收1099 亿美元,同比增长 22%。其中谷歌云营收达200 亿美元,同比增长 63%,创 2020 年以来最高季度增速;AI 解决方案销售额同比增长 8 倍,显示企业 AI 需求持续推高云业务增长。
📄 CoR 用反事实路由降低 MoE 长尾知识幻觉
CoR提出无需训练的反事实路由方法,用于降低MoE模型在长尾知识上的幻觉。在TruthfulQA、FACTOR、TriviaQA 上,方法平均提升事实准确率3.1%,说明推理期路由干预可改善模型可靠性。
DeepSeek 开启识图模式灰度测试,补齐视觉理解能力
DeepSeek在移动端和网页版灰度上线识图模式,补齐视觉理解能力。该更新意味着 DeepSeek 正在从纯文本对话扩展至多模态交互,为后续图像问答、文档理解和视觉推理场景铺路。
高盛禁止香港员工使用 Claude,AI 服务合同边界受地缘因素影响
高盛香港员工已无法访问Claude,禁令源于与Anthropic合同的严格解读。该事件显示企业 AI 服务的使用范围、数据合规和地域限制,正受到合同条款与地缘因素的共同影响。
OpenAI 开源 React 语音交互参考组件
OpenAI发布realtime-voice-component,基于Realtime API优化 React 语音交互实现。该参考组件可帮助开发者更快构建实时语音对话界面,降低在 Web 应用中接入语音 AI 的工程门槛。
🔵 亚马逊 AWS 季度增速创三年多新高,维持 2000 亿美元 AI 投资目标
亚马逊 AWS一季度营收375.9 亿美元,同比增长 28%,创三年多来最快增速。受 AI 需求推动,亚马逊继续维持全年2000 亿美元AI 投资目标,表明云厂商仍在加速投入 AI 算力与基础设施。
𝕏 Mistral Medium 3.5 发布,采用 128B 稠密架构
Mistral Medium 3.5已发布,模型结构为128B 稠密模型,由Hugging Face转发传播。该版本延续 Mistral 在中大型通用模型上的布局,具体能力与开放策略仍需后续评测验证。
𝕏 Gemini 新增文档生成功能,但表格和演示能力仍被指较弱
Gemini已可创建文档,但 Ethan Mollick 测试称,其 PowerPoint、电子表格和推理痕迹能力仍落后于预期。该更新显示 Gemini 正在扩展办公生产力场景,但在复杂结构化内容生成方面仍有短板。
𝕏 Qwen 3.5 Plus 输出价格降至每百万 token 3 美元
Qwen 3.5 Plus输出价格为每百万 token 3 美元,Together 转发称其能力接近前沿模型水平。该价格信号显示高性能模型 API 竞争继续向低成本方向推进。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。