天眼早报
🤖 AI 大模型
𝕏 DeepSeek-V4 Preview 正式开源,发布 V4 Pro 与 V4 Flash
DeepSeek 正式开源 DeepSeek-V4 Preview,同步推出 V4 Pro 与 V4 Flash 两档新架构模型,API、权重与技术报告当日一并开放。该系列主打 100 万 token 长上下文与更低成本:V4 Pro 总参数约 1.6T、激活参数 49B,在 Artificial Analysis 智能指数达到 52,重回开源权重模型前列;V4 Flash 则面向更高性价比与更低部署门槛。
𝕏 DeepSeek-V4 Pro 前端生成与代码平台适配同步推进
测试者以“大象牙膏”案例评估 DeepSeek-V4-Pro,认为其在建模、粒子与物理模拟上的表现较 V3 系列明显提升,但在玻璃材质等参数遵循上仍有不足。与此同时,Together AI 已上线 DeepSeek V4 Pro,提供 三种推理模式、长上下文与混合注意力,并披露 93.5% LiveCodeBench、80.6% SWE-Bench Verified 等指标,显示其正快速进入开发者实战平台。
𝕏 GPT-5.5 正式发布,已进入 ChatGPT、Codex 与 API
OpenAI 正式发布 GPT-5.5,定位为面向真实工作的代理模型,强调复杂目标理解、工具调用与自检能力。该模型已接入 ChatGPT 与 Codex,并与 GPT-5.5 Pro 一同上线 API,支持 100 万上下文窗口,可用于 Responses 与 Chat Completions 接口。多家平台随后快速适配,标志其已从发布阶段直接进入开发者生产使用阶段。
𝕏 小米 MiMo V2.5 Pro 进入开源权重模型第一梯队
小米 MiMo V2.5 Pro 在 Artificial Analysis Intelligence Index 中获得 54 分,追平 Kimi K2.6,进入开源权重模型第一梯队。其上下文长度达到 100 万 token,总参数约 1T、激活参数 42B,API 定价为每百万输入/输出 1/3 美元,显示小米在大模型能力、长上下文和定价策略上都已具备较强竞争力。
𝕏 谷歌据称拟向 Anthropic 追加最高 400 亿美元投资
据路透与 FT 消息,Google 拟先向 Anthropic 投资 100 亿美元,并在达成业绩条件后再追加 300 亿美元,对应估值基准约 3500 亿美元。若成真,这将是 AI 基础模型阵营中又一笔超大规模资本下注,也将进一步巩固 Google 与 Anthropic 在算力、分发和模型生态上的深度绑定。
𝕏 OpenAI 推出 ChatGPT for Clinicians,并发布医疗评测基准
OpenAI 宣布推出免费版 ChatGPT for Clinicians,面向真实临床对话与医疗工作流场景;同时发布医疗评测基准 HealthBench Professional。这表明 OpenAI 正尝试把通用模型能力进一步产品化到专业垂直领域,并以专门基准来衡量模型在高风险医疗场景中的可用性。
𝕏 GPT-5.5 被多家推理与网关平台接入,Perplexity 将其设为 Computer 默认编排模型
在模型分发与调用平台侧,OpenRouter、Cloudflare AI Gateway、Vercel AI Gateway、Arena 等已相继上线 GPT-5.5 或 GPT-5.5 Pro。其中 Perplexity 宣布向 Max 用户开放 GPT-5.5,并逐步将其设为 Computer 的默认编排模型,覆盖 Pro 与 Max 用户;公司还称,在内部复杂工作流中,使用 GPT-5.5 可使 token 用量减少 56%,体现其在多智能体编排中的成本优势。
𝕏 GPT-5.5 快速进入微软与开发者工具生态
GPT-5.5 发布后迅速扩散至主流工具链。微软 表示其已开始向 GitHub Copilot、M365 Copilot、Copilot Studio、Foundry 滚动上线;Cursor 也已接入,并给出限时 5 折 优惠。与此同时,Windsurf 2.0、Cline、Warp Agent、Devin、Notion、Hermes Agent 等产品均已支持或宣布接入,显示 GPT-5.5 正迅速成为通用 Agent 与知识工作场景的新默认模型之一。
𝕏 DeepSeek-V4 Flash 本地部署与生态接入加速
DeepSeek-V4 Flash 的本地运行配置已被披露:在 4×RTX 6000 条件下可无压缩运行,实测约 38.6 tok/s 解码、2000 tok/s 预填充,并支持 40 万上下文。生态侧,Ollama Cloud 已上线 deepseek-v4-flash,支持与 Claude Code、OpenClaw、Hermes 集成调用,说明其不仅面向云端 API,也正快速进入本地与工具链生态。
𝕏 DeepSeek-V4 Pro 进入模型榜前列,GLM-5.1、Kimi-K2.6 同列开源强者
Text Arena 最新开源模型榜显示,GLM-5.1 位列开源第 1、总榜第 15;新发布的 DeepSeek-V4-Pro 首发即进入总榜第 20;Kimi-K2.6 位列总榜第 26。榜单还显示三者在医疗、中文、数学等细分任务上各有领先,说明开源模型竞争已从单一总分转向多能力维度。
𝕏 DeepSeek V4 Pro 性价比受关注:价格远低于 GPT-5.4,Flash 成本更低
围绕 DeepSeek V4 Pro 的首批对比显示,其输入价格约 0.14 美元/M tokens,显著低于 GPT-5.4 与 Claude Opus 4.6 等前沿闭源模型。进一步比较还显示,V4 Flash 与 V4 Pro 均支持 100 万 token 上下文,但 Flash 首发价格约为 Pro 的 1/12,体现出 DeepSeek 在长上下文与成本控制上的双路线布局。
𝕏 DeepSeek-V4 技术细节曝光:长上下文降本与部署规格进一步明确
围绕 DeepSeek-V4 的技术信息持续披露:论文称在 100 万 token 上下文下,单 token 计算约降至 V3.2 的 27%,KV cache 约为 10%;同时,DeepSeek V4 Pro 采用 FP4+FP8 混合检查点,可适配单台 8×B200 节点推理。另有面向智能体场景的规格披露指出,V4 Pro 具备 1.6T 参数 与超长上下文能力,显示其设计重点已明显偏向长任务与 Agent 工作流。
𝕏 Anthropic 发布 Project Deal,研究 AI 代理在内部市场中的谈判行为
Anthropic 发布研究项目 Project Deal,在旧金山办公室搭建内部市场,让 Claude 代理员工进行买卖与谈判,以观察 AI 代理在市场机制中的优势、失灵点与协作方式。这项研究把关注点从单体模型能力转向多代理交互与经济行为,为 Agent 在企业采购、协商与资源分配中的实际应用提供了实验样本。
𝕏 Yansu App 发布:本地记录操作与会议,自动沉淀为应用和自动化
Yansu App 正式发布,主打在本地采集 操作记录 与 会议内容,并将其自动沉淀为应用、Automation、知识与记忆。产品定位偏向个人效率与主动式 AI 助手,希望把用户在电脑上的真实行为转化为可复用的流程和工具,而不是只停留在聊天式交互。
𝕏 GPT-5.5 在代码与文档评测中表现强势,但 OCR 成本偏高
第三方评测显示,GPT-5.5 在开发与理解类任务中延续强势表现:其在 Terminal-Bench 取得 82.7 分,超过部分未公开预览模型;在 ParseBench 中的 表格 与 视觉定位 项目领先。不过,文档理解场景的成本也受到关注,其中中等思考模式每页 OCR 成本约 13 美分,0-thinking 模式约 5.93 美分,意味着其在高质量解析之外仍需权衡价格。
𝕏 Google DeepMind 研究显示“先思考再回答”可降低模型给出欺骗性建议
Google DeepMind 在 ICLR 2026 展示研究称,允许模型先进行内部推理再输出答案,能够降低其推荐欺骗性行为的概率。该结果为“推理过程是否应被鼓励”提供了安全层面的支持,也说明提升模型思考步骤不仅影响准确率,还可能影响其行为边界与对齐表现。
𝕏 本地 Qwen3.6-27B 在 MacBook 上展现接近闭源编程模型的可用性
开发者称,在 MacBook Pro 上通过 Llama.cpp 运行 Qwen3.6-27B 并接入 Pi coding agent 后,处理 Hugging Face 代码库时已接近最新闭源编程模型的实用水平。这一案例再次说明,中等规模开源模型在本地设备上的工程可用性正在快速提升。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。