天眼早报
🤖 AI 大模型
🔶 OpenAI 向所有 ChatGPT 用户推出 GPT-5.5 Instant,默认即时模型升级
OpenAI正式向所有ChatGPT用户推出GPT-5.5 Instant,并将其设为默认即时模型,API 别名为 gpt-5.5-chat-latest;官方称新模型在速度、智能、个性化和记忆体验上同步提升,在医疗、法律、金融高风险问题上的幻觉率较上一代降低52.5%,AIME 2025 升至81.2%。付费用户未来 3 个月仍可访问 GPT-5.3 Instant,记忆来源功能也在逐步上线。
𝕏 ChatGPT 进入 Excel 和 Google Sheets,支持表格内分析与公式生成
OpenAI宣布ChatGPT作为Excel和Google Sheets加载项上线,由 GPT-5.5 驱动;用户可在表格内分析脏数据、编写公式、更新表格并解释操作,意味着 ChatGPT 正从对话界面进一步进入办公软件的核心工作流。
𝕏 xAI 发布 Grok 4.3 API,支持 100 万 token 上下文
xAI发布Grok 4.3并上线 API,称其为公司最快、最智能的模型,在代理工具调用和指令遵循方面登顶相关榜单;模型支持100 万 token上下文窗口,定价为输入1.25 美元/百万 token、输出 2.50 美元/百万 token。
𝕏 美国政府将预发布测试 Google、Microsoft、xAI 前沿模型
Google、Microsoft、xAI同意向美国商务部CAISI共享早期前沿模型,包括弱化护栏版本,用于预发布安全测试;CAISI 已完成 40 多项模型安全评估,显示美国政府正把前沿模型上线前评测制度化。
𝕏 Google 为 Gemma 4 发布 MTP 草稿模型,生态框架首日支持并最高提速 3 倍
Google为Gemma 4发布MTP drafters,通过多 token 预测和推测解码,在质量保持一致的情况下让输出速度最高提升3 倍;权重按 Apache 2.0 开源,并已获得 Transformers、MLX、vLLM、SGLang 等框架首日支持,Docker 镜像可直接使用。
𝕏 XGrammar-2 发布:复杂 Agent 工具调用最高提速 80 倍
XGrammar-2发布,支持严格工具调用格式、500+强类型工具、Python/C++/Rust/JS API,并集成vLLM、SGLang、TensorRT-LLM 等推理框架;其目标是在复杂 Agent 工具调用中提升结构化生成效率,最高宣称提速80 倍。
𝕏 SubQ 发布 1200 万 token 长上下文模型,称百万 token 场景快 52 倍
SubQ推出支持1200 万 token上下文的 LLM,基于稀疏注意力架构;官方称在100 万 token场景下比 FlashAttention 快52 倍,并宣称成本低于 Opus 的 5%,面向超长文档、代码库和大型知识库推理场景。
𝕏 PageIndex 开源:用树索引替代向量 RAG,FinanceBench 达 98.7%
PageIndex开源一种不依赖向量数据库、嵌入、chunking 和相似度搜索的 RAG 方案,改用文档树索引组织长文档;其在FinanceBench测试中达到98.7%,主打可解释、结构化检索与低复杂度部署。
🔶 Anthropic 承诺五年向谷歌云投入 2000 亿美元
Anthropic承诺未来5 年向谷歌云投入2000 亿美元,资金将用于云服务和芯片采购;这进一步强化 Anthropic 与 Google Cloud 在 AI 算力、基础设施和模型训练资源上的绑定关系。
𝕏 MiniMax-M2.7 在六家推理服务商上线,速度和价格差异显著
Artificial Analysis对比MiniMax-M2.7在六家推理服务商上的表现,结果显示SambaNova速度达 435 tokens/s,而 Fireworks 为 127 tokens/s 且价格约0.22 美元/百万 token;同一模型在不同推理平台上的延迟、吞吐和成本差异明显。
𝕏 Luma Uni-1.1 API 上线,图像生成与编辑进入 LMArena 前列
LumaLabsAI上线Uni-1.1 API,覆盖文本生图、多图编辑和单图编辑等能力;LMArena榜单显示其相关任务排名进入前 8-11 名区间,意味着 Luma 正在把图像生成与编辑模型能力开放给开发者。
🔶 Meta 开发代号 Hatch 的 AI 代理,拟 6 月底前内部测试
Meta正在开发名为Hatch的 AI 代理,目标在6 月底前完成内部测试;公司还计划在Instagram推出基于代理的购物工具,显示 Meta 正把代理能力与社交、电商和内部生产力场景结合。
𝕏 Gemini API File Search 升级多模态 RAG,新增元数据过滤和页级引用
Google AI扩展Gemini API File Search,新增多模态搜索能力,可原生处理图文内容,并由 Gemini Embedding 2 驱动;同时加入自定义元数据过滤、内联引用和页码级引用,提升企业 RAG 在文档检索、溯源和精确引用上的可用性。
🔶 OpenAI 开始在 ChatGPT 推出自助广告管理器
OpenAI开始在ChatGPT逐步推出测试版自助广告管理器,允许美国广告主注册并直接购买聊天界面广告;这表明 OpenAI 正在探索订阅之外的商业化路径,并测试对话式广告投放形态。
𝕏 Anthropic 为 Claude 推出 10 个金融代理模板
Anthropic为Claude推出10 个金融代理模板,覆盖 KYC、估值、月结、财务建模等流程,帮助金融机构更快构建可复用的行业代理工作流,并降低从通用对话模型迁移到业务自动化场景的门槛。
𝕏 Greg Brockman 称 OpenAI 计划 2026 年投入 500 亿美元算力
Greg Brockman称OpenAI计划在2026 年投入500 亿美元用于计算资源建设,显示其在训练与推理基础设施上的资本开支将继续大幅扩张,也凸显前沿模型竞争对算力供给的持续压力。
𝕏 Arena Max 升级为多模态模型路由器默认入口
Arena Max基于500 万+社区投票升级为多模态默认入口,覆盖搜索、视觉、图像生成、图像编辑和前端编码等任务;其定位是根据任务自动路由到更合适的模型,降低用户手动选择模型的复杂度。
𝕏 Anthropic CEO 称 Claude 仍领先中国模型 6 至 12 个月
Anthropic CEO称Claude相较中国模型仍领先6-12 个月,并透露公司 Q1 年化收入增长80 倍、员工约 3500 人;该表态反映 Anthropic 对模型代际优势、商业化速度和组织扩张的判断。
𝕏 Google Cloud 推出 Gemini 企业代理网关
Google Cloud发布Agent Gateway,为Gemini企业代理平台提供统一入口,用于管理代理、工具连接和安全策略;该产品面向企业级多代理部署,重点解决权限、治理、连接和运维复杂度问题。
𝕏 OpenAI Agents SDK 推出 TypeScript 版本
OpenAI更新Agents SDK,推出TypeScript版本,并内置沙盒代理和开源测试框架;该更新面向前端与全栈开发者,降低在 JavaScript 生态中构建、调试和评测代理应用的门槛。
𝕏 GPT-5.5 与 Opus 4.7 在 ARC-AGI-3 测试中得分低于 1%
GPT-5.5与Opus 4.7在ARC-AGI-3测试中得分低于1%,显示即使最新大模型在部分抽象推理与泛化评测上仍存在明显短板,也为衡量模型真实推理能力提供了反向参照。
出版商称扎克伯格亲自授权 Meta 训练 Llama 侵权
出版商在美国诉讼中称,扎克伯格“亲自授权”Meta为训练Llama侵犯版权,相关案件由AP披露;该指控把生成式 AI 训练数据版权争议进一步指向公司高层决策责任。
𝕏 Apple 计划让 iOS 27 支持用户选择不同 AI 模型
Apple计划在iOS 27中引入可选择的AI 模型体验,让用户在系统级功能中切换不同模型;如果落地,这将使 iOS 的 AI 能力从单一默认供应模式转向更开放的模型选择机制。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。