天眼早报
🤖 AI 大模型
𝕏 【重磅】SpaceX IPO 创历史,马斯克成全球首位万亿富翁
SpaceX完成史上最大 IPO,发行价 135 美元,募资约 750 亿美元,估值达 1.77 万亿美元。首日股价涨 28%,市值突破 2.2 万亿美元。创始人 埃隆·马斯克 持股约 39%,身家瞬间达到 1.1 万亿美元,成为人类历史上第一位 万亿富翁。
𝕏 【重磅】MiniMax M3 开源,1M token 上下文与稀疏注意力架构突破
MiniMax正式发布并开源 M3 模型,采用创新的 MSA 稀疏注意力架构,支持高达 100 万 token 的超长上下文窗口。该模型总参数量约 428B(激活 23B),原生支持 文本、图像、视频 多模态输入及工具调用。在 vLLM 和 SGLang 等框架中实现 Day-0 支持,预填充速度提升 9 倍,解码速度提升 15 倍,专为 Agent Era 打造,已在 Hugging Face 和 Novita 等平台上线。
𝕏 ⭐ Kimi K2.7-Code 发布,1T 参数混合专家架构支持 256K 上下文
Moonshot AI推出代码专用代理模型 Kimi K2.7-Code,基于 K2.6 构建,采用 1T 参数混合专家架构(每 token 激活 32B)。相比前代,Thinking Token 消耗减少约 30%,在长程代码任务上表现更优,支持 256K 上下文窗口。该模型已开放 API 及 Kimi Code 工具,并在 SGLang 和 Poe 平台上线,同时推出了输出速度达普通版 5-6 倍的高速版,常规场景下可达 180 Token/s。
𝕏 ⭐ Google DeepMind 推出 DiffusionGemma,文本生成速度超 1100 tokens/s
Google DeepMind发布开源权重模型 DiffusionGemma,基于 Gemma 4 引入离散扩散技术。该模型拥有 25.2B 参数(激活 3.8B),在低批次 FP8 设置下报告生成速度超过 1100 tokens/s,支持 256K 上下文及多模态输入,标志着扩散模型在文本生成效率上的重大突破。
𝕏 ⭐ Artificial Analysis 发布首个智能体推理基准 AA-AgentPerf
Artificial Analysis推出新基准 AA-AgentPerf,以每兆瓦支持的智能体数量为核心指标。测试显示,DeepSeek V4 Pro 在 NVIDIA GB300 上可达 61,354 Agents/MW,比 AMD MI355X 高出近 17 倍,验证了机架级离散化推理的能效优势。
𝕏 ⭐ Nature Medicine 研究:通用大模型超越专用医疗 AI
Nature Medicine发表研究,对比 GPT-5.2、Gemini 3.1 Pro 等通用模型与 OpenEvidence、UpToDate Expert AI 等专用工具。在 100 个 真实临床问题中,盲测医生更偏好通用模型,尤其在 完整性 和 清晰度 方面表现更佳,挑战了专用医疗 AI 的传统优势。
𝕏 ⭐ Claude Fable 5 数学能力突破,FrontierMath 测试得分 88%
Anthropic的 Claude Fable 5 在 FrontierMath 基准测试中取得优异成绩,Tier 1-3 得分 87%,Tier 4 得分 88%,ECI 评分达到 164。这标志着 Anthropic 系列模型在数学推理领域的持续快速进步,并首次在关键指标上超越 OpenAI 的对应模型。
𝕏 ⭐ GPT-5.5-xhigh 在 FrontierMath 基准测试中得分从 35% 跃升至 73%
EpochAI修复了 FrontierMath 基准测试的错误后,GPT-5.5-xhigh 的得分从 35% 大幅提升至 73%。这一变化揭示了此前评估中存在的拒绝问题被高估的情况,修正后的数据更真实地反映了模型在数学推理领域的实际能力。
𝕏 ⭐ Gemini-SQL2 问世,文本转 SQL 准确率创 BIRD 基准新高
Google Research发布 Gemini-SQL2,基于 Gemini 3.1 Pro 打造。该技术在 BIRD 基准测试中达到最先进水平,不仅能生成看似正确的 SQL,更能确保查询在实际环境中成功执行,特别是在处理脏乱数据和复杂真实世界场景中表现出色,证明了自定义模型优于通用推理模型。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。