天眼晚报
🤖 AI 大模型
𝕏 MiniMax 正式开源 M2.7 模型:2300 亿参数 MoE 架构,主打 Agentic-first 设计
MiniMax 宣布正式开源 M2.7 模型,采用 MoE 架构,总参数量达 2300 亿。该模型在 SWE-Pro 评测中取得 56.22% 的高分,性能逼近 GPT-5.4。其核心特色在于 Agentic-first 设计,支持原生多智能体协作与自我迭代训练。目前 vLLM、SGLang 及 Ollama 已实现首日支持,标志着国产开源模型在智能体领域取得重大突破。
𝕏 软银、索尼等日企巨头合资成立“日本 AI 基础模型开发”公司
软银、NEC、本田、索尼等四家巨头领衔成立新公司,旨在开发日本国产 AI 基础模型。项目汇集约 100 名开发人员,重点攻克 自动驾驶 及机器人操控 AI。三菱日联等银行亦参与出资,标志着日本在核心 AI 基础设施领域的国家级整合。
𝕏 Nous Research 发布 Hermes Agent 0.8:实现智能体自主修复与学习闭环
Nous Research 发布 Hermes Agent 0.8,核心升级包括支持后台运行任务、工作流中途切换模型、自动修复 GPT 工具调用失败。该版本引入了 自学习循环,能通过 Orange Book 指南实现从零到专家的技能演进,标志着从聊天机器人向自主基础设施的转型。
𝕏 智谱 AI 发布 GLM-5.1:7540 亿参数领跑 SWE-Bench Pro 榜单
智谱 AI 发布 GLM-5.1,拥有 7540 亿参数并在 SWE-Bench Pro 以 58.4 分夺冠。该模型支持长周期任务,具备 8 小时连续自主执行能力,曾在 8 小时内构建完整 Linux 桌面环境。作为国产大模型的代表,其在编程和复杂任务处理能力上已跻身全球第一梯队。
𝕏 GuppyLM:不到 900 万参数的零基础大模型训练教程
GuppyLM 项目支持用不到 900 万 参数从零训练模型,涵盖数据生成、分词器训练到推理全流程。该教程对硬件要求极低,可在 浏览器 或 Google Colab 中运行,是理解大模型底层原理的优秀实践。
𝕏 Meta 发布 Muse Spark 模型:Llama 4 研发周期中的多模态新尝试
Meta 发布 Muse Spark 模型,作为 Llama 4 研发停滞一年后的首个成果。虽然性能未及顶尖水平,但在 多模态生成 方面表现稳健,展示了 Meta 在视觉与语言融合领域的持续探索。
𝕏 Google 最新开源模型性能比肩 OpenAI o3-high
Google 开源模型性能与 OpenAI 持平,显著领先于目前的国产开源模型。这一进展再次拉高了全球开源 AI 社区的性能基准,展示了其在 逻辑推理 领域的深厚积淀。
𝕏 OpenAI Codex 推出 Scratchpad 实验功能
OpenAI 为 Codex 开发 Scratchpad 功能,支持从 TODO 列表 并行启动多个任务。该功能旨在提升模型在处理复杂编程逻辑时的任务分解与执行效率。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。