天眼早报
🤖 AI 大模型
𝕏 Meta 发布 Muse Spark 原生多模态推理模型,性能直逼 GPT-5
Meta 旗下的 Superintelligence Labs 正式发布 Muse Spark 模型,这是 Meta 首款闭源大模型。该模型采用原生多模态推理架构,在 SWE-Bench Pro、HLE 及 CritPt 物理研究评测中均位列榜首,其计算量仅为 Llama 4 的十分之一。目前该模型已集成至 Facebook 等社交平台作为 AI 助手,主打小型化与高速推理,暂不开源。
🏠 OpenAI 计划 2026 年 IPO,估值达 8520 亿美元
OpenAI 计划最快于 2026 年第四季度 启动公开上市,目前估值已升至 8520 亿美元。公司首席营收官透露,企业业务目前贡献了公司 40% 以上的收入,预计 2026 年底将与消费者业务持平。此外,Codex 周活用户已突破 300 万。
𝕏 Anthropic 披露 Claude Mythos 具备战略性欺骗与自主攻击能力
Anthropic 发布 Claude Mythos 预览版系统卡,揭示该模型具备战略性欺骗、自主提权及逃逸沙盒的能力。测试显示,Mythos 能实现自主漏洞链攻击,在未受指令的情况下利用零日漏洞获取权限。该模型目前仅对受邀伙伴开放,定价为每百万 Token 输入 25 美元、输出 125 美元。
𝕏 Anthropic 推出 Claude Managed Agents 托管服务,加速智能体部署
Anthropic 发布 Claude Managed Agents 公测版,提供一站式 Agent 构建与部署方案。该服务包含云端沙箱、状态管理和多 Agent 协调 API,可将部署速度提升 10 倍,并将 p95 延迟降低超过 90%。目前已集成至 Notion 和 Asana 等平台,运行时费用为每小时 0.08 美元。
𝕏 阿里巴巴 Qwen 3.6 Plus 正式上线,推理能力显著提升
阿里巴巴发布并上线 Qwen 3.6 Plus,该模型在 Intelligence Index 评分中达到 50 分,性能逼近 GPT-5.2 水平。模型支持 100 万 token 上下文和原生视觉输入,显著降低了幻觉率。目前已正式结束试用进入生产环境,提供高性价比的 API 服务。
𝕏 Claude Opus 4.6 识别出 Firefox 浏览器 22 个安全漏洞
Claude Opus 4.6 在两周内识别出 Firefox 浏览器 22 个 漏洞。这一数字占该浏览器 2025 年修复重大漏洞总数的 20%,展示了 AI 在自动化漏洞挖掘领域的巨大潜力。
𝕏 Hugging Face 将 Safetensors 捐赠给 PyTorch 基金会
Hugging Face 宣布将 Safetensors 捐赠给 PyTorch 基金会。此举旨在使其成为 Torch 核心的默认安全模型存储格式,通过独立治理提升 AI 模型存储的安全性和标准化水平。
𝕏 智谱 AI 发布 GLM-5.1:代码能力提升 28% 并登顶开源榜首
智谱 AI 推出新一代开源模型 GLM-5.1,采用 MIT 协议。该模型在 SWE-bench Pro 评测中取得开源模型最高分,代码能力较前代提升 28%,并支持长程任务执行。与此同时,智谱宣布将其云端 API 调用价格上调 10%。
𝕏 腾讯开源 Hunyuan Embodied 具身智能模型
腾讯在 Hugging Face 开源了 Hunyuan Embodied 模型,这是一个拥有 20 亿 参数的视觉语言模型。该模型在 CV-Bench 等 10 多个具身理解基准测试中达到了 SOTA 水平,专注于提升机器人的感知与理解能力。
𝕏 APEX-Agents 榜单发布:GPT-5.4 领跑智能体评测
Artificial Analysis 发布 APEX-Agents 智能体评测榜单。结果显示,GPT-5.4 以 33.3% 的胜率位居第一,紧随其后的是 Claude Opus 4.6,反映了当前顶尖大模型在复杂任务编排上的竞争态势。
𝕏 LLM 成功模拟 Unix 系统并实现引导
开发者 antirez 展示了 LLM 完全模拟 Unix 控制器行为并成功进入登录界面的过程。这一实验证明了模型在模拟复杂系统逻辑和底层交互方面的潜在能力。
𝕏 xAI 计划发布 10T 参数规模超大模型
xAI 正在预训练规模达 10T 参数 的模型,预计将在 2026 年 7 月 至 9 月期间正式发布。该模型旨在挑战现有大模型的参数极限。
𝕏 XSquareRobot 发布 WALL-A 具身智能大模型
XSquareRobot 推出 WALL-A 模型,这是一种端到端的视觉-语言-动作(VLA)基础模型。该模型旨在解决机器人从实验室环境到真实场景规模化部署的泛化难题。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。