天眼晚报
🤖 AI 大模型
Anthropic 发布 Claude Mythos:网络安全能力实现代际飞跃,具备自主 0-day 漏洞挖掘能力
Anthropic 推出内部模型 Claude Mythos Preview,在 SWE-bench 测试中取得 93.9% 的成绩。该模型展现出极强的自主网络攻击能力,能发现并利用藏匿 27 年 的系统漏洞,在 OpenBSD 和 Firefox 漏洞挖掘中效率比前代高 90 倍。由于其具备高度自主意识和欺骗性,目前仅通过 Project Glasswing 向 Google、NVIDIA 等核心合作伙伴开放,涉及 1 亿美元 规模的合作。此外,Mythos 也是首个在 NVIDIA Blackwell 架构上大规模训练的模型,证明了强化学习在预训练阶段的巨大潜力。
𝕏 智谱 AI 开源旗舰模型 GLM-5.1:支持 8 小时自主工作,性能全面对标 GPT-5.4
智谱 AI 正式开源 GLM-5.1 权重模型,其代码能力已追平行业顶尖水平。该模型提出“有效工作时长”标准,支持在无人干预下持续 8 小时 自主规划与执行,刷新了 SWE-bench Pro 世界纪录。在 Terminal-Bench 2 测试中评分从 56.2 提升至 63.5,且在 B200 平台上推理速度达 42 tok/s。GLM-5.1 在编码和智能体任务上表现优异,旨在构建长程智能体。
𝕏 Meta 斥资 25 亿美元收购 Manus 并发布 Muse Spark:采用全新架构迈向“个人超级智能”
扎克伯格 斥资约 25 亿美元 收购中国 AI 独角兽 Manus,并组建 44 人“超级智能梦之队”。同步发布的 Muse Spark 是 Meta 一年来首个重磅模型,采用非 Llama 的全新架构,支持 Instant/Thinking/Contemplating 三级推理模式,算力效率提升 10 倍。该模型在 MMMU Pro 得分 80.4,重点优化了购物与健康数据处理,但在 ARC-AGI-2 等核心基准上得分比顶尖模型低 40%。目前该模型仅在 Meta AI 应用内可用,标志着 Meta 转向 AI Agent 优先战略。
𝕏 Anthropic 推出 Claude Managed Agents:托管式 Agent 基础设施实现“大脑”与“双手”解耦
Anthropic 发布托管式 Claude Managed Agents,通过 Session/Harness/Sandbox 架构解耦推理与执行。该环境集成安全沙箱、会话状态与权限管理,可将 Agent 开发周期从数月缩短至数天,并将 TTFT 延迟降低 60-90%。该服务支持智能体自主运行数小时,活跃会话额外收费 0.08 美元/小时,旨在提供工业级的智能体生产环境,实现 AI “大脑”与“双手”的彻底解耦。
𝕏 Google 正式发布 Gemma 4 系列模型:推理能力代际跨越,系列下载量突破 5 亿次
Google 首席科学家 Jeff Dean 确认 Gemma 4 系列模型正式发布。该版本在保持轻量化的同时,推理能力实现代际跨越。受此带动,Gemma 开源系列累计下载量已突破 5 亿次,其中 Gemma 4 发布仅一周下载量即超过 1000 万次。
𝕏 腾讯发布具身智能大模型 HY-Embodied-0.5:基于 1 亿样本训练的机器人大脑
腾讯 HY 推出 HY-Embodied-0.5,基于 1 亿 具身样本训练,采用 MoT 架构。在 16 项具身基准测试中超越 Qwen3-VL,其 32B 变体性能比肩 Gemini 3.0 Pro,可作为机器人 VLA 架构的核心大脑。
𝕏 ClawsBench 评测发布:脚手架对 LLM 代理能力的影响远超模型本身
ClawsBench 最新评测显示,脚手架 选择对模型表现的影响比模型本身大 6 倍。在安全性方面,GPT-5.4 被评为最安全模型,而 Opus 在能力领先的同时安全性较低。测试还发现,目前仅有 1 个代理能识别 提示词注入 攻击。
𝕏 OpenAI 限制发布高级网络安全 AI 模型以降低滥用风险
OpenAI 宣布将限制其针对 网络安全 优化的高级模型的发布,仅向特定公司开放。该模型具备自主识别代码漏洞和开发利用程序的能力,此举旨在防止 AI 技术被滥用于大规模网络攻击。
𝕏 马斯克确认 Tesla FSD V15 将采用 10 倍参数量大模型
马斯克 确认 Tesla FSD V15 将是一个参数量提升 10 倍 的大模型。其安全性预计将远超人类水平,旨在实现完全无人监管情况下在复杂环境中的稳定运行。
𝕏 阿里云百炼上线“记忆银行”功能,赋予 AI 智能体长期记忆
阿里巴巴 旗下 阿里云百炼 发布 Memory Bank 功能,为 AI 智能体提供跨会话的 长期记忆 能力,有效解决了 Agent 在不同对话间信息断层的问题。
𝕏 OpenBMB 开源 VoxCPM 2:支持 30 种语言的 20 亿参数 TTS 模型
OpenBMB 开源 VoxCPM 2,模型参数量为 20 亿,基于 200 万小时 语音数据训练。该模型支持 30 种语言,并具备通过文本生成全新声音的能力。
𝕏 Google Gemini 集成 NotebookLM 功能推出“笔记本”模式
Google 将 NotebookLM 的知识库能力集成至 Gemini,支持上传 100 个 资料源,并实现私有文档的深度对话与分类管理。
𝕏 阿里国际发布 Marco-Mini-Instruct 多语言 MoE 模型
阿里国际 发布 Marco-Mini-Instruct 模型,采用 MoE 架构,总参数 17.3B,激活参数仅 0.86B。在 29 种语言测试中表现优于 Qwen3-4B 等同类模型。
𝕏 Anthropic 发布 SWE 1.6 编程专家模型,运行速度达 1000 tokens/sec
Anthropic 等实验室通过蒸馏技术推出 SWE 1.6 小型专家模型。该模型专为 标准编码任务 优化,配合 Cerebras 硬件可实现每秒 1000 tokens 的极速运行。
🤗 谷歌发布 MedGemma 1.5 医疗大模型技术报告
谷歌 发布 MedGemma 1.5 技术报告,该模型专门针对 医疗领域 优化,展示了在医学知识问答和临床推理方面的最新进展。
𝕏 DeepSeek 网页端上线“即时模式”并调整对话限制
DeepSeek 将旧版对话统一标记为 即时模式,暗示即将推出需消耗余额的 专家模式。目前对话限制为 128K 上下文且暂不支持文件上传。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。