天眼早报
🤖 AI 大模型
𝕏 Anthropic 最新模型 Mythos 正在 AWS Trainium 芯片上训练
AWS 首席执行官透露,Anthropic 的最新模型 Mythos 正在 Trainium 芯片上进行训练。该模型被描述为 Anthropic 迄今为止最强大的模型,但因网络安全风险与高昂算力成本,目前仍受到较严格的发布限制。
𝕏 Anthropic 开启 Claude Managed Agents 公测,并披露性能优化细节
Anthropic 开启 Claude Managed Agents 公测,提供包含沙箱、状态管理和 MCP 协议 内置的托管环境,帮助开发者在数天内构建并部署生产级代理,减少 Agent 开发中大量重复的基础设施工作。官方还披露,其通过将智能体“思维”与执行环境分离,使 p50 首 token 时间 下降约 60%,p95 下降超 90%。
𝕏 Anthropic 为 Messages API 增加 advisor tool 测试版
Anthropic 在 Messages API 增加 advisor tool 测试版,让 Haiku 或 Sonnet 在遇到复杂问题时可调用 Opus 提供辅助建议。官方数据显示,Haiku+Opus 在 BrowseComp 上从 19.7% 提升到 41.2%,Sonnet+Opus 在 SWE-bench 多语言任务上提升 2.7 个百分点,同时任务成本下降 11.9%。
𝕏 Anthropic 正式发布 Claude Cowork 企业版增强功能
Anthropic 宣布 Claude Cowork 结束预览阶段并正式商用,面向 Enterprise 用户新增角色访问控制、团队支出限制及 OpenTelemetry 支持,重点提升跨团队协作与企业级治理能力。
OpenAI 推出 100 美元/月 ChatGPT Pro 新档位,重点提升 Codex 用量
OpenAI 推出全新的 100 美元/月 ChatGPT Pro 订阅方案,填补 20 美元与 200 美元之间的价格空白,核心面向开发者与编程场景。该档位重点支持 Codex,提供较 Plus 高 5 倍 的使用额度,并在限时阶段最高提升到 10 倍,显示 OpenAI 正加码开发者市场竞争。
𝕏 Glass 5.5 通过开发者 API 发布,主打临床 AI
Glass 5.5 已接入 开发者 API,官方称其在 9 项临床准确率基准 上超过 OpenAI、Anthropic 与 Google 的相关模型,定位为面向医疗与临床场景的专业 AI 能力平台。
𝕏 Gemma 4 发布一周下载破千万,Gemma 系列累计超 5 亿次
Google DeepMind 披露,Gemma 4 发布首周下载量超过 1000 万,而 Gemma 系列累计下载量已超过 5 亿。官方同时表示,新模型在部分任务上可超过体量大 10 倍的模型,显示其开源模型生态仍在快速扩张。
𝕏 Google DeepMind 发布 Gemma 4 31B,支持 256K 上下文与多模态推理
Google DeepMind 推出 Gemma 4 31B,支持 256K 上下文、多模态推理及原生函数调用,进一步提升了 Gemma 系列在复杂任务与开发集成场景中的能力。Together AI 也已同步上线推理服务,并提供 99.9% SLA 保障。
𝕏 Gemopus 4 E4B 发布,主打移动端高吞吐推理
Gemopus 4 E4B 基于 Gemma 4 训练,作者称其在 iPhone 上可达 45–60 tok/s,在 MacBook Air M3/M4 上可达 90–120 tok/s,模型体积约 16GB,强调在消费级设备上的高吞吐本地推理能力。
𝕏 Google 为 Gemini Pro 新增交互式可视化功能
Google 为 Gemini Pro 模型新增可视化能力,用户可通过“show me”等指令把复杂概念转换为可交互的 3D 模型 或动态图表,并可实时调整变量、旋转查看,以增强解释与教学场景体验。
𝕏 OpenAI 计划推出具备高级能力的网络安全产品
OpenAI 正在敲定一款具备高级 网络安全产品 能力的系统,并计划先向少量合作伙伴发布。该产品旨在利用 AI 的自主性应对黑客威胁,但由于潜在破坏性与安全风险,OpenAI 对大规模开放持谨慎态度。
𝕏 Google 将 Notebooks 设为 Gemini 的核心组织单元
Google 宣布将 Notebooks 作为 Gemini 的核心组织单元,用户现在可将 Gemini 聊天记录保存为来源,并在 NotebookLM 中进行查询、整理和管理,进一步打通聊天与知识组织工作流。
𝕏 vLLM 的 llm-compressor 已支持 Qwen 3.5 与 Gemma 4 量化
vLLM 项目的压缩工具 llm-compressor 达到 3K 星,并已支持 Qwen 3.5 与 Gemma 4 的 FP8 及 NVFP4 量化检查点,方便开发者在推理部署中获得更低成本与更高效率。
𝕏 研究实现 LLM 推理 KV Cache 压缩 5.02 倍
最新研究提出一种面向 LLM 推理阶段的 KV cache 压缩技术,在尽量保持模型性能的同时,实现了 5.02 倍 的压缩率,可显著降低显存占用并提升长上下文推理的部署可行性。
𝕏 Mistral 开源首个 TTS 模型 Voxtral (4B)
Mistral AI 发布 Voxtral (4B) 语音合成模型,支持 3 秒零样本语音克隆,在人类偏好测试中胜率达 68.4%。该模型采用混合架构,支持 9 种语言,并可在笔记本端本地运行。
𝕏 阿里发布 HappyHorse-1.0 视频生成模型,登顶评测榜单
阿里巴巴 推出 AI 视频模型 HappyHorse-1.0,在 Artificial Analysis 的文本/图像转视频评测中位列 第一,显示其在视频生成质量与综合能力上的竞争力。该模型后续将通过阿里云向企业客户开放。
𝕏 OpenMOSS 开源 MOSS-VL,并推出实时视频理解模型
OpenMOSS 开源 MOSS-VL 多模态引擎,官方称其视频理解得分超过 Qwen3-VL。同步推出的 MOSS-Video-Preview 支持流式视频理解与低延迟双工交互,面向更实时的视频智能场景。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。