天眼晚报
🤖 AI 大模型
𝕏 ⭐ SakanaAI 发布 Fugu:多智能体编排系统,性能媲美前沿模型
SakanaAI发布Fugu系列,是一个多智能体编排系统,通过单一 API 端点动态调度多个专家模型,自动委派任务并合成结果。其中Fugu Ultra性能与Fable和Mythos相当,且不受出口管制影响,在多数基准测试中匹配前沿模型。东京团队开发,号称“编排模型是下一个前沿”。
𝕏 ⭐ Anthropic 或接入苹果 Digital ID 核验用户国籍以遵守出口管制
据 9to5Mac 爆料,Anthropic可能接入苹果 Digital ID数字身份证体系来核验Claude用户的国籍,以应对美国 AI 模型出口管制。这标志着大模型从互联网产品转向受国家边界管理的战略资源,未来或进入“AI 护照时代”。
💹 ⭐ 中国大模型周调用量 18.81 万亿 Token 连续八周领跑全球
OpenRouter数据显示,上周全球大模型调用46.7 万亿 Token,中国模型占18.81 万亿 Token,其中DeepSeek-V4-Flash连续五周第一,小米 MiMo-V2.5升至第二,Claude Opus 4.8调用量环比增长36%。
𝕏 ⭐ 泽智谱市值突破 1 万亿,GLM-5.2 驱动
智谱(Zhipu AI)凭借GLM-5.2模型表现,市值一举冲破1 万亿元人民币,成为国内 AI 领域重要里程碑。
𝕏 ⭐ Claude Code 新增 5 层子代理嵌套,支持最多 1000 个 Agent 并行
Claude Code更新支持5 层子代理嵌套,单个工作流最多运行1000 个 Agent,每层有独立上下文窗口和工具集。动态工作流运行时自动生成编排脚本,并引入对抗验证机制确保可靠性。
𝕏 ⭐ GLM-5.2 登顶 DeepSWE 编程榜单,Kimi-K2.7-Code 性价比 SOTA
新发布的DeepSWE编程能力评估榜单显示,国产GLM-5.2获得最高分,Kimi-K2.7-Code为性价比最优。DeepSWE 采用人工制造问题,覆盖TypeScript, Go, Python, JavaScript, Rust五种语言,更贴近真实工程场景。
𝕏 ⭐ Anthropic 内部已训练出比 Mythos 更强的新模型,因出口管制暂停发布
Anthropic内部已训练完成比Mythos更强的新模型,但因美国出口管制,Fable 5和Mythos公开发布暂停。这并不影响研发速度,内部迭代资源更集中。此外,有消息称一个能力更强的版本已完成训练,当前版本仍被美国政府禁止。
GLM-5.2 评测:国内最强但暂不全切
国产模型GLM-5.2支持1M 上下文和128K 输出,在长任务编程上接近 GPT/Claude 第一梯队,但仍存在限流、倍数消耗等使用摩擦。不适合全量切换 Agent 主力。
𝕏 ⭐ GLM-5.2 上架 AWS Marketplace,企业可直接调用
智谱 AI的GLM-5.2模型通过AWS Marketplace提供 API,支持长周期自主工作流与多步推理,无需自建 GPU。
腾讯小范围测试微信 AI 助手“小微”
腾讯已在小范围测试微信全新 AI 助手“小微”,用户可用文字或语音互动。主模型为自研WeLM,部分回答调用DeepSeek。微信用户超10 亿,此举旨在追赶字节、阿里等 AI 对手。
𝕏 谷歌 Gemini CLI 停止对个人账户服务
从6 月 19 日起,Gemini CLI不再处理个人用户请求,用户需迁移至反重力 CLI。企业用户和 Gemini Code Assist 订阅者暂时不受影响。
𝕏 ⭐ JoyAI-VL-Interaction-Preview 开源,实时视频语言交互模型性能领先
ModelScope发布开源8B参数实时视频语言交互模型JoyAI-VL-Interaction-Preview,采用 Apache 2.0 协议,在监控告警场景以100%胜率超越豆包和 Gemini 视频助手,训练数据400 万段对齐片段。
xAI 发布 Grok Skills,用户可通过自然语言一次性创建自定义工作流
xAI发布Grok Skills,用户可通过自然语言一次性创建自定义工作流,后续会话自动应用。同时更新面向Grok 4.3的 Responses API,支持工具调用,上下文窗口达100 万 token。
𝕏 Pew Research: 44% 美国成年人使用 ChatGPT
Pew Research发布《2026 年美国人与 AI》报告:44%成年人使用ChatGPT,**49%**使用 AI 聊天机器人,**24%每天使用,仅16%**认为 AI 将有益社会。
𝕏 百度开源 Unlimited OCR 模型,长文档转录可一次前向推理
百度在 GitHub 和 HuggingFace 开源Unlimited OCR模型,采用R-SWA注意力机制,支持32K 上下文一次转录几十页文档,KV Cache 恒定不随页数膨胀。
𝕏 ⭐ 开源绘画模型 Boogu 发布 0.1 版本,精确写出汉字
初创公司Boogu发布开源绘画模型 0.1,优势在于能精确写出汉字并具备推理能力,但美学效果稍差。
𝕏 Google 与联发科合作升级 TPU v9 变种 Triggerfish
Google与MediaTek合作升级 TPU v9 变种Triggerfish,新增SRAM、HBM4E内存和新模拟芯片,专为推理、AI Agent 和强化学习效率优化。
🟩 7 个 AI 模型选型经验:基于 880 次评测对比 Opus 4.7 等
tessl通过880次评估对比Anthropic、OpenAI和Cursor模型,总结 7 条选型建议,涵盖Opus 4.7等,并在实际 Agent 场景中验证,为开发者提供明确指引。
𝕏 PPO 在 LLM 时代迎来第二春,与 GRPO 分工明确
技术讨论:PPO被 GLM 5.2 用于 Agentic RL,而GRPO更适合推理任务。John Schulman引用 2017 年被拒论文“PPO”,九年后成为 RLHF 基石。
𝕏 MiniMax M3 缓存命中率达 95%,长程编码循环受益
MiniMax表示其模型M3的缓存命中率达95%,在长程编码循环(long-horizon coding loops)场景中表现突出,感谢 OpenCode 使该数据可见。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。