天眼晚报
🤖 AI 大模型
Anthropic Mythos 模型数小时识别美国情报系统漏洞
Anthropic的Mythos模型在测试中数小时识别出美国政府机密系统安全漏洞。参议员Mark Warner援引 NSA 负责人的说法。该测试结果导致政府限制外国公民访问 Fable 5 和 Mythos 5。百余名网络安全专家联名反对限制措施。
🔵 智谱 AI 考虑在香港进行数十亿美元配股,年内涨幅超 2000%
据知情人士透露,智谱 AI(Zhipu)正考虑在香港进行数十亿美元的股份配售,自1 月上市以来股价已暴涨2000%。
𝕏 百度发布 Unlimited OCR 模型,可连续解析数十页文档
百度发布 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术,3B 参数 500M 激活,一次前向推理可解析数十页文档,在 OmniDocBench 评测中准确率达93%。
𝕏 Qwen-AgentWorld:语言世界模型用于通用 AI 智能体
阿里通义千问发布Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B,首批能通过长链推理模拟 7 个领域智能体环境的语言世界模型。
𝕏 豆包推出专业版,办公模式起价 68 元/月
豆包专业版即日上线,起步价68 元/月,最高500 元/月,支持办公模式(操作电脑、调用技能、生成文档),标准套餐为免费版5 倍额度。
𝕏 Mistral 发布 Mistral OCR 4,OCR 评分最高
Mistral发布Mistral OCR 4,当前 OCR 评分最高,支持返回边界框、分类、置信度等数据。
𝕏 豆包 Seed-2.1-Pro 评测:编程、前端能力显著提升
豆包 Seed-2.1-Pro在多项测试中 coding 及前端能力进步明显,可通过豆包 App“办公任务”模式、TRAE IDE选择该模型,或通过火山引擎方舟 API 调用(Model ID: doubao-seed-2-1-pro-260628)。
𝕏 VibeThinker 3B 模型推理能力媲美 Opus 4.5
新模型VibeThinker仅3B参数,在 AIME26 上达94.3,LiveCodeBench v6 Pass@1 达80.2,性能匹配DeepSeek V3.2等大模型。使用 SFT+GRPO 训练。
𝕏 Anthropic 发布 Claude Tag:让 AI 像团队成员一样在 Slack 协作
Anthropic推出Claude Tag,允许企业用户在Slack中@Claude 委派任务,Claude 可访问指定频道和工具。该功能以 beta 形式向 Claude Enterprise 和 Team 方案开放。
𝕏 OpenThoughts-Agent:开源智能体模型数据配方
OpenThoughts-Agent发布完全开源的数据制作流程,基于Qwen3-32B微调后在 7 个智能体基准上平均准确率达44.8%。关键发现:指令选择比教师模型更重要。
🔵 腾讯正在测试企业微信 AI Agent 工具
腾讯正在为其企业通讯应用企业微信准备推出 AI Agent,旨在锁定用户生态。该工具由 DeepSeek 提供支持,是后 ChatGPT 时代中国科技巨头激烈竞争的一部分。
💹 百度千帆发布 Token Plan 企业版,聚合多款顶尖模型
百度千帆发布企业级 AI 订阅服务Token Plan 企业版,聚合DeepSeek-V4、GLM-5及Kimi-K2.6等模型,覆盖代码开发、智能办公等场景。
A2A 协议深度解析:智能体互联网的“HTTP”
Google联合 50+厂商推出A2A 协议,标准定义多 Agent 协作,已捐赠至Linux 基金会,获 22000+星。
𝕏 GPT-5.6 曾在 ChatGPT 网页中出现,预计近期发布
有用户在ChatGPT网页中发现GPT-5.6踪迹,按以往惯例,推测可能于近日内正式发布。
𝕏 Codex 开放第三方模型接入,支持插件 Skill
Codex编码智能体开放第三方模型接入,插件skill可用,提升工具扩展性。
Anthropic 详解 Claude Code 动态工作流
Anthropic解释Claude Code动态工作流如何生成定制化执行框架,使用多代理和模型路由解决代理惰性和目标漂移。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。