天眼晚报
🤖 AI 大模型
𝕏 快手发布 KAT-Coder-Pro V2,非推理编码模型追平 Claude Sonnet 4.6
KwaiKAT 正式发布 KAT-Coder-Pro V2 版本,这是一款非推理型编码模型。在 Artificial Analysis 指数中,该模型获得 44 分,较 V1 版本提升 8 分,性能表现已追平 Claude Sonnet 4.6。新模型支持 256K 上下文窗口,端到端生成速度约为 109 token/s,单次评测成本约 73 美元,展现了极高的性价比与效率。
𝕏 Qwen 3.6 Plus 在 OpenRouter 开启预览,提供 100 万上下文窗口
通义千问 Qwen 3.6 Plus 已在 OpenRouter 平台开启预览服务。该版本支持高达 100 万(1M)的上下文窗口,最大输出长度可达 65.5K。实测数据显示,其首 Token 响应时间约为 1.22 秒,吞吐量约为 55 token/s。目前官方已开放免费试用,为开发者提供了处理超长文档和复杂任务的强大工具。
🔶 阿里通义实验室发布 CoPaw 1.0 新版本,增强多智能体协同能力
阿里通义实验室正式升级并发布 CoPaw 1.0 新版本。此次更新重点增强了定制小模型的构建能力、系统安全机制、多智能体协同工作流以及记忆管理能力。CoPaw 旨在通过更高效的智能体协作模式,解决复杂任务中的规划与执行难题,进一步提升 AI 在实际应用场景中的落地效果。
Claude Code 新增 Computer Use 功能并发生源码泄露事件
Anthropic 发布的 Claude Code 迎来重大更新,新增 Computer Use 功能,支持通过 CLI 直接操控 macOS 系统,实现编译、运行、调试 UI 及修复 CSS 等全终端无人值守开发,彻底改变开发者工作流。然而,与此同时,因 npm 包发布时未排除 source map 文件,导致约 51.2 万行源代码意外泄露。GitHub 上已出现非官方还原仓库,包含 4756 个文件,揭示了内部架构如主查询状态机、Tool Execution 逻辑,甚至发现了 Capybara v8、Numbat 等新模型代号及 KAIROS、Auto-Dream 等未发布功能设计,引发行业对 AI Agent 安全性的强烈担忧。
🔶 清华与智谱推出 Vision2Web 基准,揭示多模态 Agent 全栈构建瓶颈
清华大学与智谱 AI 联合推出 Vision2Web 基准测试,这是首个专门评估多模态 Agent 网站开发能力的标准。该基准包含 193 个开发任务和 918 张原型图。研究结果显示,随着任务复杂度提升,当前 SOTA 模型在全栈构建中的性能显著下降,暴露了多模态大模型在复杂工程落地方面的不足,为后续优化指明了方向。
🏠 苹果国行 Apple Intelligence 短暂上线后撤回,正推进监管审批
苹果确认国行版 iPhone 和 iPad 曾于凌晨短暂上线 Apple Intelligence 下载入口,用户可下载约 9.5GB 的模型文件,但随后迅速撤回。苹果方面回应称,这是由于软件问题导致的临时故障,现已修复。正式上线仍需等待中国监管机构的最终审批,目前苹果正积极与中国监管机构沟通,推进相关功能的落地进程。
DeepSeek 与 Claude Opus 4.6 近期均出现服务异常
DeepSeek 于 3 月 31 日 17:02 CST 确认其网页端与 API 出现性能降级,官方正在调查具体原因。与此同时,Anthropic 的状态页显示,自 08:53 UTC 起,Claude Opus 4.6 也出现了错误率升高的情况,官方已启动故障排查程序。这两起事件反映了当前大模型服务在高并发或更新期间可能面临的稳定性挑战。
小米 MiMo-V2-Pro 进入 Text Arena 全球前五,雷军强调真实投票
小米创办人雷军宣布,小米大模型 MiMo-V2-Pro 在权威评测榜单 Text Arena 中跻身全球前五。Text Arena 采用双盲测试与即时用户投票机制,拒绝刷榜,确保了排名的公正性。这一成绩证明了 MiMo-V2-Pro 在复杂逻辑推理及多轮对话场景下的卓越表现,是小米在大模型领域取得的重要突破。
智谱发布 2025 年财报:API 涨价 83% 仍带动调用量激增,年收破 7.24 亿
智谱 AI 发布 2025 年度业绩报告,全年收入超过 7.24 亿元,同比增长 132%。其核心业务 MaaS API 平台的年度经常性收入(ARR)达到约 17 亿元,同比暴增 60 倍。值得注意的是,尽管智谱将 API 价格上调了 83%,但调用量不降反升,显示出市场对高质量 AI 能力的强劲刚需。此外,公司还提出了衡量 AI 生产力的新指标 TAC。
ChatGPT-5.2(Thinking) 首次独立原创证明数学假设,催生新推理方法
比利时布鲁塞尔自由大学证实,商用大模型 ChatGPT-5.2 (Thinking) 已具备独立生成原创数学证明的能力。该模型成功破解了一项悬而未决的数学猜想,并催生了名为“vibe-proving”的全新 AI 推理方法。相关研究成果已发表于 arXiv,标志着大模型在基础科学探索领域取得了里程碑式的进展。
微软 Copilot 停止在 GitHub PR 中插入广告,承认是错误决定
GitHub Copilot 团队宣布,将停止在拉取请求(PR)中自动注入推广内容的行为。此前该功能影响了超过 150 万次 PR,被广泛指责为变相广告。首席产品经理 Tim Rogers 表示,在听取社区反馈后,团队认为这是一个错误的决定,承诺未来不再进行此类操作,以恢复开发者的信任。
GL
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。