天眼晚报
🤖 AI 大模型
𝕏 Anthropic 推出 Claude Managed Agents 公测版
Anthropic正式发布Claude Managed Agents公开测试版,提供智能体运行所需的基础设施、任务编排与长时间执行能力,帮助开发者在数天内搭建可用于生产环境的智能体系统。这一发布聚焦“托管式 Agent”能力,把部署、调度和持续运行等复杂环节产品化,降低企业接入门槛。
𝕏 ModelScope 与 OpenMOSS 发布 MOSS-TTS-Nano,多语言语音模型可在 CPU 实时运行
ModelScope 与 OpenMOSS 发布 MOSS-TTS-Nano 0.1B,参数量仅 0.1B,主打纯 CPU 实时生成。模型支持20 种语言、48kHz Stereo音频输出,可用于本地 Demo、网页服务和轻量语音产品部署,强调在低硬件门槛下实现多语种实时 TTS 能力。
🤗 EXAONE 4.5 技术报告发布并登上 Hugging Face Papers 热榜
EXAONE 4.5 技术报告登上 Hugging Face Papers 热榜,披露了该代模型的架构设计与能力评测结果。该报告为外界理解 EXAONE 4.5 的模型路线、性能表现和技术取向提供了较集中信息,也显示其在研究社区获得较高关注。
𝕏 MiniMax 更正 M2.7 表述:因许可限制改称“开放权重”而非“开源”
MiniMax表示因许可协议调整,今后不再将 M2.7 称为“开源”,而改称开放权重。相关讨论指出,该模型采用非商业许可,禁止商业用途,使 OpenRouter 等托管与分发场景受限,也引发社区围绕“是否算开源”的争议。此次表述修正反映出其商用边界与分发限制被进一步明确。
𝕏 Cursor 3.0 被发现接入 Anthropic Agent 工具链,官方称仅为小流量测试
Cursor 3.0被开发者发现内置Anthropic Agent工具链,引发外界对其底层 Agent 框架来源的关注。团队成员 Michael Truell 回应称,这只是覆盖不到 1%流量的常规 A/B 性能测试,并非全面上线。事件显示主流 AI 编程工具仍在持续试验不同智能体基础设施方案。
𝕏 Anthropic 未公开模型 Mythos 在 GraphWalks BFS 基准大幅领先,社区猜测采用循环架构
Anthropic Mythos 的 system card 显示,其在 GraphWalks BFS 测试得分 80.0%,显著高于 Opus 4.6 的 38.7% 和 GPT-5.4 的 21.4%。围绕这一异常突出的图搜索表现,社区推测 Mythos 可能采用 LoopLM 一类循环语言模型架构,相关猜测也提到字节 Seed 参与提出的思路。不过截至目前,Anthropic 尚未公开确认其具体架构细节。
𝕏 DFlash 移植至 MLX,Qwen3-4B 在 Apple Silicon 上实现无损 speculative decoding
DFlash 已移植到 MLX,使 Qwen3-4B 在 MacBook 等 Apple Silicon 设备上达到 186 tok/s。这一进展表明无损 speculative decoding 已可在苹果端侧生态中落地,有助于提升本地推理速度,并推动 MLX 在高性能 LLM 推理场景中的实用性。
𝕏 OpenBMB 发布 VoxCPM 2 开源语音模型
OpenBMB发布VoxCPM 2,这是一款20 亿参数的开源 TTS 模型,支持30 种语言、8GB 显存运行、48kHz 音频输出与实时推理。该模型在参数规模、部署门槛和多语言覆盖之间取得平衡,面向需要高质量语音生成但算力预算有限的开发场景。
𝕏 Ramp 数据称 Anthropic 企业付费采用率逼近 OpenAI
Ramp 数据显示,企业 AI 付费渗透率已达50.4%,其中 Anthropic 份额升至30.6%,与 OpenAI 的差距缩小至 4.6 个百分点。该数据反映出企业级生成式 AI 采购正在扩大,同时 Anthropic 在商业客户中的渗透速度明显加快。
💹 OpenAI CEO Sam Altman 住所 45 小时内再次遭枪击
当地时间4 月 12 日凌晨 1 点 40 分,Sam Altman住所再次遭枪击,距离上次袭击仅45 小时 45 分钟。旧金山警方已逮捕两名嫌疑人,年龄分别为25 岁与23 岁。事件因受害者身份特殊而引发广泛关注,也再次凸显 AI 行业核心人物的人身安全风险。
𝕏 MiniMax 公布 M2.7 在 4 台 DGX Spark + vLLM 环境下的推理吞吐成绩
基准测试显示,MiniMax M2.7 在 4x DGX Spark + vLLM 环境下,最高达到 3.45k prefill 与 33.44 decode token/s。该结果展示了模型在特定集群配置下的推理吞吐能力,为外界评估 M2.7 的部署效率和工程可用性提供了量化参考。
𝕏 Kimi CLI 稳定性持续改善,命令行使用体验获用户认可
用户反馈显示,Kimi CLI 近期稳定性和可用性继续提升,在命令行模型调用场景中的体验有所改善。虽然信息主要来自使用者观察,缺少更系统的性能或版本说明,但仍反映出 Kimi CLI 正在朝更稳定的开发者工具方向迭代。
AMD 量化审计称 Claude Code 在复杂工程任务中的可靠性不足
AMD 团队追踪 6852 个 Claude Code 会话、23.5 万次工具调用 后称,在复杂工程任务中,模型推理深度下降 67%,API 调用量却增近 80 倍,最终决定切换 provider。该审计以较大规模真实使用数据为基础,指出 Claude Code 在长链路、重工具依赖的软件工程流程中,可能面临效率与可靠性双重问题。
AI 编程工具提升资深开发者效率,但也引发能力退化担忧
InfoQ 汇总《纽约时报》与开发者讨论称,Claude Code 等 AI 编程工具可显著提升资深开发者效率,尤其在重复性编码和辅助实现环节表现突出。但也有工程师表示,连续 4 个月 高频使用后开始担心出现“编程能力退化”。这反映出 AI 编程助手在效率收益之外,也正在引发关于技能保持与认知依赖的讨论。
🔶 荣耀发布终端侧智能体 YOYO Claw,首次搭载 MagicBook
荣耀发布终端侧YOYO Claw 智能体,首次搭载于 MagicBook 轻薄本。按 PinchBench 测试,其综合词元消耗可节省 50%。该产品强调端侧智能体落地与设备结合,显示 PC 厂商正在将本地 AI Agent 作为新一代终端交互与效率能力来推进。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。