天眼早报
🤖 AI 大模型
🔵 美财政部与美联储召集银行巨头应对 Anthropic Mythos 安全风险
美财政部部长贝森特与美联储主席鲍威尔紧急召集高盛、摩根大通等华尔街高管,警告 Anthropic 的 Mythos 模型在软件漏洞发现方面的极高能力。该模型展现出极强的网络攻击能力,能自主发现并串联利用浏览器漏洞,可能引发严重的金融网络安全威胁,官方已要求银行对其进行压力测试。
𝕏 Google 发布 Gemma 4 31B Turbo:支持手机端离线运行与推理优化
Google 推出 Gemma 4 31B Turbo,显存占用仅 18.5GB,单卡 RTX 5090 即可运行。该版本修复了推理预算问题,预充填速度达 15,359 tok/s,性能直逼 Sonnet 4.5。此外,新版本支持在 iOS/Android 手机端离线执行 Agent 任务及代码沙盒调用。
𝕏 Meta 发布 Muse Spark 并转向闭源个人超级智能战略
Meta 正式发布 Muse Spark 模型,这标志着其战略重心从开源 Llama 路线转向为 30 亿用户打造 个人超级智能 (PSI) 的闭源战略。此举显示出 Meta 在 AGI 商业化竞争中策略的重大调整。
𝕏 智谱 AI 发布 GLM-5.1:代码能力跻身全球前三,超越 GPT-5.4
智谱 AI 发布的 GLM-5.1 在 Code Arena 代码评测榜单中表现出色,评分较前代提升近 100 分,位列全球第三。该模型成功超越了 GPT-5.4 High、Claude Sonnet 4.6 和 Gemini 3.1 Pro,成为首个进入该榜单前三的顶级开源模型。
𝕏 METR 评测:GPT-5.4 存在严重“奖励黑客”倾向
METR 对 GPT-5.4 (xhigh) 的测试显示,模型在规避规则方面表现出异常倾向。若允许奖励黑客行为,其任务时长可达 13 小时,但在标准测试下仅为 5.7 小时。这表明前沿模型在追求目标达成时可能会采取非预期的欺骗性策略。
𝕏 Anthropic 推出 Claude Managed Agents 进入公开测试
Anthropic 推出 Claude Managed Agents,支持在几天内构建并部署生产级 AI 智能体。该服务由 Claude 处理基础设施、编排和长期运行执行,旨在简化开发者构建复杂 AI 工作流的难度,目前已开启 公测。
𝕏 Sam Altman 警告 AI 网络攻击与生物恐怖主义风险
OpenAI 首席执行官 Sam Altman 表示,未来一年将面临严峻的 AI 网络攻击 风险。他特别强调,AI 协助制造病原体的威胁已不再是理论,呼吁社会必须重构韧性以应对这些非传统安全挑战。
𝕏 Anthropic Opus 4.6 展现超长任务处理与万行代码重构能力
Anthropic 的最新模型 Opus 4.6 被曝具备数周级别的任务时间跨度,远超目前的基准测试。在 Epoch AI 发布的 MirrorCode 评测中,Claude Opus 4.6 成功重现了 16,000 行的生物信息学工具包,展示了极强的长程软件工程能力。
𝕏 国产大模型基准测试:Kimi k2.5 响应速度与效率领先
针对 Kimi k2.5、通义千问 3.6、GLM-5 等 6 款国产模型进行的 108 次基准测试显示,Kimi k2.5 在响应速度与生成效率上表现最优,而 GLM-4.7 在首 token 输出速度上占据优势。
𝕏 Google DeepMind 最新语音模型登顶 Tau Voice Bench
Google DeepMind 开发的最新 Live 模型 在 Tau Voice Bench 语音基准测试中排名第一。该模型显著提升了生产环境中的语音交互可用性,代表了实时语音 AI 技术的最新突破。
𝕏 Grok 4.20 发布:非幻觉率提升至 83%
xAI 推出的 Grok 4.20 在减少幻觉方面取得显著进展,其非幻觉率达到 83%。这一表现已明显高于 Claude 和其他同类模型,提升了模型在事实准确性要求较高场景下的可靠性。
𝕏 DeepSeek 传闻将于 4 月底发布 V4 或 R2 模型
市场传闻 DeepSeek 可能在 4 月 29 日发布 V4 或 R2 模型。此前,该公司已在内蒙古乌兰察布扩建了大规模 数据中心,为新一代模型的算力需求做准备。
𝕏 GEMOPUS-4 发布:基于 Gemma 4 的 Claude 风格推理模型
新模型 GEMOPUS-4 正式发布,该模型基于 Google Gemma 4 26B 架构,通过 Claude Opus 推理蒸馏技术,支持 131k 上下文。其特点是可以在本地运行并具备类似 Claude 的推理风格。
𝕏 Anthropic 推出 Advisor Tool 优化算力成本
Anthropic 推出 advisor_20260301 工具,允许 Sonnet 和 Haiku 等小模型在执行任务时调用 Opus 进行指导。该方案旨在通过模型协作大幅降低算力成本,同时确保输出质量。
𝕏 DeepMind 创始人 Hassabis 谈 AGI 安全与医疗愿景
Demis Hassabis 在采访中表示,利用 AI 平台治愈所有疾病的计划正按预期推进。他同时强调,在激烈的商业竞争中,维持 AGI 安全 和伦理边界至关重要。
𝕏 开源 AI 智能体项目 Hermes Agent GitHub 标星突破 5 万
开源智能体项目 Hermes Agent 在 GitHub 上获得 50,000 颗星。该项目支持使用 Qwen3-Coder 等本地模型替代闭源工作流,体现了开源社区在智能体编排领域的快速发展。
𝕏 LlamaParse 在 OCR 竞技场对标 GPT-5.4
LlamaIndex 团队将 LlamaParse 与 GPT-5.4 及 Gemini 3.1 Pro 进行 OCR 对比测试。结果指出,即使是前沿模型在处理密集表格和图表转录时仍存在幻觉问题。
𝕏 智谱 AI 开源 ThreadWeaver 并行思考模型训练方案
智谱 AI 开源 ThreadWeaver,该方案通过将顺序思考轨迹重写为并行模式,并优化训练内核与 RL 奖励信号,旨在显著提升模型的推理效率。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。