05月09日 · 科技晚报

天眼晚报

科技|2026年05月09日|67 分钟阅读
来源:1035 条推文 + 329 篇 RSS 文章·Lanyun·BatchV2 生成·2026-05-09
分享
AI 速读21 条精选

🤖 AI 大模型

𝕏 翁家翌提出 Heuristic Learning:无需训练神经网络的持续学习范式

前 OpenAI 研究员翁家翌发布新研究,提出Heuristic Learning (HL) 范式。该方案利用Codex维护规则系统,通过代码迭代而非权重更新解决灾难性遗忘问题。实验显示,Atari Breakout中分数从387升至864MuJoCo任务均值达11836.7,全面超越传统PPO算法。

𝕏 Google DeepMind 推出 AI 数学家:自主求解 FrontierMath 难题准确率达 48%

Google DeepMind发布了多智能体系统AI co-mathematician**,FrontierMath Tier 4高难度数学测试中取得**48%**的得分,创下 AI 系统新高。该系统能主动与人类专家协作,探索群论、哈密顿系统等开放数学领域。

𝕏 Tilde Research 推出 Aurora 优化器:数据效率提升 100 倍

Tilde Research推出了Aurora优化器,训练出的Aurora-1.1B模型在开源互联网数据上实现了100 倍数据效率。该模型参数比同类少25%,训练 token 少两个数量级,仍能匹配Qwen3-1.7B**等多项基准,展现了极高的训练效率。

𝕏 StepAudio 2.5 TTS 登顶语音榜第三,Elo 达 1187

StepFun推出的StepAudio 2.5 TTS在 Artificial Analysis 语音竞技榜中表现优异,排名跃升至第 3位,Elo 评分达到1187。该模型以每百万字符85 美元的价格提供高质量语音合成服务,展现了强大的市场竞争力。

𝕏 Ai2 开源 EMO 模型:激进 MoE 架构实现显存与计算量双重优化

Ai2开源了EMO 模型**,采用激进的混合专家策略。不同于标准 MoE 仅减少计算量,EMO 可根据策略仅加载所需专家到显存,实现显存计算量的双重优化,为低资源环境下的推理提供了全新解决方案。

𝕏 Claude Mythos 预览版在 METR 基准上任务时间跨度超第二名 2 倍

Claude Mythos PreviewMETR**基准测试中表现惊人,其在80%成功率任务上的时间跨度超过了下一最佳模型的2 倍,展示了极强的复杂任务处理能力。

𝕏 DeepSeek V4 推理吞吐提升 4 倍,SGLang 与 RadixArk 联合优化

SGLangRadixArk合作优化了DeepSeek V4的推理性能,使其在英伟达GB300(及 B200/B300 系列)硬件上实现了4 倍的等交互吞吐提升。这一突破显著降低了大模型的推理延迟,提升了大规模部署的效率。

𝕏 METR 数据显示前沿模型任务时长约每 103 天翻倍

METR-Horizon拟合分析显示,当前前沿 AI 模型完成特定任务的时间跨度大约每103 天翻一倍。最新测试中,Claude Mythos得分高达85.21%**,略高于趋势预测值,显示出模型能力的快速迭代。

𝕏 HiDream-O1-Image 开源 8B 图像模型,提供蒸馏与非蒸馏版本

HiDream-O1-Image正式开源其8B**图像模型,提供 Dev 蒸馏版与标准版两种选择。其中蒸馏版推理步数仅需28 步,标准版为50 步,在保证生成质量的同时大幅降低了推理成本和时间。

𝕏 DuckDuckGo 推出免费 AI 聊天入口,支持多家轻量模型

DuckDuckGo AI**免费版正式上线,支持接入GPT-5 mini、GPT-4o mini、Claude Haiku 4.5 和 Mistral Small 4 等多款轻量级模型,为用户提供便捷的免费 AI 对话体验。

𝕏 Gemini 新增记忆导入功能,支持迁移 ChatGPT 与 Claude 用户记忆

Gemini**新增了记忆导入能力,允许用户将过往在ChatGPTClaude等平台生成的文本内容迁移至 Gemini 作为长期记忆,增强了跨平台的使用连贯性。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。