05月04日 · 科技早报

天眼早报

科技|2026年05月04日|53 分钟阅读
来源:931 条推文 + 205 篇 RSS 文章·Lanyun·BatchV2 生成·2026-05-03 — 2026-05-04
分享
AI 速读14 条精选

🤖 AI 大模型

𝕏 OpenAI Codex 5.5 经 Harness Engineering 调优后,Terminal-Bench 2.0 大幅提升

OpenAI 发布 Codex 5.5,通过 Harness Engineering(如提示词和中间件钩子)优化后,在 Terminal-Bench 2.0 上从 52.8% 提升至 66.5%。相关披露还指向 gpt-5.2-codex 的同类收益,说明代理外壳设计会显著放大代码模型表现。

𝕏 商汤开源 SenseNova-U1:采用无视觉编码器的原生多模态架构

商汤开源 SenseNova-U1,通过 NEO-Unify 去除视觉编码器和 VAE,改用 MoT 统一建模像素与词元,主打原生多模态路线。该设计强调减少模态间割裂,探索更统一的多模态表示与生成方式。

𝕏 Demis Hassabis:AGI 仍需补齐持续学习、长程推理与记忆

Demis Hassabis 在 YC 访谈中表示,当前范式仍是 AGI 的一部分,但距离真正通用智能仍缺少 持续学习、长程推理和记忆系统;他还认为未来 6-12 个月 小模型的价值会更突出。

𝕏 哈佛研究:AI 在急诊诊断中准确率超越医生

哈佛最新研究显示,AI 系统在紧急医疗场景下的诊断准确率高于人类 急诊医生。这项结果为 医疗 AI 在临床决策支持中的应用提供了新的数据支撑,也强化了人机协作诊疗的可行性。

𝕏 vLLM 0.20.1 修复 DeepSeek V4 多项生产问题

vLLM 0.20.1 针对 DeepSeek V4 修复了 TopK 死锁、RoPE 缓存、工具调用类型转换等 10+ 个问题,并加入 GEMM 与 FP4 转换优化,重点提升推理在生产环境中的稳定性与性能。

𝕏 NousResearch 发布 Hermes Agent Kanban:用看板编排多 Agent 任务

NousResearch 推出 Hermes Agent Kanban,用可视化看板组织多 Agent 的角色分工、任务依赖与协作流程,帮助复杂工作流更清晰地拆解、排程和追踪。

𝕏 Claude Code 云端版新增任务状态分类

Claude Code 云端版开始将任务按 需关注、等待 review、进行中、已完成、出错等状态分类,为后续看板式管理铺路,帮助用户更直观地跟踪任务进度与异常情况。

𝕏 OpenRouter 推出 response cache:相同输入可直接返回缓存回复

OpenRouter 新增 response cache,当输入完全一致时可直接返回已缓存回复,适用于重试、测试等 LLM 调用 场景,可减少重复请求与延迟。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。