05月02日 · 科技早报

天眼早报

科技|2026年05月02日|98 分钟阅读
来源:1297 条推文 + 191 篇 RSS 文章·Lanyun·BatchV2 生成·2026-05-01 — 2026-05-02
分享
AI 速读23 条精选

🤖 AI 大模型

𝕏 Grok 4.3 发布:$1.25 输入/$2.50 输出,支持百万上下文

xAI推出专为开发者设计的Grok 4.3,核心参数包括100 万 token上下文窗口、100 tokens/秒推理速度及**$1.25 输入/$2.50 输出**的 API 定价。该模型已集成至 Hermes Agent 或 xAI API,强调实际工具调用能力。上线后在 Arena 榜单搜索榜第 10、视觉榜第 19,且输入输出成本分别降低 37.5%和 58.3%,性价比显著提升。

𝕏 OpenAI Codex 上线:API 收入增速超以往两倍,营收翻倍

OpenAI宣布代码专用模型Codex上线后表现强劲,上线不到7 天实现营收翻倍API 收入增速超过此前任何版本的两倍。用户可通过 CLI 或直接迁移至 Codex 应用,保留插件和代理配置。此外,Codex 还新增了宠物养成功能以增加交互趣味性,并能自动移动鼠标光标测试 UI 与功能行为,展现出极强的自动化操作能力。

𝕏 GPT-5.5 生物医学分析突破:生成 40 页深度免疫学报告

DeryaTR_测试GPT-5.5 Pro处理6.2 万个 T 细胞样本2.7 万个基因列数据的能力。模型耗时100 分钟生成40 页深度分析报告,不仅统计数据,更识别出生物学机制轴心,提出因果假设与实验路线图,展现专家级推理能力,达到人类专家水平。

𝕏 Anthropic 推出 Claude Security 公共测试版:代码漏洞扫描与自动修复

Anthropic向企业客户开放Claude Security,集成于Claude Enterprise。该功能可扫描仓库、验证漏洞、提供严重性评估并起草补丁。支持按分支或目录范围扫描,结果可导出为 CSV 或通过 Webhook 推送,无需额外 API 集成,极大提升了企业代码安全审计的效率。

𝕏 DeepSeek-V4-Pro 被评为接近 Claude 与 Codex 体验的开源权重模型

DeepSeek-V4-Pro作为开源权重模型,支持高达100 万上下文窗口。通过混合注意力机制,其将 KV 缓存降至10%,推理 FLOPs 降低近4 倍。在 Agent 编程任务中,其表现被评价为接近ClaudeCodex,成为当前开源领域极具竞争力的选择。

𝕏 文心 5.1 Preview 登上 LMArena 国内文本榜第一

文心 5.1 Preview4 月 30 日LMArena文本榜中得分1476,位列国产模型第一,并成功进入全球前十五名。这一成绩标志着百度在中文大模型领域的最新进展,展现了其在长文本理解与生成方面的强劲实力。

𝕏 DeepMind 测试实时视频 AI 医生协作系统

Google DeepMind推出AI co-clinician系统,在98个基层医疗证据查询场景中获得了医生的明确偏好。该系统在处理97例病例时未出现关键错误,展示了 AI 在实时辅助诊断中的高可靠性与实用性,标志着医疗 AI 从文本分析向多模态实时协作的重要跨越。

𝕏 小型递归推理模型以 700 万参数挑战大模型

YC Decoded解析HRM/TRM两篇论文,揭示700 万参数的递归推理模型在ARC Prize等复杂任务上表现优异,成功超越了千倍规模的传统大模型。该研究证明了通过特定的递归架构设计,极小参数量模型也能具备强大的推理能力,为轻量化 AI 发展提供了新方向。

𝕏 Theo 总结 GPT 与 Claude 编程分工:按任务切换比站队更有效

Theo提出按任务切换而非单纯站队的编程策略:GPT适合快速 debug 与查 API 等即时性任务,而Claude Opus则更适合复杂重构、完整模块编写和写作翻译等深度工作。这种混合使用模式能最大化不同模型的优势,提升开发效率。

𝕏 GPT-5.5-high 在 WeirdML 基准创下新高

GPT-5.5-highWeirdML基准测试中达到新的 SOTA 成绩。尽管作者指出其单次调用价格较高,但综合评估显示其整体成本仍低于GPT-5.3/5.4版本。这一结果进一步巩固了 GPT-5 系列在复杂逻辑推理领域的领先地位,同时展现了其在成本控制上的优化潜力。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。