天眼早报
🤖 AI 大模型
𝕏 Grok 4.3 发布:$1.25 输入/$2.50 输出,支持百万上下文
xAI推出专为开发者设计的Grok 4.3,核心参数包括100 万 token上下文窗口、100 tokens/秒推理速度及**$1.25 输入/$2.50 输出**的 API 定价。该模型已集成至 Hermes Agent 或 xAI API,强调实际工具调用能力。上线后在 Arena 榜单搜索榜第 10、视觉榜第 19,且输入输出成本分别降低 37.5%和 58.3%,性价比显著提升。
𝕏 OpenAI Codex 上线:API 收入增速超以往两倍,营收翻倍
OpenAI宣布代码专用模型Codex上线后表现强劲,上线不到7 天实现营收翻倍,API 收入增速超过此前任何版本的两倍。用户可通过 CLI 或直接迁移至 Codex 应用,保留插件和代理配置。此外,Codex 还新增了宠物养成功能以增加交互趣味性,并能自动移动鼠标光标测试 UI 与功能行为,展现出极强的自动化操作能力。
𝕏 GPT-5.5 生物医学分析突破:生成 40 页深度免疫学报告
DeryaTR_测试GPT-5.5 Pro处理6.2 万个 T 细胞样本及2.7 万个基因列数据的能力。模型耗时100 分钟生成40 页深度分析报告,不仅统计数据,更识别出生物学机制轴心,提出因果假设与实验路线图,展现专家级推理能力,达到人类专家水平。
𝕏 Anthropic 推出 Claude Security 公共测试版:代码漏洞扫描与自动修复
Anthropic向企业客户开放Claude Security,集成于Claude Enterprise。该功能可扫描仓库、验证漏洞、提供严重性评估并起草补丁。支持按分支或目录范围扫描,结果可导出为 CSV 或通过 Webhook 推送,无需额外 API 集成,极大提升了企业代码安全审计的效率。
𝕏 DeepSeek-V4-Pro 被评为接近 Claude 与 Codex 体验的开源权重模型
DeepSeek-V4-Pro作为开源权重模型,支持高达100 万上下文窗口。通过混合注意力机制,其将 KV 缓存降至10%,推理 FLOPs 降低近4 倍。在 Agent 编程任务中,其表现被评价为接近Claude与Codex,成为当前开源领域极具竞争力的选择。
𝕏 文心 5.1 Preview 登上 LMArena 国内文本榜第一
文心 5.1 Preview在4 月 30 日的LMArena文本榜中得分1476,位列国产模型第一,并成功进入全球前十五名。这一成绩标志着百度在中文大模型领域的最新进展,展现了其在长文本理解与生成方面的强劲实力。
𝕏 DeepMind 测试实时视频 AI 医生协作系统
Google DeepMind推出AI co-clinician系统,在98个基层医疗证据查询场景中获得了医生的明确偏好。该系统在处理97例病例时未出现关键错误,展示了 AI 在实时辅助诊断中的高可靠性与实用性,标志着医疗 AI 从文本分析向多模态实时协作的重要跨越。
𝕏 小型递归推理模型以 700 万参数挑战大模型
YC Decoded解析HRM/TRM两篇论文,揭示700 万参数的递归推理模型在ARC Prize等复杂任务上表现优异,成功超越了千倍规模的传统大模型。该研究证明了通过特定的递归架构设计,极小参数量模型也能具备强大的推理能力,为轻量化 AI 发展提供了新方向。
𝕏 Theo 总结 GPT 与 Claude 编程分工:按任务切换比站队更有效
Theo提出按任务切换而非单纯站队的编程策略:GPT适合快速 debug 与查 API 等即时性任务,而Claude Opus则更适合复杂重构、完整模块编写和写作翻译等深度工作。这种混合使用模式能最大化不同模型的优势,提升开发效率。
𝕏 GPT-5.5-high 在 WeirdML 基准创下新高
GPT-5.5-high在WeirdML基准测试中达到新的 SOTA 成绩。尽管作者指出其单次调用价格较高,但综合评估显示其整体成本仍低于GPT-5.3/5.4版本。这一结果进一步巩固了 GPT-5 系列在复杂逻辑推理领域的领先地位,同时展现了其在成本控制上的优化潜力。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。