天眼晚报

科技|2026年05月05日|约 90 分钟阅读

来源：885 条推文 + 385 篇 RSS 文章·Lanyun·BatchV2 生成·2026-05-05

AI 速读17 条精选

🤖 AI 大模型

𝕏 OpenAI 总裁确认公司正探索 IPO，个人持股价值近 300 亿美元

OpenAI总裁 Greg Brockman 在法庭作证中首次确认公司正探索 IPO。庭审还披露，其个人持股价值接近 300 亿美元；OpenAI 当前私人估值约 8500 亿美元，若上市可能成为史上规模最大的 IPO 之一。

𝕏 DeepSeek V4 Flash 实测成本显著低于 Gemini 3 Flash Preview

实测显示，DeepSeek V4 Flash 每百万 token 输入成本为 0.14 美元、输出成本为 0.28 美元；Gemini 3 Flash Preview 输入为 0.50 美元、输出为 3.00 美元。在输出密集型任务中，Gemini 账单比标价快 10.7 倍，而 DeepSeek 因缓存机制实际成本更低。

𝕏 白宫考虑在重大 AI 模型公开发布前引入政府审查

白宫正考虑要求重大 AI 模型在公开发布前接受政府测试，重点评估其网络攻击与漏洞发现能力。该讨论的触发因素是 Anthropic Mythos 被认为过于擅长发现软件漏洞，可能推动美国对前沿模型发布建立更强的安全审查机制。

𝕏 Sirbayes 更新 BLF 论文，多模型预测准确率提升

Sirbayes更新 Bayesian Linguistic Forecasting 论文，在 Gemini 3.1 Pro、GPT 5.4 等 5 种 LLM 上测试。结果显示，BLF+Pro 组合在 Forecast Bench 榜单夺冠；Kimi K2.5 因开源权重和低成本，在该框架下受益明显。

𝕏 Sakana AI 推出多智能体编排产品 Fugu 测试版

Sakana AI发布商业产品Fugu测试版，提供 Fugu Mini 与 Fugu Ultra 两个版本，并兼容 OpenAI API。该系统主打多智能体编排，在 SWE-Pro、GPQA-D、ALE-Bench 等基准上达到 SOTA，面向需要更强推理、编程和自动化能力的企业级场景。

Google DeepMind论文提出 Social Meta-Learning，研究如何让语言模型在对话过程中通过反馈进行在线强化学习。实验显示，在线强化学习优于离线过滤方法，Q-priming 可让模型在模糊任务中主动提问的概率提升 5 倍以上。

𝕏 郭明錤称 OpenAI 首款 AI Agent 手机最快 2027 年上半年量产

郭明錤称，OpenAI 首款 AI Agent 手机最快将在 2027 年上半年 量产，联发科可能独家供应处理器。其预计 2027-2028 年合计出货量约 3000 万部，显示 OpenAI 正加速布局 AI 硬件入口。

𝕏 OpenRouter：GPT 5.5 相比 GPT 5.4 成本上涨 49%-92%

OpenRouter 分析显示，GPT 5.5 较 GPT 5.4 成本上涨 49%-92%。在长提示词场景中，输出 token 减少 19%-34%，部分抵消了 2 倍涨价带来的成本压力，但总体调用成本仍明显上升。

𝕏 Grok 4.3 在 ValsAI 法律与公司金融基准中领先

Grok 4.3 在 ValsAI CaseLaw v2 上准确率达到 79.31%，较此前提升 25 分并登顶，高于 GPT-5.1 的 73.42%。同时，它在 CorpFin v2 中跃升 21 位，得分达到 68.53%，显示其在法律和金融长上下文任务上进步明显。

𝕏 OpenAI 曾讨论剥离机器人与消费硬件部门但最终否决

WSJ称，Sam Altman 去年底曾讨论剥离 OpenAI 机器人和消费硬件部门，以便在冲刺 IPO 的背景下重新权衡资源配置。不过知情人士称，该剥离方案目前已经被否决。

𝕏 Anthropic 与 FIS 合作为银行开发金融犯罪监控 AI

Anthropic 与 FIS 合作开发银行 AI 工具，用于监控 数百万账户 并识别金融犯罪风险。该合作面向金融机构的合规与风控场景，重点提升异常行为检测和可疑交易识别能力。

欧盟批准 OpenAI 与软银成立 AI 基础设施合资企业

欧盟批准 OpenAI 与软银成立合资企业，双方的 AI 基础设施 合作进入监管放行阶段。该合资安排有望支持更大规模算力、数据中心和模型部署相关建设。

𝕏 Claude Desktop 被曝可调用 Kimi、GLM、DeepSeek、Qwen 等非 Anthropic 模型

Claude Desktop 被曝可通过 ollama launch 调用 Kimi、GLM、DeepSeek、Qwen 等非 Anthropic 模型运行 agent。这意味着 Claude 桌面端可能具备更开放的本地或第三方模型编排能力，可用于跨模型代理工作流。

𝕏 亚马逊称 AI 业务年化收入已超过 150 亿美元

Andy Jassy 称，亚马逊 AI 业务年化收入超 150 亿美元，并将沿用 AWS 的扩张模式，提前投入算力和基础设施。该表态显示亚马逊正将 AI 视为下一阶段云业务增长的核心引擎。

𝕏 Video Rebirth 视频模型 BACH 进入 Artificial Analysis 文生视频榜单前六

Video Rebirth 的 BACH 进入 Artificial Analysis 文生视频榜单前六，与阿里、字节、xAI 等模型同榜。该成绩显示 BACH 在文本生成视频模型评测中已进入第一梯队竞争范围。

𝕏 Marc Andreessen 公开反谄媚 AI 系统提示词

Marc Andreessen 公开其 AI 系统提示词，核心强调 反谄媚、事实核查和先给最强反驳，并要求模型输出显式 置信度。该提示词关注减少迎合用户、提升批判性回答和可验证性。

𝕏 xAI 推出 Grok Build 与 Grok Terminal，强化编程代理能力

xAI 推出 Grok Build 和 Grok Terminal，让 Grok 能更直接参与开发流程。两项功能指向编程代理场景，可能覆盖项目搭建、命令行操作、代码生成与调试等开发任务。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情