05月05日 · 科技晚报

天眼晚报

科技|2026年05月05日|90 分钟阅读
来源:885 条推文 + 385 篇 RSS 文章·Lanyun·BatchV2 生成·2026-05-05
分享
AI 速读17 条精选

🤖 AI 大模型

𝕏 OpenAI 总裁确认公司正探索 IPO,个人持股价值近 300 亿美元

OpenAI总裁 Greg Brockman 在法庭作证中首次确认公司正探索 IPO。庭审还披露,其个人持股价值接近 300 亿美元;OpenAI 当前私人估值约 8500 亿美元,若上市可能成为史上规模最大的 IPO 之一。

𝕏 DeepSeek V4 Flash 实测成本显著低于 Gemini 3 Flash Preview

实测显示,DeepSeek V4 Flash 每百万 token 输入成本为 0.14 美元、输出成本为 0.28 美元;Gemini 3 Flash Preview 输入为 0.50 美元、输出为 3.00 美元。在输出密集型任务中,Gemini 账单比标价快 10.7 倍,而 DeepSeek 因缓存机制实际成本更低。

𝕏 白宫考虑在重大 AI 模型公开发布前引入政府审查

白宫正考虑要求重大 AI 模型在公开发布前接受政府测试,重点评估其网络攻击与漏洞发现能力。该讨论的触发因素是 Anthropic Mythos 被认为过于擅长发现软件漏洞,可能推动美国对前沿模型发布建立更强的安全审查机制。

𝕏 Sirbayes 更新 BLF 论文,多模型预测准确率提升

Sirbayes更新 Bayesian Linguistic Forecasting 论文,在 Gemini 3.1 Pro、GPT 5.4 等 5 种 LLM 上测试。结果显示,BLF+Pro 组合在 Forecast Bench 榜单夺冠Kimi K2.5 因开源权重和低成本,在该框架下受益明显。

𝕏 Sakana AI 推出多智能体编排产品 Fugu 测试版

Sakana AI发布商业产品Fugu测试版,提供 Fugu Mini 与 Fugu Ultra 两个版本,并兼容 OpenAI API。该系统主打多智能体编排,在 SWE-Pro、GPQA-D、ALE-Bench 等基准上达到 SOTA,面向需要更强推理、编程和自动化能力的企业级场景。

𝕏 DeepMind 论文提出 Social Meta-Learning,让 LLM 在对话中利用反馈学习

Google DeepMind论文提出 Social Meta-Learning,研究如何让语言模型在对话过程中通过反馈进行在线强化学习。实验显示,在线强化学习优于离线过滤方法,Q-priming 可让模型在模糊任务中主动提问的概率提升 5 倍以上

𝕏 郭明錤称 OpenAI 首款 AI Agent 手机最快 2027 年上半年量产

郭明錤称,OpenAI 首款 AI Agent 手机最快将在 2027 年上半年 量产,联发科可能独家供应处理器。其预计 2027-2028 年合计出货量约 3000 万部,显示 OpenAI 正加速布局 AI 硬件入口。

𝕏 OpenRouter:GPT 5.5 相比 GPT 5.4 成本上涨 49%-92%

OpenRouter 分析显示,GPT 5.5GPT 5.4 成本上涨 49%-92%。在长提示词场景中,输出 token 减少 19%-34%,部分抵消了 2 倍涨价带来的成本压力,但总体调用成本仍明显上升。

𝕏 Grok 4.3 在 ValsAI 法律与公司金融基准中领先

Grok 4.3ValsAI CaseLaw v2 上准确率达到 79.31%,较此前提升 25 分并登顶,高于 GPT-5.1 的 73.42%。同时,它在 CorpFin v2 中跃升 21 位,得分达到 68.53%,显示其在法律和金融长上下文任务上进步明显。

𝕏 OpenAI 曾讨论剥离机器人与消费硬件部门但最终否决

WSJ称,Sam Altman 去年底曾讨论剥离 OpenAI 机器人和消费硬件部门,以便在冲刺 IPO 的背景下重新权衡资源配置。不过知情人士称,该剥离方案目前已经被否决。

𝕏 Anthropic 与 FIS 合作为银行开发金融犯罪监控 AI

AnthropicFIS 合作开发银行 AI 工具,用于监控 数百万账户 并识别金融犯罪风险。该合作面向金融机构的合规与风控场景,重点提升异常行为检测和可疑交易识别能力。

欧盟批准 OpenAI 与软银成立 AI 基础设施合资企业

欧盟 批准 OpenAI软银 成立合资企业,双方的 AI 基础设施 合作进入监管放行阶段。该合资安排有望支持更大规模算力、数据中心和模型部署相关建设。

𝕏 Claude Desktop 被曝可调用 Kimi、GLM、DeepSeek、Qwen 等非 Anthropic 模型

Claude Desktop 被曝可通过 ollama launch 调用 Kimi、GLM、DeepSeek、Qwen 等非 Anthropic 模型运行 agent。这意味着 Claude 桌面端可能具备更开放的本地或第三方模型编排能力,可用于跨模型代理工作流。

𝕏 亚马逊称 AI 业务年化收入已超过 150 亿美元

Andy Jassy 称,亚马逊 AI 业务年化收入超 150 亿美元,并将沿用 AWS 的扩张模式,提前投入算力和基础设施。该表态显示亚马逊正将 AI 视为下一阶段云业务增长的核心引擎。

𝕏 Video Rebirth 视频模型 BACH 进入 Artificial Analysis 文生视频榜单前六

Video RebirthBACH 进入 Artificial Analysis 文生视频榜单前六,与阿里、字节、xAI 等模型同榜。该成绩显示 BACH 在文本生成视频模型评测中已进入第一梯队竞争范围。

𝕏 Marc Andreessen 公开反谄媚 AI 系统提示词

Marc Andreessen 公开其 AI 系统提示词,核心强调 反谄媚、事实核查和先给最强反驳,并要求模型输出显式 置信度。该提示词关注减少迎合用户、提升批判性回答和可验证性。

𝕏 xAI 推出 Grok Build 与 Grok Terminal,强化编程代理能力

xAI 推出 Grok BuildGrok Terminal,让 Grok 能更直接参与开发流程。两项功能指向编程代理场景,可能覆盖项目搭建、命令行操作、代码生成与调试等开发任务。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。