天眼晚报

科技|2026年05月18日|约 110 分钟阅读

来源：1077 条推文 + 456 篇 RSS 文章·Lanyun·BatchV2 生成·2026-05-18

AI 速读22 条精选

🤖 AI 大模型

🐙 Agent S3 在 OSWorld 基准上首次超过人类表现

Simular AI开源Agent S3，在OSWorld基准取得**72.60%**成绩，首次超过人类表现。项目支持 Windows、macOS、Linux，并附论文与演示视频，主打跨操作系统的通用电脑控制智能体。

𝕏 英伟达用 4bit 精度预训练 12B 大模型，训练成本有望下降

NVIDIA论文显示，使用NVFP4在10 万亿 tokens上预训练12B 参数模型，可带来 2-3 倍性能提升、内存减少 50%，且 MMLU 等基准与 8bit 基线差距低于 0.1%，显示低精度预训练可能显著降低大模型训练成本。

💹 上海披露智算与语料平台进展：智算规模超 16 万 P

上海市经信委披露，上海智算规模已超过16 万 P，约占全国8%；全国首个语料服务平台已有 158 款语料产品通过备案，显示地方 AI 基础设施与数据供给体系继续完善。

𝕏 ModelScope 发布 13B 表达式语音生成模型 Scenema Audio

ModelScope上线Scenema Audio，这是一款13B表达式语音生成模型，支持 10-20 秒零样本克隆、情绪表演、场景音效和13 种语言，面向更具表现力的语音生成场景。

𝕏 智谱 GLM-5.1 上线 OrcaRouter，主打长程代码智能体

智谱 GLM-5.1已上线OrcaRouter，称在SWE-Bench Pro开源模型中排名第一，采用 MIT 许可并支持200K 上下文，面向长程代码智能体与复杂软件工程任务。

百度一季度 AI 新业务收入 136 亿元，占一般性业务首次过半

百度一季度营收321 亿元，核心AI 新业务收入达136 亿元、同比增长 49%，占一般性业务收入 52%；其中智能云基础设施收入 88 亿元、同比增长 79%，显示 AI 相关业务对百度收入结构的贡献持续上升。

𝕏 Anthropic CFO 称 Claude Code 已生成公司 90%以上代码

Anthropic CFO 披露，公司一季度年化营收由90 亿美元升至300 亿美元以上，且内部90%以上代码由 Claude Code 完成，显示其编程智能体已深度进入自身研发流程。

🔶 智元 WITA 成为全国首个完成备案的具身智能交互大模型

智元 WITA完成上海生成式 AI 服务备案，成为全国首款合规备案的具身智能交互大模型，主要应用于人形机器人交互场景，标志具身智能模型开始进入合规化落地阶段。

𝕏 Claude Code 官方插件可自动配置 hooks、skills 和 MCP

Anthropic发布claude-code-setup插件，可扫描项目并推荐 hooks、skills、MCP servers和 subagents，帮助开发者更快为 Claude Code 配置项目级自动化能力。

𝕏 Ring-2.6-1T 开源：面向 Agent 工作流的万亿参数推理模型

InclusionAI发布Ring-2.6-1T，这是面向 Agent 工作流的万亿参数开放推理模型，在ClawEval 63.82取得较高成绩，并采用MIT 许可证，支持高推理强度应用。

Anthropic 呼吁收紧对华 AI 芯片出口，并拆分 Claude 程序化计费

Anthropic称中国模型到2028 年或只落后美国数月，呼吁收紧对华 AI 芯片出口；同时公司将于6 月 15 日拆分Claude程序化计费，调整 API 等程序化访问的商业计费结构。

Anthropic 将向全球金融监管机构通报 Claude Mythos 发现的网络安全漏洞

Anthropic同意向金融稳定委员会成员通报Claude Mythos发现的全球金融体系网络安全防御漏洞，显示 AI 模型在关键行业安全审计和监管协作中的角色正在扩大。

𝕏 Gemma 4 在 iPhone 端离线运行，MLX 优化达约 40 tok/s

Gemma 4 E2B已可在iPhone 17 Pro端侧离线运行，基于MLX优化后速度约 40 tok/s，并支持128K 上下文，展示移动端本地大模型推理能力进展。

𝕏 OpenClaw 团队 30 天消耗 6030 亿 token，账单达 130 万美元

Peter Steinberger披露，团队在30 天内调用6030 亿 token、发起760 万次请求，相关 OpenAI 账单约 130 万美元且由 OpenAI 报销，凸显高强度 AI 开发与评测带来的推理成本压力。

𝕏 Grok Build CLI 测试版上线，面向 SuperGrok Heavy 用户

Grok Build CLI已上线测试版，支持用户从Grok Web通过终端命令安装，目前仅面向SuperGrok Heavy订阅者开放，体现 xAI 正加强面向开发者的命令行工作流。

𝕏 FDE 岗位需求暴涨 800%，软件行业转向企业业务定制

FDE 岗位招聘需求暴涨800%，Salesforce、Palantir 背景人才受追捧，反映智能体时代定制化成本下降后，软件行业正在从标准化产品销售转向更深入的企业业务定制。

𝕏 ChatGPT Images 2.0 在印度生成量突破 10 亿张

Sam Altman表示，ChatGPT Images 2.0在印度已生成超过10 亿张图片，显示该功能在当地用户中的使用规模快速扩大。

𝕏 Anthropic 披露 Claude 研发方法：用用户反馈生成评测

Anthropic的 Alex Albert 称，团队会用Claude对用户反馈进行聚类，提炼主题并生成合成问题，再用于构建模型evals，以把真实使用问题转化为可评测的研发信号。

𝕏 Hermes 接入 xAI OAuth，可合规调用 Grok 4.3、TTS 和图像视频能力

Hermes支持通过xAI OAuth登录，蓝 V 用户可在工具内调用Grok 4.3文本推理、Grok TTS 以及图像和视频生成能力，提供更合规的 xAI 能力接入方式。

𝕏 Grok 增加视频理解能力

Elon Musk称Grok已支持理解视频内容，暗示xAI正在继续扩展多模态能力，使模型从文本、图像进一步覆盖到视频信息解析。

𝕏 Gary Marcus 认为纯 LLM 路线已被工具与符号系统取代

Gary Marcus认为，Claude Code等近期进展主要来自工具调用与符号技术结合，而不是纯LLM本身能力突破；这一观点延续了他对纯规模化路线局限性的批评。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情