天眼晚报
🤖 AI 大模型
🐙 Agent S3 在 OSWorld 基准上首次超过人类表现
Simular AI开源Agent S3,在OSWorld基准取得**72.60%**成绩,首次超过人类表现。项目支持 Windows、macOS、Linux,并附论文与演示视频,主打跨操作系统的通用电脑控制智能体。
𝕏 英伟达用 4bit 精度预训练 12B 大模型,训练成本有望下降
NVIDIA论文显示,使用NVFP4在10 万亿 tokens上预训练12B 参数模型,可带来 2-3 倍性能提升、内存减少 50%,且 MMLU 等基准与 8bit 基线差距低于 0.1%,显示低精度预训练可能显著降低大模型训练成本。
💹 上海披露智算与语料平台进展:智算规模超 16 万 P
上海市经信委披露,上海智算规模已超过16 万 P,约占全国8%;全国首个语料服务平台已有 158 款语料产品通过备案,显示地方 AI 基础设施与数据供给体系继续完善。
𝕏 ModelScope 发布 13B 表达式语音生成模型 Scenema Audio
ModelScope上线Scenema Audio,这是一款13B表达式语音生成模型,支持 10-20 秒零样本克隆、情绪表演、场景音效和13 种语言,面向更具表现力的语音生成场景。
𝕏 智谱 GLM-5.1 上线 OrcaRouter,主打长程代码智能体
智谱 GLM-5.1已上线OrcaRouter,称在SWE-Bench Pro开源模型中排名第一,采用 MIT 许可并支持200K 上下文,面向长程代码智能体与复杂软件工程任务。
百度一季度 AI 新业务收入 136 亿元,占一般性业务首次过半
百度一季度营收321 亿元,核心AI 新业务收入达136 亿元、同比增长 49%,占一般性业务收入 52%;其中智能云基础设施收入 88 亿元、同比增长 79%,显示 AI 相关业务对百度收入结构的贡献持续上升。
𝕏 Anthropic CFO 称 Claude Code 已生成公司 90%以上代码
Anthropic CFO 披露,公司一季度年化营收由90 亿美元升至300 亿美元以上,且内部90%以上代码由 Claude Code 完成,显示其编程智能体已深度进入自身研发流程。
🔶 智元 WITA 成为全国首个完成备案的具身智能交互大模型
智元 WITA完成上海生成式 AI 服务备案,成为全国首款合规备案的具身智能交互大模型,主要应用于人形机器人交互场景,标志具身智能模型开始进入合规化落地阶段。
𝕏 Claude Code 官方插件可自动配置 hooks、skills 和 MCP
Anthropic发布claude-code-setup插件,可扫描项目并推荐 hooks、skills、MCP servers和 subagents,帮助开发者更快为 Claude Code 配置项目级自动化能力。
𝕏 Ring-2.6-1T 开源:面向 Agent 工作流的万亿参数推理模型
InclusionAI发布Ring-2.6-1T,这是面向 Agent 工作流的万亿参数开放推理模型,在ClawEval 63.82取得较高成绩,并采用MIT 许可证,支持高推理强度应用。
Anthropic 呼吁收紧对华 AI 芯片出口,并拆分 Claude 程序化计费
Anthropic称中国模型到2028 年或只落后美国数月,呼吁收紧对华 AI 芯片出口;同时公司将于6 月 15 日拆分Claude程序化计费,调整 API 等程序化访问的商业计费结构。
Anthropic 将向全球金融监管机构通报 Claude Mythos 发现的网络安全漏洞
Anthropic同意向金融稳定委员会成员通报Claude Mythos发现的全球金融体系网络安全防御漏洞,显示 AI 模型在关键行业安全审计和监管协作中的角色正在扩大。
𝕏 Gemma 4 在 iPhone 端离线运行,MLX 优化达约 40 tok/s
Gemma 4 E2B已可在iPhone 17 Pro端侧离线运行,基于MLX优化后速度约 40 tok/s,并支持128K 上下文,展示移动端本地大模型推理能力进展。
𝕏 OpenClaw 团队 30 天消耗 6030 亿 token,账单达 130 万美元
Peter Steinberger披露,团队在30 天内调用6030 亿 token、发起760 万次请求,相关 OpenAI 账单约 130 万美元且由 OpenAI 报销,凸显高强度 AI 开发与评测带来的推理成本压力。
𝕏 Grok Build CLI 测试版上线,面向 SuperGrok Heavy 用户
Grok Build CLI已上线测试版,支持用户从Grok Web通过终端命令安装,目前仅面向SuperGrok Heavy订阅者开放,体现 xAI 正加强面向开发者的命令行工作流。
𝕏 FDE 岗位需求暴涨 800%,软件行业转向企业业务定制
FDE 岗位招聘需求暴涨800%,Salesforce、Palantir 背景人才受追捧,反映智能体时代定制化成本下降后,软件行业正在从标准化产品销售转向更深入的企业业务定制。
𝕏 ChatGPT Images 2.0 在印度生成量突破 10 亿张
Sam Altman表示,ChatGPT Images 2.0在印度已生成超过10 亿张图片,显示该功能在当地用户中的使用规模快速扩大。
𝕏 Anthropic 披露 Claude 研发方法:用用户反馈生成评测
Anthropic的 Alex Albert 称,团队会用Claude对用户反馈进行聚类,提炼主题并生成合成问题,再用于构建模型evals,以把真实使用问题转化为可评测的研发信号。
𝕏 Hermes 接入 xAI OAuth,可合规调用 Grok 4.3、TTS 和图像视频能力
Hermes支持通过xAI OAuth登录,蓝 V 用户可在工具内调用Grok 4.3文本推理、Grok TTS 以及图像和视频生成能力,提供更合规的 xAI 能力接入方式。
𝕏 Grok 增加视频理解能力
Elon Musk称Grok已支持理解视频内容,暗示xAI正在继续扩展多模态能力,使模型从文本、图像进一步覆盖到视频信息解析。
𝕏 Gary Marcus 认为纯 LLM 路线已被工具与符号系统取代
Gary Marcus认为,Claude Code等近期进展主要来自工具调用与符号技术结合,而不是纯LLM本身能力突破;这一观点延续了他对纯规模化路线局限性的批评。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。