天眼早报

科技|2026年06月15日|约 141 分钟阅读

来源：1830 条推文 + 1235 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-06-02 — 2026-06-03

AI 速读21 条精选

🤖 AI 大模型

🔶 OpenAI 官宣 Codex 与 ChatGPT 合体，发布 Agent 插件、批注和 Sites 三大功能

OpenAI宣布将在未来几周内将Codex整合进ChatGPT，覆盖近10 亿周活用户。Codex 周活跃用户已突破500 万，其中20%为非开发者。Codex 同时推出Agent plugins（6 个角色插件，覆盖销售、数据分析、投资、法律等，62 个应用 110 项技能）、Annotations（实时批注修改）和Sites（一句话创建交互式网站）。OpenAI还计划在金融领域和法律领域开发 AI 工具，与Anthropic竞争，目标年底企业客户贡献一半收入。

Anthropic“神话”模型扩大全球内测，已发现超 10000 个高危漏洞

Anthropic周二宣布将其前沿模型Mythos（神话）预览范围从 50 个合作伙伴扩大至约200 家新机构，新增150 家主要覆盖电力、水务、医疗等关键基础设施领域。该模型自 4 月向初始合作伙伴开放以来，已帮助发现超过10000 个高危或严重安全缺陷，漏洞发现速度提升十倍以上。Mythos即将向所有客户开放，但价格约为旗舰模型 Opus 的6 倍，早期测试者数周消耗逾百万美元 token。

Anthropic 秘密提交 IPO，估值约 9650 亿美元

Anthropic已向 SEC 秘密提交招股书，预计最快2026 年 Q4在纳斯达克上市，估值约9650 亿美元，年化收入达470 亿美元。这是继 OpenAI 之后又一家冲刺 IPO 的顶级 AI 实验室，备受市场关注。

🔶 DeepSeek 首轮融资即将完成，估值最高达 4000 亿元

DeepSeek即将完成首轮融资，预计筹资约70 亿美元，投前估值达590 亿美元（约3500-4000 亿元）。腾讯拟投100 亿元，宁德时代投50 亿元，创始人梁文锋自投200 亿元，网易和京东也计划参与。

𝕏 MiniMax-M3 发布：1M 上下文、原生多模态、稀疏注意力

MiniMax正式发布M3模型，这是首个融合前沿编码与智能体性能、通过稀疏注意力实现1M 上下文、以及原生多模态能力的开源权重模型。在ValsAI Index上排名第 6，成为开源权重 SOTA；SWE-Bench 得分59%超越GPT-5.5，逼近Opus 4.7。社区对其评测选择性存在争议。Together 团队优化后吞吐量提升81~125%。已上线 GMI Cloud。

𝕏 微软发布 MAI 系列模型，含首款推理模型 MAI-Thinking-1

微软在 Build 2026 上发布 7 个MAI 模型，包括推理模型MAI-Thinking-1（35B活跃参数 MoE，1T总参数，256K上下文，AIME 2025 达97%，SWE Bench Pro 达53%）、代码模型MAI-Code-1-Flash（137B参数 MoE，SWE-Bench Pro 51.2%，仅限 GitHub Copilot）、图像模型MAI-Image-2.5（Image Edit Arena 第2，同价位最优）、语音模型MAI-Voice-2（15 语言情感语音合成）、转录模型MAI-Transcribe-1.5（43 语言 SOTA）等。同时发布Majorana 2量子芯片、Surface RTX Spark Dev Box（1 petaflop AI 算力）及 Agent 操作系统Project Solara。Hugging Face 为 Microsoft Foundry 贡献 10,928 个模型。

🔶 火山引擎提升 MaaS 营收目标至全年 150 亿元，Seedance 2.0 单月营收已超 10 亿元

36 氪独家获悉，字节跳动火山引擎已将MaaS 业务营收目标上调至150 亿元，而 2025 年全年 MaaS 收入仅约 15 亿元。Seedance 2.0单模型月营收已超 10 亿元，且仍在爬升。

🔶 千寻智能 Spirit v1.6 反超英伟达 Cosmos 3，登顶机器人基准 RoboArena

千寻智能的Spirit v1.6在RoboArena榜单反超英伟达 Cosmos 3，成为首个在该“客场”榜单夺冠的中国企业，在真实任务中表现优于对手。

特朗普签署行政令要求 AI 公司让政府先行评估新模型

美国总统特朗普签署行政令，要求 AI 公司在发布新模型前提前最多30 天给予政府访问权限，并参与基准测试评估“高级网络能力”。该行政令涉及前沿模型的安全评估，旨在防范风险。

谷歌发布 Gemma 4，E2B 架构让手机本地跑 AI 现质变

Google DeepMind发布Gemma 4，采用全新E2B 架构，300 亿参数模型仅需2GB 显存即可极速推理，突破端侧部署瓶颈。已与50 个外部合作伙伴协调，支持 140 种语言和 30-60 秒短视频分析。

🔶 荷兰威科集团扩大与 OpenAI 的企业 AI 合作

荷兰威科集团（Wolters Kluwer）扩大与OpenAI合作，在受监管环境中为专业人士开发 AI 解决方案，OpenAI 技术可在威科集团安全平台内部署。

📄 首个可处理原始二进制文件的字节级 LLM——大字节模型

首个字节级 LLM，可处理原始恶意软件二进制，恶意软件家族分类准确率达69%，架构分类达98%。已部署给分析师使用。

📄 经济思维：基于经济交互的多智能体涌现智能

引入Agent 经济，通过拍卖机制实现去中心化信用分配，在数学推理、金融研究等任务中超越单体基线。理论联系局部激励与全局表现。

📄 EntangleCodec：统一离散音频分词器

0.6B 参数的音频语言模型超越13B专用模型，MMAR 上**+7.4%**，实现统一语音/音乐/音频理解与生成。

📄 ReLoRA：知识重用的 LLM 服务适配

ReLoRA将 LoRA 适配器恢复速度提升8.9 倍，准确率提高4.6%，无需从头训练。

📄 GRZO：组相对零阶优化微调

GRZO在 Llama3-8B 上平均准确率**+3.0**，峰值 GPU 内存降低23%，方差随批量缩小。

📄 CA-RAG：成本感知的检索增强生成

CA-RAG动态选择检索深度，减少26%计费 token，延迟降低34%，问答质量不变。

📄 D-Judge：语义保留输出重写的多轮越狱防御

D-Judge通过重写 LLM 响应使攻击者反馈扭曲，在HarmBench上降低多轮越狱成功率。

📄 ALAR：自适应潜在代理推理

ALAR在搜索任务中减少**43.6%**生成 token，工具使用减少84.6%，同时保持准确率。

📄 Libra：高效资源管理强化学习后训练

Libra在 48 张 A800 上实现3.0 倍吞吐量提升，收敛速度2.5 倍于基线。

📄 CGTR：合并门控教师更新防止蒸馏崩溃

CGTR在 4 个任务上实现零崩溃，自调节刷新频率，最终分数最佳。

📄 PROVE：可验证环境中工具使用强化学习

PROVE采用编程奖励，在 BFCL 多轮任务上提升**+10.2**点，无需外部评判模型。

📄 ACTS：代理链式思维引导的高效推理

ACTS通过控制代理自适应引导推理策略，匹配全思考性能并大幅节省 token。

📄 QUBRIC：查询与评分共设计超越可验证奖励 RL

QUBRIC在 ArenaHard 上比 SFT 基线**+5.5**点，并迁移到法律、道德等任务。

𝕏 微软泄露 Claude Mythos 训练算力：6.1×10^27 FLOPs

微软在 Build 幻灯片中意外披露Claude Mythos训练 FLOPs 约为6.1×10^27（95%置信区间 5.3~7.1×10^27），推算为当前最大规模训练之一。

𝕏 微软新工具让开发者用文字描述即可创建 AI 行为测试

微软推出一款新工具，允许开发者通过文本描述来为 AI 行为生成测试。这降低了 AI 行为验证的门槛，提升开发效率。

𝕏 Hermes Desktop 发布：AI Agent 原生桌面应用公开预览

Nous Research发布Hermes Desktop，将 AI Agent Hermes 作为原生桌面应用。该产品在 Jensen 的 GTC 主题演讲中首次演示，现进入公开预览阶段。

Meta 收缩追踪鼠标键盘训练 AI 计划

Meta在内部备忘录中表示将缩减收集员工鼠标移动、键盘敲击数据用于 AI 训练的计划，新增控制选项允许员工暂停数据收集30 分钟。

𝕏 Notion 集成 Grok 4.3 和 Grok Build 0.1 模型

Notion宣布在其 Notion Agent 和自定义 Agent 中支持Grok 4.3和Grok Build 0.1模型。

腾讯云大幅下调 DeepSeek-V4 模型价格，最高降幅 97.5%

腾讯云公告称自 6 月 3 日起下调 DeepSeek-V4 系列模型价格，V4-Pro 推理输入/输出价格均降75%，缓存命中价降**97.5%**至每千 tokens 0.000025 元。

🔶 千问 App 向第三方 Agent 和 Skill 全面开放，首批企业接入

千问 App宣布向第三方Agent和Skill全面开放，所有企业可在千问运营品牌 Agent。瑞幸、肯德基、蜜雪冰城、东方航空等正进行测试。

🔶 英伟达与微软合作推出 Agentic AI 统一技术栈

英伟达与微软在 Build 大会上宣布合作，推出统一技术栈用于部署Agentic AI，覆盖从 Windows 设备到云端全场景。

报道：腾讯接近推出微信 AI 助手

据知情人士，腾讯已完成微信 AI 助手原型测试，最快本月启动合规审批，可右滑唤出 AI 自动调用小程序完成点单等任务，该项目被列为最高战略优先级。

阿里发布 Qwen3.7-Plus：屏幕理解跑赢 GPT-5.4

阿里发布Qwen3.7-Plus模型，屏幕理解得分79，超过 GPT-5.4 和 Gemini-3.1 Pro。构建的 Hybrid-Agent 系统11 小时独立完成英语学习 App 开发。

DeepSeek-V4 为何未登顶开源榜首？实战经验分享

分析DeepSeek-V4未登顶开源第一的原因：团队重心在工程落地而非刷榜。建议按需调用分支模型（Coder、Math、VL），善用私有化部署和免费 API 试水。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情