06月15日 · 科技早报

天眼早报

科技|2026年06月15日|141 分钟阅读
来源:1830 条推文 + 1235 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-06-02 — 2026-06-03
分享
AI 速读21 条精选

🤖 AI 大模型

🔶 OpenAI 官宣 Codex 与 ChatGPT 合体,发布 Agent 插件、批注和 Sites 三大功能

OpenAI宣布将在未来几周内将Codex整合进ChatGPT,覆盖近10 亿周活用户。Codex 周活跃用户已突破500 万,其中20%为非开发者。Codex 同时推出Agent plugins(6 个角色插件,覆盖销售、数据分析、投资、法律等,62 个应用 110 项技能)、Annotations(实时批注修改)和Sites(一句话创建交互式网站)。OpenAI还计划在金融领域法律领域开发 AI 工具,与Anthropic竞争,目标年底企业客户贡献一半收入。

Anthropic“神话”模型扩大全球内测,已发现超 10000 个高危漏洞

Anthropic周二宣布将其前沿模型Mythos(神话)预览范围从 50 个合作伙伴扩大至约200 家新机构,新增150 家主要覆盖电力、水务、医疗等关键基础设施领域。该模型自 4 月向初始合作伙伴开放以来,已帮助发现超过10000 个高危或严重安全缺陷,漏洞发现速度提升十倍以上。Mythos即将向所有客户开放,但价格约为旗舰模型 Opus 的6 倍,早期测试者数周消耗逾百万美元 token。

Anthropic 秘密提交 IPO,估值约 9650 亿美元

Anthropic已向 SEC 秘密提交招股书,预计最快2026 年 Q4在纳斯达克上市,估值约9650 亿美元,年化收入达470 亿美元。这是继 OpenAI 之后又一家冲刺 IPO 的顶级 AI 实验室,备受市场关注。

🔶 DeepSeek 首轮融资即将完成,估值最高达 4000 亿元

DeepSeek即将完成首轮融资,预计筹资约70 亿美元,投前估值达590 亿美元(约3500-4000 亿元)。腾讯拟投100 亿元宁德时代50 亿元,创始人梁文锋自投200 亿元,网易和京东也计划参与。

𝕏 MiniMax-M3 发布:1M 上下文、原生多模态、稀疏注意力

MiniMax正式发布M3模型,这是首个融合前沿编码与智能体性能、通过稀疏注意力实现1M 上下文、以及原生多模态能力的开源权重模型。在ValsAI Index上排名第 6,成为开源权重 SOTA;SWE-Bench 得分59%超越GPT-5.5,逼近Opus 4.7。社区对其评测选择性存在争议。Together 团队优化后吞吐量提升81~125%。已上线 GMI Cloud。

𝕏 微软发布 MAI 系列模型,含首款推理模型 MAI-Thinking-1

微软在 Build 2026 上发布 7 个MAI 模型,包括推理模型MAI-Thinking-135B活跃参数 MoE,1T总参数,256K上下文,AIME 2025 达97%,SWE Bench Pro 达53%)、代码模型MAI-Code-1-Flash137B参数 MoE,SWE-Bench Pro 51.2%,仅限 GitHub Copilot)、图像模型MAI-Image-2.5(Image Edit Arena 第2,同价位最优)、语音模型MAI-Voice-2(15 语言情感语音合成)、转录模型MAI-Transcribe-1.5(43 语言 SOTA)等。同时发布Majorana 2量子芯片、Surface RTX Spark Dev Box(1 petaflop AI 算力)及 Agent 操作系统Project Solara。Hugging Face 为 Microsoft Foundry 贡献 10,928 个模型。

🔶 火山引擎提升 MaaS 营收目标至全年 150 亿元,Seedance 2.0 单月营收已超 10 亿元

36 氪独家获悉,字节跳动火山引擎已将MaaS 业务营收目标上调至150 亿元,而 2025 年全年 MaaS 收入仅约 15 亿元。Seedance 2.0单模型月营收已超 10 亿元,且仍在爬升。

🔶 千寻智能 Spirit v1.6 反超英伟达 Cosmos 3,登顶机器人基准 RoboArena

千寻智能Spirit v1.6RoboArena榜单反超英伟达 Cosmos 3,成为首个在该“客场”榜单夺冠的中国企业,在真实任务中表现优于对手。

特朗普签署行政令要求 AI 公司让政府先行评估新模型

美国总统特朗普签署行政令,要求 AI 公司在发布新模型前提前最多30 天给予政府访问权限,并参与基准测试评估“高级网络能力”。该行政令涉及前沿模型的安全评估,旨在防范风险。

谷歌发布 Gemma 4,E2B 架构让手机本地跑 AI 现质变

Google DeepMind发布Gemma 4,采用全新E2B 架构300 亿参数模型仅需2GB 显存即可极速推理,突破端侧部署瓶颈。已与50 个外部合作伙伴协调,支持 140 种语言和 30-60 秒短视频分析。

🔶 荷兰威科集团扩大与 OpenAI 的企业 AI 合作

荷兰威科集团(Wolters Kluwer)扩大与OpenAI合作,在受监管环境中为专业人士开发 AI 解决方案,OpenAI 技术可在威科集团安全平台内部署。

📄 首个可处理原始二进制文件的字节级 LLM——大字节模型

首个字节级 LLM,可处理原始恶意软件二进制恶意软件家族分类准确率达69%架构分类98%。已部署给分析师使用。

📄 经济思维:基于经济交互的多智能体涌现智能

引入Agent 经济,通过拍卖机制实现去中心化信用分配,在数学推理、金融研究等任务中超越单体基线。理论联系局部激励与全局表现。

📄 EntangleCodec:统一离散音频分词器

0.6B 参数的音频语言模型超越13B专用模型,MMAR 上**+7.4%**,实现统一语音/音乐/音频理解与生成。

📄 ReLoRA:知识重用的 LLM 服务适配

ReLoRA将 LoRA 适配器恢复速度提升8.9 倍,准确率提高4.6%,无需从头训练。

📄 GRZO:组相对零阶优化微调

GRZO在 Llama3-8B 上平均准确率**+3.0**,峰值 GPU 内存降低23%,方差随批量缩小。

📄 CA-RAG:成本感知的检索增强生成

CA-RAG动态选择检索深度,减少26%计费 token,延迟降低34%,问答质量不变。

📄 D-Judge:语义保留输出重写的多轮越狱防御

D-Judge通过重写 LLM 响应使攻击者反馈扭曲,在HarmBench上降低多轮越狱成功率。

📄 ALAR:自适应潜在代理推理

ALAR在搜索任务中减少**43.6%**生成 token,工具使用减少84.6%,同时保持准确率。

📄 Libra:高效资源管理强化学习后训练

Libra在 48 张 A800 上实现3.0 倍吞吐量提升,收敛速度2.5 倍于基线。

📄 CGTR:合并门控教师更新防止蒸馏崩溃

CGTR在 4 个任务上实现零崩溃,自调节刷新频率,最终分数最佳。

📄 PROVE:可验证环境中工具使用强化学习

PROVE采用编程奖励,在 BFCL 多轮任务上提升**+10.2**点,无需外部评判模型。

📄 ACTS:代理链式思维引导的高效推理

ACTS通过控制代理自适应引导推理策略,匹配全思考性能并大幅节省 token。

📄 QUBRIC:查询与评分共设计超越可验证奖励 RL

QUBRIC在 ArenaHard 上比 SFT 基线**+5.5**点,并迁移到法律、道德等任务。

𝕏 微软泄露 Claude Mythos 训练算力:6.1×10^27 FLOPs

微软在 Build 幻灯片中意外披露Claude Mythos训练 FLOPs 约为6.1×10^27(95%置信区间 5.3~7.1×10^27),推算为当前最大规模训练之一。

𝕏 微软新工具让开发者用文字描述即可创建 AI 行为测试

微软推出一款新工具,允许开发者通过文本描述来为 AI 行为生成测试。这降低了 AI 行为验证的门槛,提升开发效率。

𝕏 Hermes Desktop 发布:AI Agent 原生桌面应用公开预览

Nous Research发布Hermes Desktop,将 AI Agent Hermes 作为原生桌面应用。该产品在 Jensen 的 GTC 主题演讲中首次演示,现进入公开预览阶段。

Meta 收缩追踪鼠标键盘训练 AI 计划

Meta在内部备忘录中表示将缩减收集员工鼠标移动、键盘敲击数据用于 AI 训练的计划,新增控制选项允许员工暂停数据收集30 分钟

𝕏 Notion 集成 Grok 4.3 和 Grok Build 0.1 模型

Notion宣布在其 Notion Agent 和自定义 Agent 中支持Grok 4.3Grok Build 0.1模型。

腾讯云大幅下调 DeepSeek-V4 模型价格,最高降幅 97.5%

腾讯云公告称自 6 月 3 日起下调 DeepSeek-V4 系列模型价格V4-Pro 推理输入/输出价格均降75%,缓存命中价降**97.5%**至每千 tokens 0.000025 元

🔶 千问 App 向第三方 Agent 和 Skill 全面开放,首批企业接入

千问 App宣布向第三方AgentSkill全面开放,所有企业可在千问运营品牌 Agent。瑞幸肯德基蜜雪冰城东方航空等正进行测试。

🔶 英伟达与微软合作推出 Agentic AI 统一技术栈

英伟达微软在 Build 大会上宣布合作,推出统一技术栈用于部署Agentic AI,覆盖从 Windows 设备到云端全场景。

报道:腾讯接近推出微信 AI 助手

据知情人士,腾讯已完成微信 AI 助手原型测试,最快本月启动合规审批,可右滑唤出 AI 自动调用小程序完成点单等任务,该项目被列为最高战略优先级。

阿里发布 Qwen3.7-Plus:屏幕理解跑赢 GPT-5.4

阿里发布Qwen3.7-Plus模型,屏幕理解得分79,超过 GPT-5.4 和 Gemini-3.1 Pro。构建的 Hybrid-Agent 系统11 小时独立完成英语学习 App 开发。

DeepSeek-V4 为何未登顶开源榜首?实战经验分享

分析DeepSeek-V4未登顶开源第一的原因:团队重心在工程落地而非刷榜。建议按需调用分支模型(Coder、Math、VL),善用私有化部署和免费 API 试水。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。