天眼早报
🤖 AI 大模型
𝕏 NVIDIA 发布 Nemotron 3 Ultra:550B 参数 MoE,专为长程 Agent 打造
NVIDIA发布开源模型Nemotron 3 Ultra,550B 参数 MoE 架构,55B 激活,支持1M 上下文,推理速度比同级开源模型快5 倍,Agent 任务成本降低30%。
𝕏 一周 25+开源模型密集发布,NVIDIA、Google、Ideogram 等领衔
本周超25 个开源权重模型发布,覆盖 LLM、图像、音频等模态。亮点包括NVIDIA Nemotron 3 Ultra、Google Gemma 4、Ideogram 4(首个开源权重)等,开源模型能力差距与闭源急剧缩小。
OpenAI 拟对 ChatGPT 进行最大规模改版,打造“超级应用”
OpenAI计划对ChatGPT进行历史上最大规模改版,整合编程工具Codex和浏览器 Atlas,打造“超级应用”。高管称“聊天已死”,未来转向AI 智能体。为支撑 IPO,员工数将从 4500 人增至 8000 人,以寻求更高收入。
🔶 Anthropic 与 OpenAI 展现 AI 自我加速,Claude 编写 80%生产代码
Anthropic 数据显示,Claude 现编写超过 80% 的合并生产代码,每位工程师每季产出升至 2024 年基线 8 倍,可靠任务长度约每 4 个月 翻倍,Mythos Preview 达到至少 16 小时 连续工作。同时,AI 自主构建更强继任者的递归自我改进路径比预期更快,Anthropic 警告这一趋势并呼吁暂停研究。OpenAI 后训练团队负责人 Yann Dubois 透露,模型在 2025 年 12 月 跨过可靠性阈值,之后 AI 编程能力加速,人均季度代码产出同样达到 2024 年 Q1 的 8 倍。
𝕏 全球互联网智能体流量已超越人类流量
全球最大互联网托管服务商数据显示,57.4% 的网络访问请求来自 AI 和自动化程序,42.6% 来自人类,智能体流量已超过人类流量。SemiAnalysis引用Cloudflare Radar数据确认,标志着 AI Agent 成为互联网主流流量来源。
𝕏 OpenAI 自研芯片“002 号员工” Clive Chan 转投 Anthropic
OpenAI自研芯片项目关键人物Clive Chan(002 号员工)宣布离职,本周加入Anthropic。他曾在特斯拉、谷歌、SpaceX 任职,参与 OpenAI 与博通合作的 10GW AI 加速器项目,预计2026 年下半年部署。此举被视为 AI 竞争从模型层向芯片层延伸的信号。
𝕏 开源与闭源模型成本差距巨大:DeepSeek V4 成本仅为 GPT-5.5 的 1/20
对每月各10 亿 tokens消费,GPT-5.5 Pro需10.5 万美元,Claude Opus需 3 万美元,而DeepSeek V4 Pro仅需5220 美元。开源模型能力接近,成本优势显著。
𝕏 Anthropic 发布企业 AI Agent 零信任安全白皮书
Anthropic发布白皮书,提出将零信任原则扩展到AI Agent架构,包含三层能力成熟度模型和八阶段实施工作流,强调 Agent 应从第一天就按"已遭入侵"设计。
🔶 多家模型厂商永久下调算力价格,DeepSeek 最高降幅近 99%
DeepSeek与小米 MiMo等模型厂商宣布永久下调算力价格,最高降幅接近99%,极大降低 AI 使用成本。
MiniMax 发布新模型 M3,原生多模态并支持电脑桌面操作
MiniMax上线新模型M3,原生多模态支持图片和视频输入,可操作电脑桌面,重点提升编程和智能体能力。API 限时 5 折,后续将开源模型权重。但 token 消耗更快,变相涨价。
OpenAI 发布《Harness Engineering》文章,详解 Codex 在 Agent 优先世界中的工程实践
OpenAI官方发布《Harness Engineering》文章,系统阐述如何利用Codex构建 AI Agent 的工程围栏(Harness),推动Agent-first开发范式。
𝕏 模型评测:Gemini Pro 迭代速度明显落后,与 Claude 和 GPT 差距扩大
分析师Ethan Mollick指出,Gemini Pro系列自 2 月发布 3.1 后就未更新,性能差距逐步拉大,Gemini 3.5 Flash无法弥合差距。
OpenAI 推出锁定模式防护提示注入攻击
OpenAI 为 ChatGPT 推出锁定模式,禁用网页浏览、图像检索、深度研究和智能体模式,旨在降低敏感数据通过提示注入泄露的风险。已向商业账户和符合条件的个人账户推送。
马斯克称最新版 Grok Build 已修复 Grep 超时问题
马斯克 宣布最新版 Grok Build 已修复 Grep 超时问题。
𝕏 大模型前端审美主观排名:Claude opus 4.8 领先
直播讨论中给出主观排名:Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1 > Deepseek v4 Flash,基于实际前端设计体验。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。