天眼晚报
🤖 AI 大模型
𝕏 OpenAI 称 GPT-5.5 成史上最强模型发布,Codex 收入 7 天内翻倍
OpenAI称GPT-5.5上线一周后表现强劲,API 收入增速比历代模型发布快 2 倍以上,API 收入增长创下新高;同时 Codex 收入在不到 7 天内翻倍,显示新模型与编程 Agent 产品对商业化增长的拉动明显。
𝕏 Claude Code 泄露密钥的 3 个实操防护步骤
分享Claude Code防止密钥泄露的实操方案:先在 ~/.claude/settings.json 中配置 deny 规则,限制敏感文件读取;再创建假数据 .env.test 文件,用于拦截可能进入报错日志的真实环境变量;生产环境则使用 Docker 隔离,通过挂载空文件实现更强的物理隔离。
𝕏 RecursiveMAS 论文:多 Agent 通过隐空间递归通信显著降本提速
RecursiveMAS提出新型多 Agent 协作架构,让 Agent 之间直接传递数值向量而非文本,从而减少文本与 Token 之间的转换损耗。在 AIME 数学竞赛中,该方法准确率提升13-18%,Token 用量减少 75%,推理速度提升 2.4 倍,显示隐空间通信可能成为多智能体系统的重要优化方向。
𝕏 OpenAI Codex 上线宠物功能,可自定义并显示 Agent 任务状态
OpenAI Codex上线**宠物(Pets)**功能,提供 8 种内置宠物,并支持通过 /pet、/hatch-pet 入口自定义;自定义动画可由 GPT Image 2 生成序列帧。宠物可作为全局悬浮窗显示线程、运行中、等待输入、审阅等状态,并可唤起聊天,为长耗时 Agent 任务 提供更直观的环境感知和可观测性。
𝕏 CAISI 评测:DeepSeek V4 Pro 能力约落后前沿模型 8 个月
CAISI在 2026 年 4 月评测DeepSeek V4 Pro,认为其综合能力约落后前沿模型8 个月。不过在 7 项基准中,该模型有 5 项的成本效率优于美国竞品,说明其在能力差距之外仍具备较强的性价比优势。
𝕏 Codex CLI 0.128.0 新增 /goal,支持跨多轮持续执行长期目标
Codex CLI 0.128.0新增**/goal指令,用户给出目标后,AI 可围绕长期目标**持续推进任务,支持跨多轮执行、规划、验证与迭代,并可通过 config.toml 开启。该功能更适合构建 AI native 工作流,让 Codex 从单次响应转向持续执行。
𝕏 Microsoft Agent 365 正式可用,面向企业管理 AI 智能体
Microsoft Agent 365于5 月 1 日正式 GA,面向企业提供 AI 智能体发现、安全治理、可观测性和生命周期管理能力,价格为15 美元/用户/月。该产品定位为企业级智能体管理平台,帮助组织集中管控内部与外部 AI 代理的部署和风险。
𝕏 Poe 上线 Grok 4.3,强调工具调用与日常性价比
Poe上线Grok 4.3,称其在复杂任务、工具调用和价格性能比上较前代明显提升。该模型被定位为适合日常高频使用的选择,重点突出多步骤任务处理和性价比。
𝕏 V4-Flash+Hermes 测试显示可处理 170K 上下文任务
V4-Flash+Hermes测试显示可处理约170K/1M上下文任务,并在长上下文场景中保持较好的工具调用可控性。该结果表明其在超长输入、复杂任务编排和工具使用场景中具备一定潜力。
𝕏 Claude Code 新增 token 统计和使用统计
Claude Code更新内置token 统计与使用统计能力,可查看 Opus 等模型的消耗分布,帮助开发者更清楚地追踪不同模型、任务和会话的资源使用情况。
𝕏 Google 疑似短暂泄露 COSMO,Android 或走向本地 AI Agent
Google COSMO疑似短暂泄露的信息显示,Android 可能进一步走向系统级AI Agent。相关能力包括 Gemini Nano 本地运行、屏幕访问、语音匹配、浏览器代理与深度研究,暗示 Google 正在探索让移动设备具备更主动的跨应用执行能力。
𝕏 xAI 语音能力进入 Starlink 场景,语音克隆平台开始测试
Elon Musk称Grok Voice已被Starlink使用,显示 xAI 语音能力进入卫星通信场景;同时有用户展示 xAI Voice Cloning 平台测试效果,暗示 xAI 正在扩展语音生成、语音克隆与自家硬件服务之间的结合。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。