天眼日报

🤖 AI 大模型
Karpathy 回顾 vibe coding 一周年:转向 agentic engineering
Andrej Karpathy 回顾 vibe coding 一周年概念流行,指出当前 LLM 代理已成为专业工作流默认,强调 agentic engineering:用户监督代理生成代码,确保软件质量。2026 年模型与代理层将持续进步。
FireRed-Image-Edit 图像编辑模型发布,超越 Qwen-Image-Edit 和 Seedream 4.0
FireRed-Image-Edit 开源模型在 GEdit 基准上超越 Qwen-Image-Edit 和 Seedream 4.0,支持高保真通用编辑,基于文本到图像基础构建,Apache 2.0 许可,本地运行。
Nanbeige4.1-3B 模型开源,Arena-Hard-V2 得分 73.2 超 Qwen
Nanbeige LLM Lab 发布 Nanbeige4.1-3B,Apache 2.0 许可,Arena-Hard-V2 73.2 分、GAIA 69.90 分超 Qwen3-4B,支持 256k 上下文,LeetCode 周赛通过率 85%。
蚂蚁开源 Ming 全模态模型、Ring-2.5-1T 思考模型和 LLaDA2.1 扩散模型
蚂蚁旗下 inclusionAI 开源 Ming 系列 Any-to-Any 全模态模型(输入/输出图像、文本、视频、音频)、Ring-2.5-1T 万亿参数思考模型(IMO 2025 金牌水平)、LLaDA2.1 扩散语言模型(基准测试持平 Qwen3-8B,支持并行生成+自我纠错)。GitHub 链接提供。
ByteDance 豆包 Seed 2.0 Pro 视觉理解 SOTA
ByteDance 发布 Doubao Seed 2.0 Pro,视觉理解能力达 SOTA 水平,Seed 1.8 仅 10 天前发布,现升级显著,支持复杂多模态任务。
字节发布豆包 2.0 系列模型,包括 Pro/Mini/Lite 和 Code 专用模型
字节跳动推出豆包 2.0 通用模型 Pro/Mini/Lite 及代码专用 Code 模型,支持 OpenClaw 和 Claude Code 工具调用,多模态视频理解推理能力强。
MiniMax 发布 M2.5 开源模型,SWE-Bench 达 80.2%
MiniMax 推出 M2.5 开源模型,SWE-Bench Verified 得分 80.2%、BrowseComp 76.3%、BFCL 76.8%,支持 Word/Excel/PowerPoint 操作,每小时 1 美元,激活参数 10B。
GLM5 已在英伟达开发者平台上线
智谱 AI 的 GLM5 模型正式上线 NVIDIA 开发者平台,支持开发者直接访问和测试。
Codex 5.3 能力显著增强,自动修复遗留问题
Codex 5.3 在使用中自动发现并修复 Opus/Gemini 3 Pro 遗留小问题,模型能力较前代明显提升。
ZeroClaw 用 Rust 重写 OpenClaw,性能压缩 8 倍内存 194 倍
geekbb 分享 ZeroClaw 用 Rust 重写 OpenClaw:28MB→3.4MB(压缩 8 倍)、5.98s→0s、1.52GB 内存→7.8MB(194 倍差距)。链接:https://t.co/FQXDJHMkzx。
T3 Chat 信用系统大改,每 4 小时重置使用量
theo 宣布 T3 Chat 信用系统重构:4 小时重置使用量条,无标准/高级信用区分。复杂任务(如 Gemini 3 Pro 分析 PDF)消耗更快,合理用户月消息量大幅增加。
LangChain 发布 Agent 可观测性概念指南
LangChain 发布 Agent Observability 指南:追踪 Agent 推理过程,支持系统评估。强调 Agent 任务复杂性,追踪记录行为涌现,支持评估。链接:https://t.co/pw3Og1VMrw。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。