天眼日报

🤖 AI 大模型
字节跳动发布豆包大模型 2.0 Pro,专家模式上线
字节跳动推出豆包大模型 2.0 Pro,多模态理解达到 SOTA 水平,SuperGPQA 超 GPT-5.2,IMO/CMO 获金牌,推理成本降 1 个数量级(输入 0.47 美元/M,输出 2.37 美元/M)。2 月 14 日支持专家模式,适用于大规模生产场景。
MiniMax 发布 MiniMax-M2.5 开源模型,SWE-Bench 达 80.2%,支持复杂 Agent 工具
MiniMax 发布 MiniMax-M2.5 开源模型,229B 总参数/10B 活跃 MoE 架构,Intelligence Index 42 位列开源模型 3-5 位,Agentic Index 升至 56,GDPval-AA ELO 1215,支持 200k 上下文。在 SWE-Bench Verified 基准达 80.2%,从 M1 56.0%快速迭代,领先代码修复测试通过率。经数十万复杂真实环境强化学习,SOTA 性能于编码/Agent 工具/搜索/办公流程。Hugging Face:https://t.co/zfu7Am7yOg,GitHub:https://t.co/uF3FNnb5AX。
字节跳动 Seed2.0 系列模型发布,Pro 版视觉理解达顶尖水平
字节跳动推出 Seed2.0 系列,包括 Pro/Lite/Mini 三款 Agent 模型及 Code 模型,优化视觉多模态(复杂文档/表格/视频)、复杂指令执行、多步骤任务。Pro 版视觉任务业界顶尖,图像视频理解基准#1,通用智能近前沿,支持研究级推理如埃尔德什数学问题。Pro/Code 上线豆包/TRAE,API 同步火山引擎。定价低于 Gemini Flash(输入 0.47 美元/M,输出 2.37 美元/M)。项目主页:https://t.co/4zvHtpSnWS。
OpenAI 内部模型解决前沿数学证明挑战,至少 6 题高概率正确
OpenAI 运行内部训练中模型,仅限人类少量监督,针对 10 个数学研究问题(需领域专长、难验证),专家反馈认为 6 题(2、4、5、6、9、10)高概率正确,其他有潜力。采用一周侧项目,查询训练中模型,未提供证明思路,仅部分扩展验证。结合 ChatGPT 验证,PDF 哈希 d74f090af16fc8a19debf4c1fec11c0975be7d612bd5ae43c24ca939cd272b1a,午夜后发布。#1stProof
腾讯 Hunyuan 开源 GradLoc 诊断工具解决 RLVR 梯度爆炸
腾讯 HY Research 发布博客,开源 GradLoc 工具,在 O(log N)时间内追踪梯度峰值至具体 token。提出 LayerClip 逐层梯度裁剪,基于本地层统计自适应约束,提升 RLVR 训练稳定性。GitHub 链接提供。
Claude Code Bash 工具提速 7 倍,1GB 输出仅 15 秒
Claude Code 下一版本优化 Bash 工具,内存使用降低,1GB 输出 10 次从 115 秒降至 15 秒(7 倍加速)。适用于大规模 stdout 处理。
Kling-3.0 上线 Video Arena,支持文本到视频和图像到视频
Arena 上线 Kling-3.0 模型,支持文本到视频和图像到视频,Battle Mode 下匿名对比两模型响应,用户投票影响排行榜。
Vercel 开源 json-render,在聊天中渲染 JSON 组件
Vercel 开源 json-render 组件,在 LLM 对话中渲染 JSON 为图形界面,类似蚂蚁 Infographic,GitHub 链接:https://t.co/LDVoTXBIOV。
Claude Octopus 开源插件实现多 AI 协作开发
Claude Octopus 开源插件支持 Codex、Gemini 和 Claude 在单一终端协作开发,按探索、定义、开发、交付四个阶段执行任务。内置 29 个专业角色和 43 个专项技能,通过 OAuth 免费使用大部分场景。
Anthropic 发布 2026 AI 编程趋势报告
Anthropic 发布 2026 AI 编程趋势报告,预测软件开发从人写代码转向人指挥 AI 写代码,2026 年全面爆发。报告分析 8 个趋势分为三大类,强调人与 AI 协作新纪元。
Cline CLI 2.0 支持终端多 Agent 并行协作
Cline CLI 2.0 支持 TUI 交互、tmux 分屏并行 Agent、无头模式 CI/CD 集成和 ACP 协议。Tab 切换 Plan/Act 模式,Shift+Tab 自动批准,动态切换模型。
字节跳动发布 Seedance 2.0 视频生成模型
字节跳动发布 Seedance 2.0,支持文字/图片/音频/视频多模态输入,15 秒 1080P 视频生成成本 4.5-9 元。日本动画电影文化连盟质疑版权问题,字节回应模型未正式发布。
零依赖 AI 代理内存系统:200 行 Bash 代码实现文件式记忆同步
musecl-memory 是零依赖的文件式 AI 代理内存系统,使用 bash、git 和 markdown,每个代理目录含 MEMORY.md 文件,sync.sh 脚本处理 git 同步。支持版本控制、无供应商锁定,2 秒内同步 50 个代理。相比 Mem0 和 Letta,无 Python 依赖、100%本地隐私。
上下文工程成为新后端:AI 内存问题深度剖析
上下文工程取代提示工程,成为 AI 系统架构核心。分层内存模型区分短期对话、长期偏好、领域知识;检索不是内存,需结构化优先级、演化、遗忘。影响千万级用户 SaaS 平台,优化减少不必要 token,经济差异化上游化。
LLM 工具密钥管理:避免 OpenAI 密钥泄露到 GitHub
LLM 系统密钥快速膨胀至 70+,提供 AWS Secrets Manager、Terraform、IAM 角色、OIDC 等生产级方案。AWS Secrets Manager 月成本 0.40 美元/密钥,Kubernetes IRSA 动态凭证。生产安全清单 9 项,常见泄露向量 4 种。
AIP:AI 代理身份基础设施
AIP 为 AI 代理提供加密身份,Ed25519 密钥对签名/加密,DID 唯一标识。8 个代理注册,239 测试通过,350 PyPI 下载/天。web-of-trust 模型,NaCl SealedBox 端到端加密消息。GitHub:The-Nexus-Guard/aip。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。