天眼日报

🤖 AI 大模型
Anthropic 使用 16 个 Claude 代理构建 Rust C 编译器
Anthropic 研究员使用 16 个 Claude Opus 4.6 实例在共享代码库上协作开发 C 编译器,历时 2 周、进行 2000 次 Claude Code 会话、API 费用约 2 万美元,生成 10 万行 Rust 代码。该编译器支持 x86、ARM、RISC-V 架构,能够编译 Linux 6.9 内核。通过共享 Git 仓库、Docker 容器和测试反馈实现自主协作,展示了 AI 代理团队的强大能力。
Claude Code 占 GitHub 公开提交 4%,预计 2026 年达 20%
SemiAnalysis 数据显示,Claude Code 占公共 GitHub 提交的 4%,较上月增长 2 倍,预计到 2026 年将达到 20%,这标志着人类代码提交多数将被 AI 取代的趋势。
GitHub Copilot Pro+支持 Claude Opus 4.6 快速模式
GitHub 为 Copilot Pro+用户推出 Claude Opus 4.6 研究预览快速模式,测试显示输出速度显著提升。
Anthropic Claude Opus 4.6 登顶代码、文本和专家竞技场
Anthropic 发布 Claude Opus 4.6,代码竞技场得分提升+106(较 Opus 4.5),文本竞技场 1496 分(超 Gemini 3 Pro +10),专家竞技场领先~50 分,现为三项竞技场#1。
Anthropic 推出 Claude Opus 4.6 快速模式
Anthropic 为 Claude Opus 4.6 添加 fast 模式实验版,输出速度提升 2.5 倍,成本增加 6 倍($30/百万输入 token、$150/百万输出 token),至 2 月 16 日 50%折扣。适用于 Claude Code、API 及 Cursor、Figma 等工具。同时 Claude Code 2.1.36 版本更新 CLI 和提示,支持 fast mode 文档说明,使用相同 Opus 4.6 模型但输出更快。
xAI 发布 Grok Imagine Image 图像模型,登顶图像竞技场
xAI 推出 Grok Imagine Image 图像模型及 Pro 版,更快、更便宜,支持风格转移(摄影至动漫)、多分辨率(1K 灵活宽高比)、链式编辑迭代优化。在 Image Arena 中占据中价位 Pareto 前沿(2-8 美分/图像),超越 Flux-2-Dev;文本到图像排名#4(1170 分,超 Flux-2-max),图像编辑#5(1330 分,超 Seedream-4.5)。xAI 跻身图像 AI 前三,与 Google DeepMind 和 OpenAI 并列。
中国 Seedance 2.0 视频模型发布,超越 Google Veo 3.1 和 Kling 3.0
字节跳动 Seedance 2.0 视频模型于 2 月 7 日发布,支持参考图/视频/编辑,运动真实性和长序列一致性全球领先,在视频生成性能上超越 Google Veo 3.1 和 Kling 3.0,官方案例效果惊艳。实际体验显示推理能力强,支持多人照片输入生成不同动作和对话;画质一般,豆包版限 10 秒耗 20 积分,人脸一致性不足,提示词要求高。
Kimi K2.5 成为 OpenRouter 最受欢迎模型
OpenRouter 宣布 Kimi K2.5 登顶最受欢迎模型,超越其他前沿模型,在排行榜中领先,支持复杂任务处理。
Opus 4.6/Codex 5.3 展示 in-context 学习进步:代理从代码库提取洞察
deanwball 观察 Opus 4.6 和 Codex 5.3 在编码代理中进步,自动从数百代码库提取用户偏好、数据预处理等洞察,如 2 月前项目 Tool Y 问题;视为 on-the-job 学习,正反馈循环加速持续学习。
Perplexity 发布高级 Deep Research:基准测试胜 OpenAI/Anthropic
Perplexity 推出 Deep Research 高级版,基准测试击败 OpenAI 和 Anthropic;AI 竞赛加速。
EchoJEPA:训练 18M 视频/300K 患者的心脏模型,仅 1%标注数据胜前方法
EchoJEPA 是世界最佳超声心动图视频模型,训练 18M 视频跨 300K 患者,学习心脏解剖+运动;仅 1%标注数据胜 SOTA。
Anthropic 发布 Claude Opus 4.6 系统卡,Vending-Bench 创纪录,发现 500 开源漏洞
Anthropic 发布 Claude Opus 4.6 的 212 页系统卡,擅长金融数据分析和 SEC 文件阅读,推出后 FactSet 股价下跌近 10%。Vending-Bench 2 模拟 1 年售货机业务收入 8017.59 美元,超 Gemini 3 Pro 的 5478.2 美元。同时无需自定义提示识别成熟开源代码库高危未知漏洞,利用 git 提交历史推断类似 bug,如 C 字符串溢出和 GIF 压缩问题,已验证 500+个 bug 并合并补丁。
Claude Code、OpenClaw、Codex 内存占用对比:Codex 仅 47M
Claude Code 内存 819M、OpenClaw 561M、Codex 47M,Codex 仅为 Claude Code 的 1/20,凸显 Rust 在本地模型部署的优势。
Opus 4.6 与 GPT-5.3 体验:速度与深度双向提升,一遍过代码
Opus 4.6 速度快、思考深度超 4.5,GPT-5.3 反应加速、支持 Plan 模式中文思考,两模型互补,开发功能可用性大幅提高。
dhh 用 Kimi K2.5 快速配置 Arch Linux 服务器
dhh 在新 Arch 服务器上用 Kimi K2.5 代理处理模糊细节,速度极快,通过 opencode Zen 服务运行。
dhh 在 Beelink AMD 395+跑 qwen3-coder-next,35 tps
dhh 在 Beelink AMD 395+(128GB)运行 qwen3-coder-next,输出 35 tps,本地 LLM 潜力巨大。
OpenClaw 在 Spring Boot 中的 Java 集成教程
OpenClaw 作为本地 HTTP API(localhost:18789),通过 RestClient 调用 chat/completions 端点;配置 LiteLLM 支持 OpenAI/Anthropic/Gemini 等多模型;包含 DTO、Service 和 Controller 完整代码。
通义千问和字节跳动 Seed 疑似新模型在 Arena 测试
Karp-001 和 Karp-002 声称 Qwen-3.5 模型,Pisces-llm-0206a 和 Pisces-llm-0206b 为字节跳动模型,正在 LMSYS Arena 测试。
Pony Alpha 悄然上线 OpenRouter
Pony Alpha 模型昨晚在 OpenRouter 上线,免费使用、200K 上下文、18 TPS 吞吐量,编码能力出色。排除 Gemini(上下文过长)、OpenAI/Anthropic/Moonshot(近期大版本发布),疑似中国团队作品。
Windows 版 Codex App 即将发布
OpenAI 内部 Windows 版 Codex App 开发接近完成,支持 Azure OpenAI 接口对接,发布在即。
mini-swe-agent:仅 100 行代码的 AI 软件工程代理,在 SWE-bench 达 74%
SWE-agent 团队推出 mini-swe-agent,仅 100 行 Python 实现 AI 代理,支持 bash 工具解决 GitHub issues,在 SWE-bench verified 基准达 74%,支持 Docker/Podman 沙箱部署。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。