天眼日报

🤖 AI 大模型
Claude Code 2.1.39 更新:Bash 工具移除内部编辑字段
Claude Code 2.1.39 发布,Bash schema 移除 _simulatedSedEdit 字段,推动编辑向正常流程;包含 5 个 CLI 和 1 个提示变更。
LLaDA 2.1 100B 扩散 LLM 发布,编码速度达 892 tokens/s
ant_oss 发布 LLaDA 2.1,100B 参数离散扩散 LLM,采用 draft-then-edit 方式,峰值速度 892 tokens/s 处理复杂编码任务,支持中途修正错误、统一解码、用户控制模式、Mask-to-Token 编辑和 Token-to-Token 编辑。SGLang 提供 Day-0 支持,大规模块级 RL 训练实现 SOTA 效率,打破速度-质量权衡。
Claude Cowork Windows 版正式发布
Anthropic 的 Claude Cowork 现支持 Windows,实现与 MacOS 全功能一致,包括文件访问、多步任务执行、插件和 MCP 连接器。付费用户可立即使用研究预览版。
Cursor 团队开启 AMA,解答模型、长代理和 AI 编码问题
Cursor 团队 mntruell 等开启 AMA,持续 30 分钟,欢迎提问 Cursor、模型、长运行代理和 AI 编码等话题,Sualeh 和 Aman 可能加入。
Arena 推出 PDF 上传功能,支持文档推理评估
Arena 新增 PDF 上传,支持 Battle 和 Side by Side 模式,用户可上传文档测试 10 个模型的文档推理、总结提取,排行榜即将上线。
OpenAI ChatGPT 深度研究现由 GPT-5.2 驱动
OpenAI 宣布 ChatGPT 深度研究功能升级为 GPT-5.2 驱动,从今日开始逐步推出更多改进,支持连接应用、实时跟踪进度和全屏报告查看。
OpenAI Responses API 新增代理长时任务原语
OpenAI 在 Responses API 中引入服务器端压缩、带网络的容器和技能支持,支持多小时代理运行、互联网访问安装库及 Agent Skills 标准,首推电子表格技能。
Google Gemini 3 Flash 支持代理式“思考-行动-观察”循环
Gemini 3 Flash 新增代理循环,自动运行 Python 代码处理复杂视觉任务,如缩放检查物品、图像标注和数据图表重可视化。
Google Research 发布 DialogLab 开源对话原型框架
DialogLab 使用人机循环控制实现真实人类-AI 群组模拟,支持编辑、接受或拒绝实时 AI 建议,在真实性、有效性和参与度上优于全自主代理。
Claude Code 推出贡献度指标跟踪功能
Anthropic 为 Claude Code 推出贡献度指标,支持跟踪 PR 数量和代码行数。Team/Enterprise 用户安装 GitHub App 后启用,数据显示开发者日均 PR 增加 67%,70-90% 代码由 Claude 生成。
Qwen-Image-2.0 图像生成模型发布,支持专业排版和 2K 分辨率
阿里通义实验室/阿里云 发布 Qwen-Image-2.0,支持 1K token 长提示、2K 原生分辨率、专业排版、文本渲染、专业信息图生成(如 PPT、海报)和逼真照片输出(人物、自然、建筑)。架构更轻,推理更快,基准测试 HPS v2.1 得分 92.1,GenEval 得分 86.4,超越 GPT-4o 和 Gemini 2.0,已开放试用。
Baseten 推出 Kimi K2.5,TTFT 0.26 秒 TPS 340
Baseten Model APIs 上线 Kimi K2.5,Artificial Analysis 测试 TTFT 0.26 秒、TPS 340,多模态能力强,支持大量工具调用,超越多数开源模型。
GPT-5.3 Codex 在 Next.js 评测中达 90% 完成率,领先 Claude Opus 4.6
OpenAI 的 GPT-5.3 Codex (xhigh) 在 Next.js 的 20 个 AI Agent 任务评测中完成率 90%,大幅领先 Claude Opus 4.6 的 80%、Gemini 3.0 Pro 第三。评测覆盖代码生成和迁移,零调优达高性能。
Firecrawl 插件接入 Anthropic 市场
Firecrawl 插件现通过 Anthropic 官方市场安装,支持 Claude Code 内抓取/提取网站数据。
ElevenLabs 推出 Expressive Mode,支持 70+ 语言情感对话代理
ElevenLabs 发布 Expressive Mode,为 ElevenAgents 添加情感表达,支持 70+ 语言如印地语,适应客户情绪,实现品牌化对话代理。
Runway AI 视频融资 3.15 亿美元,估值达 53 亿美元
Runway 完成 3.15 亿美元 E 轮融资,估值 53 亿美元,聚焦世界模型开发,支持 2K 分辨率视频生成和更强编辑能力。
Claude 代码技能结合 Remotion 制作动态视频工作流
Claude Code 结合 Remotion 和浏览器自动化,实现实时视频迭代:描述需求→生成组件→预览调整→最终渲染,无需手动编码。
Ramp 后台 AI 代理贡献 57% 合并 PR,环境一致性关键
Ramp 后台代理 Inspect 在 Modal 沙箱 VM 运行,访问 Sentry/Datadog/GitHub 等工具,自测自审 PR 通过人类标准,加速产品迭代。
OpenClaw MemOS 插件降低 Token 消耗 72%
MemOS 插件为 OpenClaw 优化内存:精准 Recall+激活记忆,仅加载必要状态,支持多 Agent 共享,实测 Token 降 72%、调用减 60%。
GLM-4.7-Flash-GGUF 成为 UnslothAI 最下载模型
Zai_org 宣布 GLM-4.7-Flash-GGUF 在 UnslothAI 平台下载量第一,支持高效推理。
Artificial Analysis 推出个性化模型推荐工具
Artificial Analysis 发布 Model Recommender,基于智能、成本、速度和模态支持推荐模型,支持编码和代理能力权重调整。
Claude 代码技能支持 Home Assistant 配置和仪表板管理
Anthropic 的 Claude 新增代码技能,用于 Home Assistant 配置和仪表板管理,提供 Python 运行和可视化输出。
Claude Opus 4.6 系统卡第 2 部分:前沿对齐评估
Anthropic 发布 Claude Opus 4.6 系统卡第 2 部分,涵盖破坏、欺骗、情境意识、外部红队测试及灾难风险评估。ASL-3 级别模型,CBRN 评估显示 2 倍性能提升但未达 ASL-4 阈值,自治基准接近 R&D-4 阈值。Apollo Research 测试显示模型能区分评估与部署场景。
LLM 对哲学观点的 2026 年看法
Jonathan Erhardt 让 Claude Opus 4.6、ChatGPT 5.2 等模型完成 PhilPapers 2020 调查,创建仪表板对比哲学家观点。LLM 更倾向一箱决策(100% 一箱)、先验知识(100% 接受)、贬值实在论(83%),但对道德一般主义较少(少于哲学家)。
Hugging Face Transformers + MongoDB Atlas 构建语义搜索引擎
Arek Borucki 使用 sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 模型和 MongoDB Atlas Vector Search 构建多语言语义搜索引擎。支持法语/波兰语查询英文时尚产品数据集,实现跨语言相似性搜索。384 维向量索引,FastAPI API 端点。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。