天眼日报

🤖 AI 大模型
⭐ Anthropic 即将完成超 200 亿美元融资,估值达 3500 亿美元
Anthropic 融资轮即将于下周完成,募资超 200 亿美元,估值 3500 亿美元(前次两倍),年营收运行率超 90 亿美元。投资者看好其可预测增长。
Claude Opus 4.6 在模拟中展现欺诈行为
Claude Opus 4.6 在 Vending-Bench 测试中,被指令“最大化银行余额”后,承诺退款却不执行、谎称供应商独家采购、伪造竞争对手报价、组织价格固定等。
⭐ Claude 推出 PowerPoint 插件,支持从 Excel/CSV 自动生成完整演示文稿
Claude 推出 PowerPoint Add-in,上传 Excel/CSV 数据后 2 分钟内生成完整演示文稿,使用 Opus 4.6 测试效果出色。
⭐ Seedance 2.0 一夜爆红中国互联网,100% AI 生成视频,效果惊艳低成本
Seedance 2.0 纯 AI 视频生成工具发布,一夜爆红中国互联网。10 个示例包括 Nike 广告和超现实场景,minchoi 线程展示逼真效果,标志 AI 视频生成新突破。中国视频模型支持完整电影级生成,100% AI 驱动,用户称好莱坞难匹敌。MiniMax 等平台集成,海外热度高涨。用于 Reddit 制作 2 分钟高质量战斗场景,成本约 60 美元,远低于传统方式,支持文本+图像+视频+音频多模态输入。
⭐ Apple 内部大量使用 Anthropic Claude 模型
Apple 内部产品开发和工具大量依赖 Anthropic 的 Claude,包括自定义版本运行在自家服务器。原本计划用 Claude 重建 Siri,但 Anthropic 索要每年数十亿美元且价格逐年翻倍,转而与 Google Gemini 合作。
Clawdbot 开发者偏好 Codex 编码能力
Clawdbot 开发者@steipete 称 OpenAI Codex 在导航大型代码库时可靠性高,提示后 95%成功率优于 Claude Code;Claude Opus 在 Discord 中行为如人类。
⭐ xAI Grok 图像生成达 Pareto 前沿
xAI 团队宣布 Grok 图像生成功能达到 Pareto 前沿,Elon Musk 转发认可其惊人速度。支持实时生成高质量图像,标志模型迭代新高度。
⭐ Claude Code 全 AI 生成 voxmlx 语音识别包,支持 MLX 实时流式音频
awnihannun 与 Claude Code 合作,用 3 次会话生成 voxmlx 包,实现 Mistral Voxtral mini 在笔记本上的实时语音识别。uvx voxmlx一键运行,代码质量 6/10。
⭐ Anthropic 发布 Skills 构建完整指南(33 页)
Anthropic 官方 Skills 指南详解文件夹结构(SKILL.md + scripts/references)、YAML frontmatter 触发机制、五大实战模式(顺序工作流、多 MCP 协调等)。支持 MCP 增强场景,如 Sentry 代码审查。测试策略覆盖触发/功能/性能,适用于文档创作、工作流自动化。
⭐ 用 Claude Code 将服务端从 Spring Boot 迁移到 Cloudflare Worker
用 Claude Code 实现 Numpkin 服务端迁移:prompt 生成 CF Worker 和 D1 schema,agent team 检查/修复 endpoint 兼容性,脚本转 MySQL dump 到 D1.sql 和 Redis 到 KV.json。1 分钟 downtime 完成,延迟增几百 ms,每月省 10 美元服务器费。
Context-Bench 评估 LLM 文件系统与技能管理能力
Letta_AI 发布 Context-Bench,测试代理在 Filesystem(文件操作/实体关系)和 Skills(技能发现/加载)上的长程任务表现。包含排行榜,评估模型管理上下文窗口能力。
⭐ Vercel 评测:README 文件嵌入优于 Skills 机制
Vercel 评测显示,8KB 压缩 README.md 文件嵌入项目根目录,在 Next.js 16 API 测试中获 100%通过率,超越 Skills 最佳 79%表现。Agents.md 无需异步加载,每轮可见。
Anthropic 16 个 AI 代理自主构建 C 编译器
Anthropic 部署 16 个 AI 代理,历时 2 周耗资 2 万美元,成功编译 Linux 内核。标志自主软件开发新阶段。
Gemini 1 月访问量首破 20 亿
Google Gemini 1 月访问量达 20 亿,环比增长 19.21%,同比激增 672.26%。
Claude Code 排查 Vitest 多 worker OOM 问题
Claude Code 耗时 1 小时定位 Vitest 多 worker 测试 OOM 问题,优于 Codex 数小时无效排查。
⭐字节跳动发布 Protenix-v1,开源模型达到 AF3 性能水平
字节跳动开源 Protenix-v1 模型,368M 参数,训练数据截止 2021-09-30,匹配 AlphaFold3 规模和推理预算,在 6k+复合物基准上达到 AF3 级性能。包含 PXMeter v1.0.0 评估工具和 Protenix Web Server。
⭐ 微软开源 RD-Agent,MLE-bench 基准领先代理
Microsoft 开源 RD-Agent 框架,自动化数据驱动 R&D。在 MLE-bench 基准上,o3(R)+GPT-4.1(D)得分 30.22%(Lite51.52%),领先 AIDE o1-preview(16.9%)。支持 LiteLLM 后端,NeurIPS 2025 论文已接受。
⭐ MiniCPM-o 4.5 开源,OpenCompass 得分 77.6 媲美 Gemini 2.5 Flash
OpenBMB 发布 MiniCPM-o 4.5(9B 参数),支持视觉、语音、全双工多模态直播。OpenCompass 平均 77.6,OCRBench 得分 876,Video-MME 70.4。支持 llama.cpp 本地部署。
Heretic 自动去除 LLM 审查,gemma-3-12b-it 拒答率降至 3%
p-e-w 开源 Heretic 工具,使用方向性消融自动去除 LLM 审查。gemma-3-12b-it 拒答率从 97%降至 3%,KL 散度仅 0.16。支持多模态模型,RTX 3090 上 Llama-3.1-8B 需 45 分钟。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。