天眼日报

科技|2026年02月08日|约 43 分钟阅读

来源：1618 条推文 + 400 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-07 — 2026-02-08

AI 速读24 条精选

🤖头条Claude 4.6登顶三项榜单AI大模型

Anthropic新模型在代码、文本和专家竞技场同时第一，进一步改写前沿模型竞争格局。

🤖头条16个Claude代理造出C编译器AI代理

AI代理协作两周生成10万行Rust代码并编译Linux内核，显示软件工程自动化进入新阶段。

🤖头条亚马逊拟投2000亿美元押注AIAI基础设施

Amazon被曝2026年AI资本开支达2000亿美元，远超同行，预示算力和云基础设施竞赛继续升级。

🤖头条Anthropic系统卡曝安全与商业突破AI安全

Opus 4.6系统卡称其可发现500多个开源漏洞且金融分析能力强，已对相关数据服务商形成压力。

🤖头条xAI图像模型跻身前三AI图像生成

Grok Imagine Image在图像竞技场表现领先且价格有竞争力，xAI正式进入头部生成式视觉阵营。

🤖Claude Code提交占GitHub 4%AI编程

🤖字节Seedance 2.0视频模型发布AI视频生成

💡Unconventional AI种子轮融4.75亿创业投资

🏛纽约拟暂停新数据中心三年政策监管

🤖OpenAI内部推进代理式开发AI代理

🤖Copilot Pro+接入Claude 4.6快模AI编程

🤖Kimi K2.5成OpenRouter最热模型AI大模型

🤖Windows版Codex应用将发布AI编程

📦mini-swe-agent百行代码达74%开源

🤖Cursor多代理一周造浏览器AI代理

🤖结构化格式可让Agent耗token增740%AI研究

📦Vouch治理开源项目信任关系开源

📰OpenClaw推出云部署服务开发工具

📦本地Deep Research助手开源开源

🚀Falcon 9复飞后再射25颗星链航天

📰Super Bowl现AI广告潮行业动态

📈高盛用Claude做财务合规金融科技

₿Tether协助冻结5.44亿美元USDT加密货币

₿比特币挖矿难度大降11.16%加密货币

🤖 AI 大模型

Anthropic 使用 16 个 Claude 代理构建 Rust C 编译器

Anthropic 研究员使用 16 个 Claude Opus 4.6 实例在共享代码库上协作开发 C 编译器，历时 2 周、进行 2000 次 Claude Code 会话、API 费用约 2 万美元，生成 10 万行 Rust 代码。该编译器支持 x86、ARM、RISC-V 架构，能够编译 Linux 6.9 内核。通过共享 Git 仓库、Docker 容器和测试反馈实现自主协作，展示了 AI 代理团队的强大能力。

Claude Code 占 GitHub 公开提交 4%，预计 2026 年达 20%

SemiAnalysis 数据显示，Claude Code 占公共 GitHub 提交的 4%，较上月增长 2 倍，预计到 2026 年将达到 20%，这标志着人类代码提交多数将被 AI 取代的趋势。

GitHub Copilot Pro+支持 Claude Opus 4.6 快速模式

GitHub 为 Copilot Pro+用户推出 Claude Opus 4.6 研究预览快速模式，测试显示输出速度显著提升。

Anthropic Claude Opus 4.6 登顶代码、文本和专家竞技场

Anthropic 发布 Claude Opus 4.6，代码竞技场得分提升+106（较 Opus 4.5），文本竞技场 1496 分（超 Gemini 3 Pro +10），专家竞技场领先~50 分，现为三项竞技场#1。

Anthropic 推出 Claude Opus 4.6 快速模式

Anthropic 为 Claude Opus 4.6 添加 fast 模式实验版，输出速度提升 2.5 倍，成本增加 6 倍（$30/百万输入 token、$150/百万输出 token），至 2 月 16 日 50%折扣。适用于 Claude Code、API 及 Cursor、Figma 等工具。同时 Claude Code 2.1.36 版本更新 CLI 和提示，支持 fast mode 文档说明，使用相同 Opus 4.6 模型但输出更快。

xAI 发布 Grok Imagine Image 图像模型，登顶图像竞技场

xAI 推出 Grok Imagine Image 图像模型及 Pro 版，更快、更便宜，支持风格转移（摄影至动漫）、多分辨率（1K 灵活宽高比）、链式编辑迭代优化。在 Image Arena 中占据中价位 Pareto 前沿（2-8 美分/图像），超越 Flux-2-Dev；文本到图像排名#4（1170 分，超 Flux-2-max），图像编辑#5（1330 分，超 Seedream-4.5）。xAI 跻身图像 AI 前三，与 Google DeepMind 和 OpenAI 并列。

中国 Seedance 2.0 视频模型发布，超越 Google Veo 3.1 和 Kling 3.0

字节跳动 Seedance 2.0 视频模型于 2 月 7 日发布，支持参考图/视频/编辑，运动真实性和长序列一致性全球领先，在视频生成性能上超越 Google Veo 3.1 和 Kling 3.0，官方案例效果惊艳。实际体验显示推理能力强，支持多人照片输入生成不同动作和对话；画质一般，豆包版限 10 秒耗 20 积分，人脸一致性不足，提示词要求高。

Kimi K2.5 成为 OpenRouter 最受欢迎模型

OpenRouter 宣布 Kimi K2.5 登顶最受欢迎模型，超越其他前沿模型，在排行榜中领先，支持复杂任务处理。

Opus 4.6/Codex 5.3 展示 in-context 学习进步：代理从代码库提取洞察

deanwball 观察 Opus 4.6 和 Codex 5.3 在编码代理中进步，自动从数百代码库提取用户偏好、数据预处理等洞察，如 2 月前项目 Tool Y 问题；视为 on-the-job 学习，正反馈循环加速持续学习。

Perplexity 发布高级 Deep Research：基准测试胜 OpenAI/Anthropic

Perplexity 推出 Deep Research 高级版，基准测试击败 OpenAI 和 Anthropic；AI 竞赛加速。

EchoJEPA：训练 18M 视频/300K 患者的心脏模型，仅 1%标注数据胜前方法

EchoJEPA 是世界最佳超声心动图视频模型，训练 18M 视频跨 300K 患者，学习心脏解剖+运动；仅 1%标注数据胜 SOTA。

Anthropic 发布 Claude Opus 4.6 系统卡，Vending-Bench 创纪录，发现 500 开源漏洞

Anthropic 发布 Claude Opus 4.6 的 212 页系统卡，擅长金融数据分析和 SEC 文件阅读，推出后 FactSet 股价下跌近 10%。Vending-Bench 2 模拟 1 年售货机业务收入 8017.59 美元，超 Gemini 3 Pro 的 5478.2 美元。同时无需自定义提示识别成熟开源代码库高危未知漏洞，利用 git 提交历史推断类似 bug，如 C 字符串溢出和 GIF 压缩问题，已验证 500+个 bug 并合并补丁。

Claude Code、OpenClaw、Codex 内存占用对比：Codex 仅 47M

Claude Code 内存 819M、OpenClaw 561M、Codex 47M，Codex 仅为 Claude Code 的 1/20，凸显 Rust 在本地模型部署的优势。

Opus 4.6 与 GPT-5.3 体验：速度与深度双向提升，一遍过代码

Opus 4.6 速度快、思考深度超 4.5，GPT-5.3 反应加速、支持 Plan 模式中文思考，两模型互补，开发功能可用性大幅提高。

dhh 用 Kimi K2.5 快速配置 Arch Linux 服务器

dhh 在新 Arch 服务器上用 Kimi K2.5 代理处理模糊细节，速度极快，通过 opencode Zen 服务运行。

dhh 在 Beelink AMD 395+跑 qwen3-coder-next，35 tps

dhh 在 Beelink AMD 395+（128GB）运行 qwen3-coder-next，输出 35 tps，本地 LLM 潜力巨大。

OpenClaw 在 Spring Boot 中的 Java 集成教程

OpenClaw 作为本地 HTTP API（localhost:18789），通过 RestClient 调用 chat/completions 端点；配置 LiteLLM 支持 OpenAI/Anthropic/Gemini 等多模型；包含 DTO、Service 和 Controller 完整代码。

通义千问和字节跳动 Seed 疑似新模型在 Arena 测试

Karp-001 和 Karp-002 声称 Qwen-3.5 模型，Pisces-llm-0206a 和 Pisces-llm-0206b 为字节跳动模型，正在 LMSYS Arena 测试。

Pony Alpha 悄然上线 OpenRouter

Pony Alpha 模型昨晚在 OpenRouter 上线，免费使用、200K 上下文、18 TPS 吞吐量，编码能力出色。排除 Gemini（上下文过长）、OpenAI/Anthropic/Moonshot（近期大版本发布），疑似中国团队作品。

Windows 版 Codex App 即将发布

OpenAI 内部 Windows 版 Codex App 开发接近完成，支持 Azure OpenAI 接口对接，发布在即。

mini-swe-agent：仅 100 行代码的 AI 软件工程代理，在 SWE-bench 达 74%

SWE-agent 团队推出 mini-swe-agent，仅 100 行 Python 实现 AI 代理，支持 bash 工具解决 GitHub issues，在 SWE-bench verified 基准达 74%，支持 Docker/Podman 沙箱部署。

💰 加密货币currency

Lummis 参议员呼吁银行拥抱稳定币

美国参议员 Cynthia Lummis 表示，银行应采用稳定币等数字资产，提供全新金融产品给客户。

以太坊 L2 链数增 51% TVL 降 11%

47 个以太坊 L2 争夺 381 亿美元 TVL，半年内链数从 31 增 51%，TVL 从 427 亿降 11%，Base 占 37%。

比特币挖矿难度下调 11.16%至 125.86T

Mempool 开发者 Monaught 表示，比特币挖矿难度下调 11.16%至 125.86T，为 2021 年 7 月中国矿业清退以来最大单次负调整，受 1 月底天气限产影响，隐含算力回升。

中美国监管差异：中国 RWA 资产穿透，美国 Tokenization 法律工具分类

hqinjarsy 解析中国监管问资产代币化（RWA 白名单），美国问 token 法律地位（security/commodity）；中国国家账本，美国法律账本，前者资产真实性，后者范式逃逸。

EspressoSys 向$ALT 质押者空投$ESP，2 月 9 日截止

EspressoSys 向 AltLayer 官方质押$ALT 用户空投$ESP，需在 2 月 9 日 00:00 UTC 前注册，警惕诈骗。

Metaplanet CEO：无论市场下跌，继续积累 Bitcoin

Metaplanet CEO Simon Gerovich 表示，公司将持续积累 Bitcoin，不论市场波动或股价变化。

安永报告：智能钱包兴起威胁传统银行客户入口

EY 报告警告智能钱包整合身份验证/资产管理/支付，金融机构若不掌握将沦为后台提供商；引用 CoinDesk。

Tether 协助土耳其冻结 5.44 亿美元非法博彩 USDT

Tether 冻结与土耳其非法博彩相关的 5.44 亿美元（4.6 亿欧元）USDT，累计在 62 国 1800 多起调查中冻结 34 亿美元非法 USDT。

中国八部门明确 RWA 监管分工，外债类归发改委

外债类 RWA 归发改委监管，股权/资产证券化类归证监会，外汇局管资金汇回，强调金融机构主导非散户化。

Michael Saylor：Strategy 启动比特币量子抗性安全计划

Michael Saylor 宣布 Strategy 启动比特币安全计划，协调全球网络安全、加密和 BTC 社区，聚焦区块链量子抗性。

🛠️ Tool Recommendations

Vouch：开源项目显式信任管理工具

mitchellh 推出 Vouch，通过 GitHub Actions 管理贡献者信任，未经担保用户无法提交。数据存于仓库文本文件，支持项目间信任网络共享，解决 AI 时代垃圾 PR 问题。

usebits 推出 OpenClaw 云部署服务

Y Combinator 公司 usebits 提供 OpenClaw 安全云实例部署，仅需 5 分钟，解决工程师配置难题。

Kimi k2.5 付费版流量路由优化，速度大幅提升

thdxr 优化 Kimi k2.5（付费版）在 Zen 上的流量路由，现速度极快，可能触及速率限制。

Claude Code 与 LangSmith 集成追踪 LLM 调用

LangChain 新集成允许 Claude Code 追踪所有 LLM 和工具调用，提供工作流可观测性。

Clawdbot 安装至 Ray-Ban Meta 眼镜，支持实时购买

用户将 clawdbot 安装至 Ray-Ban Meta 眼镜，眼镜可识别物品并实时购买。开源代码已发布，支持 OpenClaw 框架。

AI 代理终端界面工具

Terminal 界面专为 AI agents 设计，支持命令行交互和可视化。适用于 Claude Code 等代理开发。

Antigravity：为工作流建持久记忆，跨空间提取 Knowledge Items

Antigravity 消除 re-learning 税，从工作流提取 Knowledge Items 自动应用标准，无需重复 AI 说明。

Codepilot v0.2.3 支持 Windows 和 macOS Intel

Codepilot 更新 v0.2.3，新增 Windows 全面支持和 macOS x64 包，修复白屏崩溃及 Claude CLI 发现问题。

Clash Master v1.0.7：I/O 负载降 97.13%，新增规则链可视化

Clash Master v1.0.7 优化日志处理，I/O 负载降低 97.13%，新增 Rule Chain Flow 可视化及 Favicon 自定义。

Delivr：极简客户端门户工具，仅限文件分享与更新

Delivr 专注文件上传/下载、更新通知和品牌定制；用 Next.js 14/Prisma/PostgreSQL 构建，5 分钟部署；避免 CRM/发票等臃肿功能。

自建硬件随机数生成器 HHRNG 使用无线电噪声

HHRNG 用 SDR blog v4 捕获 IQ 样本，计算相位差生成比特；结合 LCG PRNG 混合使用，支持 random()/randint()/choices()/shuffle()；GitHub 完整代码。

Quickemu 一键启动近 1000 个操作系统虚拟机

基于 QEMU 的 Quickemu 工具，quickget 下载镜像生成配置后一键启动，支持 macOS/Windows 10/11/Linux/FreeDOS，含剪贴板/文件共享/USB 直通，无需 root 权限。

OCR 工具：文档结构化数据提取

OCR 工具通过 OCR 从文档提取结构化数据。

local-deep-research：本地深度研究 AI 助手，SimpleQA 达 95% 准确率

Local Deep Research 支持本地/云 LLM（Ollama 等），搜索 10+ 来源（arXiv、PubMed、私有文档），SQLCipher 加密数据库，Docker 一键部署，LangChain 集成，REST API 和基准测试。

📖 教程攻略

Vibe Coding 操作流程：从小白到 MVP 产品

binghe 分享小白 Vibe Coding 流程：1.社交媒体找需求；2.GTP/Claude 挖掘文档；3.截图 Google AI Studio 做前端；4.Claude Code/Cursor 开发 MVP，Typeless 口喷编程。包含完整步骤和迭代。

后端项目用 Coding Agent 关键：验收标准 + 测试覆盖

dotey 强调后端 Coding Agent 关键在验收标准，先补测试。用 GPT-5.3-codex 或 Opus 4.6 + Claude Code 改屎山代码，微服务拆小即可搞定。测试覆盖够，人工仅审查。

Claude Code+Opus 4.6 复活 1924 印地小说：OCR+翻译+插图全流程

deedydas 用 Claude Code/Opus 4.6 协调 Sarvam OCR、GPT-4.1 翻译、Gemini 3 Pro 插图复活 Rahul Sankrityayan《Baeesween Sadi》（22 世纪），预测视频通话等；提供 PDF 链接。

Kiro 自定义子代理并行执行 AWS CDK 任务

Kiro 2026-02-05 更新自定义子代理，支持定义工具和流程并行执行 AWS CDK 代码审查、文档生成、测试，包含完整定义示例和注意事项。

Cookies ELI5：像 5 岁孩子一样解释 Cookies 工作原理

Cookies 如俱乐部手环，存储登录状态/购物车/偏好；类型包括 Session/持久/Third-party；包含 JS 代码示例和隐私说明。

⭐ OpenClaw 从 0 到跑通保姆级安装指南

OpenClaw 安装教程：Telegram/WhatsApp 私有化 AI 助手，图文+视频全流程，从新手路径到真正使用，包含 YouTube 视频链接。

💎 技巧经验

Claude Cowork勿触文件系统：误删15 年照片，仅iCloud 30 天恢复

Claude Cowork整理桌面获删权限，终端误删15 年相机照片（孩子/婚礼/旅行）；无Time Machine，iCloud保留30 天文件恢复；警告勿让代理触不可修复系统。

⚡ 工作流

Opus 4.6 + Cursor + Convex：4 小时构建多人游戏世界

martin_casado 使用 Claude Opus 4.6、Cursor 和 Convex 在 4 小时内构建了一个持久化多人世界，包括聊天功能、精灵/地图编辑器，下一步计划添加叙事、库存和战斗系统。

AI 协作内容生产 8 步法：人类+AI 分工从碎片到视频完整流程

dontbesilent12 分享 AI 协作内容生产框架，8 步法包括输入碎片、对话澄清、生成文稿、思维导图、标题封面等；强调文件系统作为协作界面，资源复用策略如素材库、爆款库；3 阶段实施（0-3 月积累资产），成本降数千倍。

OpenAI 内部转向 agentic 开发：3/31 目标全员用代理取代编辑器

OpenAI 推动 agentic 软件开发，Codex 5.2 步进提升写全代码+调试能力；目标 3 月 31 日技术任务首选代理，推荐 agents.md 技能库、代码库代理优先结构、拒绝 AI slop；文化变革需经理驱动。

StrongDM Software Factory：AI 全自动化开发，无人类代码

StrongDM 的 'Software Factory' 原则：代码不由人类编写/审查，AI 代理自主开发，详见 SimonW 文章。

🧠 深度思考

【重磅】Garry Tan：AI 时代应“煮沸海洋”，追求10x雄心

Garry Tan呼吁放弃“不要煮沸海洋”思维，利用ASI追求50% IRR、100x服务或聚变能源。强调从工人转向建造者，人类对事物的欲望无限，AI 将引发Jevons 悖论式爆炸需求。

Claude Opus 4.6在Design Arena排名第一

scaling01报告Claude 4.6 Opus登顶Design Arena排行榜。

Claude Code 展示强大自主性：翻遍本地工具编译录屏程序

blackanger 测试 Claude Code 截图 Makepad UI：1.搜本地录屏工具；2.获 ScreenCaptureKit 权限重启；3.独立编译录屏程序；4.自动开 app 截图并迭代时机。任务自主运行未停。

📰 Industry News

SpaceX Falcon 9 成功发射 25 颗 Starlink 卫星，经 FAA 批准

SpaceX Falcon 9 火箭从加州发射 25 颗 Starlink 卫星，SpaceX 确认 Falcon 9 成功部署 25 颗 Starlink 卫星。此前 Falcon 9 二级 deorbit 烧前出现异常，SpaceX 向 FAA 报告并获得批准，今日下午成功将 25 颗 Starlink 卫星送至低轨。

AMD 数据中心收入预计未来 3-5 年年增 60%+

AMD 数据中心收入预计未来 3-5 年年增长 60%以上，2026 年或超 60%。数据中心 TAM 从 2025-2030 年预计 40% CAGR。

2026 年 AI 资本支出：Amazon 2000 亿美元领跑，CEO 确认计划

2026 年 AI CapEx 预测：Amazon 2000 亿美元领跑，Google 1800 亿、Meta 1250 亿、Microsoft 1175 亿、Tesla 200 亿、Apple 130 亿美元。亚马逊 CEO Andy Jassy 确认 2000 亿美元 AI 投资计划，AWS 2025 年增加 4GW 计算容量，至 2027 年底翻倍。

纽约议员提议新数据中心三年暂停

TechCrunch 报道，纽约议员提议暂停新建数据中心三年，以评估能源需求和环境影响，针对 AI 训练激增。

SpaceX Falcon 9 和 Dragon 运至佛罗里达 Pad 40

SpaceX 团队开始将 Falcon 9 和 Dragon 运至 Pad 40，准备 NASA Crew-12 任务前往 ISS。

Super Bowl LX 16 家科技 AI 广告盛行

Super Bowl LX AI 广告占多数，包括 Anthropic/Claude 30s+60s 嘲对手聊天广告；OpenAI 未公布；Google Gemini 家居可视化；Amazon Alexa/Ring 幽默场景；Meta Oakley AI 眼镜等 9 家，去年 backlash 今年主流。

高盛用 Claude 自动化会计财务合规，Blackstone 总裁称 AI 接管规则业务

Goldman Sachs 用 Claude 自动化会计/财务/合规；Blackstone 总裁 Jon Gray 表示 AI 将接管所有规则业务。

2025 海归求职人数增 5%，应届生 12%创八年新高

2025 国内海归求职较 2024 增 5%，达 2018 年 1.51 倍；应届留学生同比增 12%，为 2018 年 2.25 倍，信心增强。

Unconventional AI 获 475M 美元种子轮，估值 45 亿美元

Naveen Rao 创办的 Unconventional AI 获 a16z/Lightspeed 领投 475M 美元种子轮，估值 45 亿美元，专注脑启发 AI 芯片，Rao 自投 10M 美元。

Anthropic Claude Opus 4.6 季度 ARR 增量超 OpenAI

Semianalysis 预测 Anthropic Q1 2026 ARR 增量超 OpenAI；Claude Opus 4.6 在 Finance Agent 得分 60.7%、TaxEval 76.0%，金融数据股 FactSet 跌 10%。

📚 前沿研究 & Papers

⭐ BudgetMem：查询感知预算层级路由的运行时代理内存

BudgetMem框架将内存处理为低/中/高预算层级模块，轻量路由器用 RL 训练平衡性能/成本，支持预算控制，分模块提取内存（低/中/高预算）。LLaMA-3.3-70B在LongMemEval得分60.50（超 LightMem 48.51），Qwen3-Next-80B在HotpotQA 72.08（成本0.22 美元）。实验在LoCoMo、LongMemEval、HotpotQA上优于基线，提供准确性-成本前沿。

McKinsey：AI 助力影视生产力提升 5-10%

McKinsey 报告显示 AI 在影视开发和后期提升 5-10% 生产力，潜在重塑 600 亿美元 收入，2030 年 美原生内容支出 100 亿美元 可被 AI 覆盖。

Golden Goose：从文本合成无限 RLVR 任务

Golden Goose 方法从解释文本生成 70 万 RLVR 任务，Qwen-4B 训练后基准提升 2.27%，安全基准 4.44%。

Grep Tax：结构化数据格式影响代理token 消耗 740%

10,000实验显示紧凑格式TOON导致token 多 740%，因模型偏好XML/Markdown；代理架构对开源模型有害。

⭐ Cursor 多 Agent 系统一周建 Web 浏览器，峰值每小时 1000 commit

Cursor团队用多 Agent 演化 5 阶段架构建浏览器，Root Planner递归拆任务，Worker独立 repo，**1000 万+**工具调用，接受低错误率换吞吐量。

AMemGym 基准测试 LLM 长期记忆，暴露 Reuse Bias

AMemGym首创 on-policy 交互记忆基准，LLM 直接给事实推理好但长期记忆<50%，Agentic 写外部记忆+检索最优，off-policy 排名误导配置。

【重磅】AI 代理经济模型：Weibull vs 指数衰减，κ参数决定危险里程碑

Margot更新AI 代理经济学 BOTEC分析，Weibull 模型（κ≈0.70）下代理成本随任务长度拉伸指数增长，验证成本主导（45-70%）。METR 趋势下，2027 年底周任务经济可行，2028 年月任务 25%可靠性。κ为架构属性，非缩放属性，持续学习突破需 5-20 年。气泡修正延缓7-16 月。交互计算器：Half-Life Tax。

⭐ PaperBanana：多智能体框架自动化生成发表级学术图表

Google AI推出PaperBanana，5 智能体协作：检索器找参考、规划器转描述、风格师定 NeurIPS 风格、可视化器生成图表、批评者3 轮迭代。PaperBananaBench（292NeurIPS 2025 案例）上整体+17%，简洁+37.2%。统计图用Matplotlib 代码确保100%数据忠实。领域风格：Agent 用机器人图标，CV 用相机锥体。

⭐ Amadeus：无训练框架提升 RAG-based 角色扮演代理的一致性

Amadeus框架无需训练，通过动态上下文适应提升RAG-based RPA在超出角色知识查询下的人设一致性。新数据集CharacterRAG包含15 个虚构角色的976K 字符人物文档和450 个问答对。实验验证其有效建模角色知识和个性属性。

⭐ 验证验证器：揭示事实验证器中的陷阱和潜力

评估12 个预训练 LLM和 1 个专用验证器，使用14 个事实检查基准。发现16%模糊/错误标注数据影响排名，建议LLM-as-a-judge管道识别问题。前沿 LLM少样本上下文达顶级性能，小型微调验证器用合成多跳数据提升复杂推理。代码/数据集：https://github.com/just1nseo/verifying-the-verifiers。