天眼日报
科技 · 每日情报2026年03月26日约 50 分钟阅读

AI 速读19 条精选
📰头条SpaceX冲刺史上级IPO
若以1.75万亿美元估值募资500亿至750亿美元,将成全球资本市场与太空产业里程碑。
🤖头条Harvey融资2亿美元
法律AI独角兽估值升至110亿美元,ARR达1.9亿美元,显示垂直AI商业化已进入大规模兑现期。
🤖头条Google推Lyria 3音乐模型
可生成最长3分钟完整歌曲并已向用户和开发者开放,AI音乐创作正式进入可商用平台阶段。
🤖头条Claude新增百万上下文等功能
Anthropic一次性扩展连接器、语音、记忆、Agent团队和电脑操作,明显强化企业级AI工作平台定位。
🤖头条Google压缩LLM缓存6倍
TurboQuant无需重训即可显著降低推理内存并提升速度,可能改变大模型部署成本与AI硬件需求。
🏛Meta与YouTube成瘾案败诉
🔲SK海力士拟赴美募资140亿
🔲南亚科募资787亿新台币
💡Granola融资1.25亿美元
🤖维基百科禁用AI生成正文
🤖ARC-AGI-3难倒前沿模型
🤖Sakana AI论文登上Nature
🤖Claude Code支持更强自动执行
📦美团开源LongCat-Next
📦Chandra OCR 2开源登顶
₿Solana押注AI代理支付
₿盈透支持外部加密转入
🏛特朗普组建科技顾问班底
🦾亚马逊收购人形机器人团队
🤖 AI 大模型
Anthropic 发布 Claude Code 2.1.84,支持 PowerShell 工具和 Auto 模式
Anthropic 发布 Claude Code 2.1.84 版本,新增 PowerShell 工具支持 Windows 自动化、关键文件输出仅列路径、闲置 75 分钟后自动/clear。包含 8 个标志变更、40 个 CLI 变更、5 个系统提示更新,如移除'避免过度工程化'规则、标准化 GitHub 引用格式为 owner/repo#123、强调并行工具批处理。Auto 模式使用 Sonnet 4.6 双阶段分类器替代人工审批,误报率 0.4%、漏报率 17%,覆盖输入/输出防御、三层权限决策,针对过度行为、提示注入等威胁。支持低风险操作如文件写入和 shell 命令自动执行,提升长任务自主编码效率。维基百科禁止 AI 生成文章文本,仅允许两种例外
维基百科新规禁止编辑使用 LLM 生成新文章或改写现有内容,仅例外为人类编辑的风格语法帮助(需验证含义不变)和翻译初稿(需双语验证)。旨在确保每句与真实来源绑定。Google 发布 Lyria 3 Pro 音乐生成模型
Google DeepMind 推出 Lyria 3 Pro,支持生成长达 3 分钟完整歌曲、复杂风格过渡和音乐结构(如 intro、verse、chorus、bridge),支持文本/图像/视频提示、精确控制节奏和歌词、SynthID 水印。另有 Lyria 3 Clip 生成 30 秒片段。今天向 Google AI Plus/Pro/Ultra 用户、Gemini App、Google AI Studio API、Google Vids、Vertex AI 开放,开发者可构建应用。训练数据来自授权内容。ARC-AGI-3 基准发布,前沿模型得分不足 1%
ARC-AGI-3 代理智能基准发布,Claude Opus 4.6 得分 0.2%-0.25%、GPT-5.4 0.3%-0.26%、Gemini 3.1 0.2%-0.37%、Grok 4.2/4.20 0 分。人类得分远超,设计检测持续学习突破,无 harness 测试。美团发布 LongCat-Next 多模态模型
美团推出 LongCat-Next,68.5B 参数(3B 活跃),统一处理文本/视觉/音频,支持 OCR、图表、GUI、文档分析、任意分辨率生成、语音合成。开源 HuggingFace 和 GitHub。Google 发布 TurboQuant 算法,实现 LLM KV 缓存 6 倍内存压缩
Google 推出 TurboQuant 算法,使用随机正交旋转+极坐标量化,将 LLM 键值缓存压缩至 3 位精度,无需重训,内存减少至少 6 倍,H100 GPU 上 4-bit 注意计算加速 8 倍,Gemma 模型在 LongBench 等基准零退化。影响 AI 硬件需求,Micron 等内存股下跌 4-6.5%。适用于本地 AI 推理,支持更大上下文窗口。哈佛教授两周训练 Claude 达物理研二水平
哈佛教授 Schwartz 用两周导师制训练 Claude,拆解 102 任务、270 对话、3600 万 token,迭代 110 稿完成专业论文。人类仅指路纠偏。OpenAI 确认保留 Codex App 并加大资源投入
OpenAI 工程负责人确认 Codex App 保留,投入更多资源迭代,性能将大幅提升。驱动 GitHub Copilot 等工具,商业模式稳健。Zed 发布 Zeta2 代码补全模型
Zed 推出 Zeta2,接受率提升 30%,训练数据 200 倍增长,支持 LSP 上下文,更快预测,开源权重。重建数据管道,现已在 Zed 中可用。Inworld TTS 1.5 Max 领跑 TTS 排行榜,Elo 达 1238
Artificial Analysis 发布 TTS 排行,Inworld TTS 1.5 Max Elo 1238 位居首位,其次 ElevenLabs Eleven v3(1197)、Inworld TTS 1 Max(1183)。WaveNet 批量生成速度 419 字符/秒最快,Kokoro 82M 性价比最高 0.65 美元/百万字符。Meta 提出 Hyperagents 自参照代理,支持元认知自修改
Meta 等发布 Hyperagents 论文,DGM-Hyperagent 结合任务代理和元代理,实现可编辑自改进。在论文审阅任务准确率从 0.0 升至 0.710,机器人奖励设计从 0.060 至 0.372,跨域转移达 0.630。Claude Opus 4.6 出现故障,高故障率
Anthropic 的 Claude Opus 4.6 在 Claude AI 和 Claude Code 中故障率升高,Anthropic 正在调查原因。Anthropic 推出 Harness 多代理架构,支持 Claude 长时软件工程
Anthropic 发布 Harness 设计,受 GAN 启发,使用生成器-评估器分离架构,支持 Claude Opus 4.6 前端设计和全栈开发。实验显示完整架构下复古游戏制作器功能完整,成本$200,优于单代理$9 失败案例。Cursor 团队分享 AI Agent 友好 CLI 设计 10 原则
Cursor 团队总结 AI Agent CLI 设计原则:非交互优先、延迟加载文档、示例驱动、管道友好等。强调从人类优先转向 Agent 优先,支持--dry-run 和结构化输出。Claude 新增 38+连接器、Agent 团队、100 万上下文等多项功能
Anthropic 的 Claude 升级包括语音模式、Agent 团队、38+连接器、Cowork 项目、定时任务、插件市场、持久记忆和 100 万上下文窗口,支持电脑运行应用。AMP 针对不同任务优化模型组合:Claude Opus 4.6 主 Agent 等
AMP 使用 Claude Opus 4.6(Smart Mode)、Claude Haiku 4.5(Rush Mode)、GPT-5.3 Codex(Deep Mode)、Gemini 3.1 Pro 代码审查等多模型组合,兼顾性能、速度和成本。💰 加密货币currency
比特币现货 ETF 净流出 7452 万美元
SoSoValue 数据显示,3 月 24 日比特币 ETF 总净流出 7452.74 万美元,以太坊 ETF 净流出 4080.03 万美元,连续 5 日流出。BitGo 与 ZKsync 合作推出银行代币化存款基础设施
BitGo 与 ZKsync 结合托管服务和 Prividium 许可链,支持银行发行/转移/结算代币化存款。测试阶段,支持可编程支付,降低区块链接入复杂度。Bitcoin 交易所流出持续
3 月大部分时间 Bitcoin 交易所流出持续,CryptoQuant 分析师称反映长期积累。Solana 定位 AI 代理互联网核心基础设施
Solana 基金会称网络处理约 1500 万笔链上 AI 代理支付,主要用于机器间交易,稳定币成默认支付方式,支持亚分级按需付费,改变互联网变现模式。以太坊开发者计划 2029 年前量子抗性升级
Ethereum 开发者规划多项升级增强量子计算抵抗,包括 2029 年前完成,应对潜在威胁。盈透证券支持客户直接转入加密资产,包括 BTC、ETH、SOL
盈透证券宣布支持客户从外部钱包转入比特币、以太坊、Solana 等资产,通过 Paxos 或 zerohash 交易,无需提前卖出。不丹出售 519.7 枚 BTC,价值 3700 万美元,本月第三次大额售出
不丹出售 519.7 枚 BTC,价值约 3700 万美元,主权持有量持续下降,本月第三次大额 BTC 售出。币安发布做市商指南,禁止利润分成和黑名单违规者
币安要求代币发行人披露做市商信息,禁止利润分成及保本模式,借贷协议需明确用途。对违规行为将列入黑名单。Coinbase 上线 Perle(PRL)永续合约交易
Coinbase 将于 3 月 25 日上线 Perle(PRL)永续合约,若流动性满足将在支持地区开放 PRL-PERP 市场。比特币短期持有者 92%亏损,570 万枚 BTC 面临抛压
CryptoQuant 分析显示,比特币现价约 7 万美元,短期持有者实现价高于现价,570 万枚 BTC 中仅 8%盈利 92%亏损;Strategy 76.2 万枚实现价 7.56 万美元,市场脆弱。🛠️ Tool Recommendations
LiteParse:无模型 PDF 解析器集成 Claude Code
LiteParse 开源无模型文档解析器,一行安装即可支持 Claude Code 等 40+ 代理,从 PDF/Office 文件中提取文本。适用于编码代理处理非纯文本文档场景。Claude Code /investigate 命令:并行多代理调查政府合同
Claude Code 开源 /investigate 命令,并行启动 3 个代理分别研究事实、游说行为和利益冲突,生成互动 HTML 仪表盘和 CONTEXT.md 报告。示例用例为 SNC-Lavalin 游说事件调查。Chandra OCR 2:开源 OCR 模型达 SOTA 85.9%
Chandra OCR 2 在 olmocr 测试集上达到 85.9% SOTA,支持 90+ 语言,覆盖手写、数学公式、表单、表格、图像及图表的提取与生成。模型参数量为 4B,100% 开源。Go 开源磁盘使用分析器
基于 Go 语言的开源磁盘使用分析工具,支持快速扫描和可视化展示磁盘占用情况。Sandcastle:多 Claude 沙盒并行处理 Issue
Sandcastle 新增批量处理功能:自动扫描 issue backlog,为每个 issue 生成独立的 Claude 沙盒并行处理,完成后合并至目标分支。仅需 Docker 和 TypeScript 即可运行。English Agent:开源 AI 语言对话伙伴
KevinTen 开源 English Agent,专为口语练习设计的 AI 伙伴,支持自适应难度调整、实时纠错和错误模式追踪。GitHub 仓库:kevinten-ai/english-agent,在线体验:english.rxcloud.group。MiniMax 开源办公代理技能
MiniMax 开源办公场景代理技能,支持处理 PDF、Excel、PPT、Word 等多种文档格式,供开发者构建办公自动化代理使用。Basecamp 发布全面 CLI 与代理技能集成
Basecamp 推出全面的命令行工具(CLI),集成代理技能,支持通过代理访问 Basecamp 所有功能,并扩展 API 以实现无缝集成。Hashlock AI 智能合约审计工具免费开放
Hashlock AI 审计工具现已免费,支持实时扫描、GitHub 仓库扫描及文件上传,专注于优化智能合约安全性检测。Expect:AI 代理真实浏览器测试工具
Expect 让 Claude Code、Codex、Cursor 等 AI 代理在真实浏览器中测试代码,自动生成测试高光视频,失败时提供上下文辅助修复,提供开源 CLI 和技能接入方式。PDF/Word 文档解析工具对比:LlamaParse 与 DeepSeek OCR
LlamaIndex LlamaParse 通过解析 .docx XML 结构,精准映射表格到页面位置,支持合并单元格、嵌套表格和富格式,优于 PDF 坐标逆向工程方案。另有基于 DeepSeek OCR 的纯 Python 工具,可将 PDF 转换为 Markdown,支持复杂布局处理。Laravel Boost 发布 100+ 最佳实践代理技能
Laravel Boost 发布 laravel-best-practices 技能,涵盖 Eloquent、缓存、队列、认证等 100+ Laravel 最佳实践,帮助 AI 生成符合规范的 Laravel 代码。Shell 实用技巧:提升开发效率
分享实用 Shell 技巧,包括自动化脚本编写和调试方法,帮助开发者节省时间、提升日常工作效率。开发场景 Top 10 Agent 技能推荐
shao__meng 推荐 10 款开发场景 Agent 技能:mcp-builder 构建 MCP 服务器、playwright 浏览器自动化、skill-creator 沉淀 prompt 等,支持系统接入、CI 修复、PR review。优先选择可信来源和跨项目复用的技能。TypeScript SDK for Model Context Protocol 发布
推出 TypeScript SDK 以支持 Model Context Protocol(MCP),便于开发者集成模型上下文管理能力。Stately Sketch:开源状态机可视化工具,支持 XState 和 Mermaid
DavidKPiano 发布 Stately Sketch,响应式开源状态机可视化工具,支持 XState 和 Mermaid 语法,基于 TanStack Start 和 XState Store 构建,完全免费开源。Firecrawl:一键爬取并清洗网页为 Markdown,API 成本极低
Firecrawl 将反爬处理和 HTML 清洗封装为 API,三行代码即可输出 LLM 友好的 Markdown 格式内容。适用于球鞋监控、报告抓取等场景,月成本仅需几美元,利润率超 95%。TripStar:开源多智能体 AI 旅行规划工具
TripStar 基于多智能体架构,用户填写地点、日期和偏好后,一键生成完整行程、预算规划和地图路线,支持自部署,完全开源。DB Graph MCP 服务器:自然语言搜索 991 张表跨 11 个数据库
airCloset 构建 DB Graph MCP,解析 28 个仓库的 ORM 关系,基于 BigQuery 图谱支持语义搜索、关系追踪和 SQL 查询,覆盖 15 个 schema、991 张表,跨 MySQL、PostgreSQL、MongoDB 等数据库。200 行 Python 让 API 对所有 AI Agent 生态可见
BoTTube 通过单一 Flask Blueprint 同时实现 MCP、ChatGPT Plugin、Google A2A、llms.txt、OpenAPI 等 7 种协议,约 200 行代码覆盖全部主流 AI Agent 发现机制,附完整代码示例。Neovim + Zsh 自动重命名 Terminator 终端标签页
通过配置 Neovim 的 titlestring 和 Zsh 的 chpwd hook,实现终端标签页自动显示当前项目文件夹名,告别满屏 zsh 标签,提升多项目切换效率。📖 教程攻略
CLAUDE.md:基于 Kent Beck 30 条通用编程原则,shao__meng 提炼 Kent Beck Smalltalk 最佳实践为 30 条原则
基于 Kent Beck 30 条通用编程原则,shao__meng 提炼 Kent Beck Smalltalk 最佳实践为 30 条原则,框架:命名/表达、结构/组织、行为/状态。包含 Composed Method、DRY、多态替代条件 等完整流程。2026 年 Web 爬虫防封锁完整指南
agenthustler 分享 2026 防反爬虫指南:住宅代理 + 随机延迟 + 浏览器指纹 + CAPTCHA 求解。Playwright-stealth 代码示例,ScraperAPI 等工具推荐。MolmoWeb-4B 视觉引导 Web 代理构建教程
AllenAI 发布 MolmoWeb-4B 教程,使用 4 位量化加载模型,支持 goto、click、type 等动作。包含提示模板、推理循环、Playwright 集成和 MolmoWebMix 数据集探索。AFFiNE 出海避坑指南:开源 GTM 系统 + 1000 渠道清单
WeiYipei 分享 AFFiNE 从 0 到 60k Star 经验,核心寄生 SEO 和 KOL 飞轮,开源价值 $10M 融资的实战指南和 1000+ 渠道清单,支持 2026 最新版全套系统。用 Node.js + LangChain + Ollama 构建 RAG PDF 问答应用
完整教程:使用 LangChain、Ollama(llama3.2)、HuggingFace 本地嵌入模型构建 PDF 上传问答 Web 应用,涵盖文本分块、向量存储、RAG 检索全流程,附完整前后端代码。💎 技巧经验
AI 提示词优化实战:约束越具体,输出越可控
分享提示词优化经验:用具体约束替代模糊描述、一次只修一处、让 AI 生成更好的提示词、要求 AI 给出置信度等实用技巧。⚡ 工作流
Gemini Live Agent 黑客松参赛复盘:20 天独立开发全流程
作者独立完成 SparkWake 晨间例程 AI 教练应用,详细记录使用 Kiro IDE、Claude Opus 4.5、Google Stitch、Gemini 2.5 Flash 等工具的完整工作流,含 Steering 文件优化、MCP 接入 Google Cloud 文档等实战经验。🧠 深度思考
Claude Code 颠覆 Pull Request,AI 提交数百行代码审查走过场
Claude Code让GitHub Pull Request护城河崩塌,AI 生成数百行代码无人细审,协作主体转向 AI。LUCI Pin将现实视频转为 AI 记忆数据库,解决 AI 缺上下文
LUCI 50g Pin全天采集视觉信息,抽关键帧压缩向量化成AI 检索记忆;展会场景自动更新CRM、写跟进邮件,AI 调用全部记忆完成40-50%工作。📰 Industry News
Deccan AI 获 2500 万美元融资,从印度招募专家
Deccan AI(Mercor 竞争者)完成 2500 万美元融资,并从印度招募专家。Solana Anza 推出 Constellation 协议
Anza 推出 Constellation 协议,引入多并发提议者机制替代单领导者,实现 50ms 周期,提供协议级交易排序和抗审查。SIMD 即将推出。亚马逊收购 Fauna Robotics 的 Sprout 人形机器人
亚马逊收购 Fauna Robotics,其 Sprout 人形机器人高 3.5 英尺,售价 5 万美元,可行走、抓取、互动、跳舞,针对家庭、学校、办公室。Benji Taylor 加入 X 担任设计主管
Benji Taylor 加入 X 领导设计,与 Elon Musk 和 Nikitabier 合作。曾设计优秀产品,Elon Musk 和 Nikitabier 欢迎。Meta 和 YouTube 在社交媒体成瘾案中被判疏忽,赔偿 300 万美元
美国陪审团裁定 Meta(Instagram)和 YouTube 在青少年社交媒体成瘾案中负有疏忽责任,需赔偿 300 万美元,这是同类诉讼中首次获得陪审团裁决,对一女性社交媒体成瘾负责。Y Combinator 推出 Legal AI Scholars Program
Y Combinator 与顶尖法学院合作推出 Legal AI Scholars Program,开发 AI 法律任务课程。已覆盖多校,聚焦 AI 在法律工作流中的应用。Tesla Optimus 目标高量产改变劳动力经济
Tesla 称 Optimus 将成为最大产品,人形机器人高量产将改变劳动力与制造经济。招聘 AI、工程、制造人才。SpaceX IPO 进入最后冲刺,或募资 500-750 亿美元
SpaceX 拟 6 月 IPO,融资 500-750 亿美元,估值 1.75 万亿美元,用于星舰、太空 AI 数据中心、月球基地。筹备进入实质阶段,本周或下周提交申报,个人投资者配售超 20%,无传统锁定期。2 月中国新能源车出口 32 万辆,全球 NEV 出口或首超 ICE
中国 2 月新能源车出口 32 万辆,同比增长 120%;1-2 月累计 67 万吨,增 88%。中国和韩国 2 月数据,NEV 出口接近 ICE 平价,2 月可能首超。Granola 融资 1.25 亿美元,估值达 15 亿美元
Granola 从会议笔记工具扩展企业 AI 应用,获 1.25 亿美元融资,估值 15 亿美元,由 Kleiner Perkins 领投,支持团队上下文共享。南亚科技完成 787 亿新台币私募,闪迪/思科等参与
南亚科技私募 787.18 亿新台币(约 170 亿人民币),用于 AI 内存设备,闪迪认购 13.87 万千股、思科 7.15 万千股、Solidigm7.14 万千股、铠侠 7 万千股。苹果与谷歌达成 Gemini 数据中心协议
苹果获谷歌全访问 Gemini 权限,可提炼小模型自用,支持自家数据中心部署。特朗普任命 PCAST 科技顾问委员会
特朗普任命 David Sacks 与 Michael Kratsios 为 PCAST 联合主席,成员包括 Marc Andreessen、Sergey Brin、Jensen Huang、Lisa Su 等 13 人,聚焦 AI 等技术政策。Figure 03 人形机器人首登白宫
Melania Trump 携 Figure Robot 03 出席白宫 AI 教育峰会,美国首款人形机器人亮相,展示科技教育融合。SK 海力士保密提交美国上市申请,或募资 140 亿美元
SK 海力士保密提交美国上市申请,计划 2026 下半年完成,目标募资 140 亿美元。此前下单 80 亿美元 EUV 设备给 ASML,强化 AI 内存产能。美国最高法院裁定 ISP 无需对用户侵权承担辅助责任
美国最高法院推翻下级判决,认定 ISP 如 Cox 无需对用户音乐侵权承担责任,除非证明有意引导。索尼索赔 10 亿美元被驳回,基于知识标准过宽松。一致裁定 Cox Communications 无需为用户盗版行为负责。拼多多 2025 年营收 4318 亿元同比增长 10%
拼多多 2025 年营收 4318 亿元,同比增长 10%,组建新拼姆自营品牌,未来三年投入 1000 亿元整合供应链。Harvey 获 2 亿美元融资,估值 110 亿美元,ARR 达 1.9 亿美元
Harvey 宣布 2 亿美元融资,由 Sequoia 和 GIC 联合领投,估值 110 亿美元,总融资 11.7 亿美元,ARR 达 1.9 亿美元,1300 客户、10 万律师使用。Glimpse 获 3500 万美元 A 轮,总融资 5200 万美元
Glimpse 完成 3500 万美元 A 轮,由 a16z 领投,Y Combinator 跟投,总融资 5200📚 前沿研究 & Papers
Sakana AI“AI Scientist”整合论文发表于《Nature》,提出科学论文质量随模型能力提升的“科学缩放律”
Sakana AI 将其 2024 年发布的 AI Scientist 与 2025 年 v2 的研究整合成论文并发表于《Nature》。论文核心观点是:随着模型能力提升,自动生成科学论文的质量也呈现可量化提升趋势,可视作一种“科学缩放律”。研究同时强调,人类与 AI 协作开展科研探索比完全自动化更具现实意义,展示了 AI 在研究流程中从假设生成、实验设计到论文写作的潜力,也被视为日本 AI 研究生态的重要进展。Google TurboQuant:将 LLM 的 KV Cache 无损压缩至 3-bit,内存最高节省约 6 倍
Google 发布 TurboQuant 研究,通过 PolarQuant、QJL 等方法对大模型推理过程中的 KV Cache 进行高效压缩,可将原本 16-bit 的缓存压缩到 3-bit,在尽量不损伤模型质量的前提下显著减少显存占用。多条报道显示,该方法可把缓存数据量降至原来的约 1/4 至 1/5,整体内存节省最高约 6 倍;在受显存带宽限制的场景下,H100 等硬件上的推理性能可显著提升,部分测试达到数倍到 8 倍加速。该工作对长上下文推理和低成本部署具有直接价值。APEX-SWE 基准发布:真实工程任务下,顶级 AI 编码代理通过率仅约四成
Mercor 与 Cognition 发布 APEX-SWE 基准,试图以更接近真实软件工程环境的任务来评估 AI 编码代理能力。与传统代码基准不同,它更强调数据库、API 集成,以及日志、仪表板等可观测性相关工作。结果显示,当前前沿模型在此类真实任务上的表现仍有限:GPT-5.3 Codex 约为 41.5%,Claude Opus 4.6 约为 40.5%。这说明 AI 编码系统在处理跨系统协作、复杂依赖与生产环境调试方面,距离可靠替代工程师仍有明显差距。LeCun 团队发布 LeWorldModel:仅 1500 万参数的稳定 JEPA 世界模型,可高效进行物理规划
LeCun 团队联合 Mila、NYU、Samsung SAIL、Brown 等机构提出 LeWorldModel,在 JEPA 世界模型方向上实现了高效而稳定的训练。该模型仅 1500 万参数,引入 SIGReg 正则化,并只使用两个损失项,能够在单张 GPU 上于数小时内完成训练。研究称其在规划效率上可达到 48 倍提升、token 使用减少约 200 倍,还能编码位置、速度等物理属性并识别“不可能事件”。项目网站与代码已开源,展示了小模型在世界建模与可规划表示学习上的潜力。ARC-AGI-3 基准发布:前沿模型得分不足 1%,人类表现接近满分
ARC-AGI-3 推出更强调探索、规划与交互式学习的新一代评测框架,引入互动游戏世界作为测试环境,包含 150 多个环境和近 1000 个关卡。公开结果显示,当前最强模型在该基准上的表现极低:Gemini 3.1 Pro 约 0.3%,GPT-5.4 约 0.26% 至 0.3%,Claude Opus 4.6 约 0.2% 至 0.25%;而人类成绩接近 100%。这表明即便在语言与代码任务上表现强劲的模型,在通用抽象推理、主动探索与环境适应能力上仍存在巨大缺口。ReVeL 与 MeasureBench:多模态评测从选择题走向可验证开放问答,并补足仪器读数能力测试
两项研究共同推动多模态评测更加贴近真实应用。ReVeL 将传统选择题改造为可验证的开放问答任务,减少模型依赖猜测选项带来的虚高成绩,并报告在开放任务上带来约 6% 的提升空间与更真实的区分度。MeasureBench 则专门评估模型读取仪器与量测结果的能力,覆盖 26 类设备读数;目前最强模型在真实集上的准确率仅 30.3%,在合成集上为 26.1%。研究还指出,强化学习可进一步改善这类感知与推理结合任务的表现。LessWrong:不同模型规模会影响可解释性表征,较大模型更偏向后层语义聚类
LessWrong 文章比较了 GPT-2 Small(1.24 亿参数)与 Gemma 2 9B 的内部表征差异,讨论模型规模对可解释性的影响。分析发现,专家特征往往更聚焦语法层面的模式,而整体表示则更接近语义聚类;更大的 Gemma 模型其表示更密集,且关键特征更多出现在后层。文章还指出,特定激活模式会影响模型输出置信度。这类研究有助于理解模型内部“语义何时形成、如何组织”,也为后续机械可解释性工作提供了跨规模比较视角。自动化数据研究流程可显著提升 LLM 训练准备效率,Claude 数小时完成 FineWeb 子集处理
一项关于自动化数据研究流程的实践显示,利用 Claude 可在数小时内完成原本需要数周人工处理的数据准备工作。该流程包括从多源下载数据、统一格式、开展探索性数据分析(EDA)、清洗过滤,并最终构建适合训练的大模型数据子集,如 FineWeb 的相关部分。其价值不在于提出新的模型结构,而在于提升训练前数据工程环节的效率与可重复性,说明生成式 AI 已开始在数据策展、预处理和研究工作流自动化中发挥直接作用。GitHub 更新 Copilot 交互数据使用政策
GitHub 发布官方公告,更新了 Copilot 的交互数据使用政策,对用户与 Copilot 交互过程中相关数据的处理方式进行了调整。此类政策更新通常涉及数据是否用于产品改进、模型训练、日志保留、权限控制以及企业用户与个人用户的适用范围。由于该信息来自 GitHub 官方渠道,具备最高权威性,相关变化对于开发者、企业合规团队以及关注代码与提示数据隐私的用户都具有实际影响。Anthropic:AI 尚未大规模取代工作,但“AI 技能差距”正在扩大
Anthropic 相关研究与外部报道指出,AI 目前尚未造成广泛的岗位替代,但高熟练度用户与普通用户之间的生产力差距正在迅速拉大。报告基于内部数据分析,认为真正受益的人群通常更擅长把 AI 融入日常工作流,因此能够持续放大效率优势。这意味着未来就业市场的风险不一定首先体现为总量性失业,而更可能表现为能力分化、收入差距扩大以及组织内部对“会用 AI”的人才更高估值。该研究为理解 AI 对劳动力市场的中长期影响提供了更细颗粒度视角。🚀 Product Launches
Tesla 推出折叠式超级充电桩
Tesla 推出 Folding Unit Superchargers,成本降低 20%,V4 柜支持 500kW 充电,部署速度提升 2 倍,每卡车可运 16 桩(原 12 桩)。Rev1 配置支持折叠/展开,无需服务技师介入。Google DeepMind 发布 Lyria 3 Pro 音乐模型
Google DeepMind 发布 Lyria 3 Pro 音乐模型,支持生成长达 3 分钟的完整歌曲和录音棚级高保真音乐轨道。支持文本/图像提示,控制人声/流派/情绪/乐器等创意元素。集成 Gemini API、Google AI Studio、Vertex AI、Gemini app、Poe 等平台。付费用户推送使用,producer_ai 平台全球免费/付费可用,并扩展到更多产品。Vercel 推出 AI Gateway 报告 API
Vercel AI Gateway 新增 Reporting API:按标签追踪客户使用、团队内部花费、跨定价层比较成本、计算 AI 功能利润。支持元数据丰富请求,按模型/提供商/用户分解 LLM 成本。Cursor 自托管云端智能体全面可用
Cursor 自托管云端智能体在企业私有网络运行,代码/密钥/构建产物不外泄。支持 Kubernetes Helm Chart 扩展,支持 Slack/GitHub 集成,访问内网依赖/测试。Google 发布 Stitch 自然语言生成原型工具
Google 发布 Stitch,用自然语言提示生成高保真设计和代码原型,支持语音交互/可点击原型,提升开发流程。云顶新耀 2025 年收入增长 142% 扭亏为盈
云顶新耀 2025 年总收入 17.07 亿元(增长 142%),Non-IFRS 盈利 1.87 亿元,Q4 现金流转正,现金储备 27.31 亿元。LangSmith Fleet 支持共享技能
LangSmith Fleet 新增共享技能,从提示或聊天创建,附加到代理,跨工作区共享。支持模板。Claude 移动端支持工作工具
Claude 移动端新增 Figma、Canva、Amplitude 等工具支持。从手机探索设计、创建幻灯片、查看仪表板。Notion 发布多项新功能
Notion 新增 Tab 块、H4 标题、页面归档、幻灯片、仪表板视图、My Tasks、权限等 12 项功能。华为智慧屏 S7 Pro 开售
华为智慧屏 S7 Pro 搭载黑晶屏、Super MiniLED、纯 DC 调光,TÜV 双认证,支持手写笔、儿童教育、鸿蒙 AI。Payy 完成 600 万美元种子轮融资
稳定币初创 Payy 获 FirstMark Capital 领投 600 万美元种子轮(SAFE+代币权证),累计 800 万美元,基于零知识证明开发隐私支付网络。罗博特科签订 6 亿元硅光设备订单
罗博特科签订 6 亿元量产化耦合设备订单,适用于可插拔硅光技术路线。Linear 推出内置 Agent
Linear 发布 Linear Agent,内置于平台,支持查询路线图、问题、代码,并执行行动。Cursor 集成 Figma,支持设计系统生成组件
Cursor 新增 Figma 集成,使用团队设计系统创建组件和前端,支持 Claude Code 代理访问。Sonos Ace 耳机亚马逊春季大促降价 25%
Sonos Ace 无线耳机在亚马逊、Best Buy、Sonos 官网降至 299 美元(原 399 美元),支持 TV Audio Swap 和 TrueCinema。亚马逊 Big Spring Sale 智能家居等折扣
亚马逊 Big Spring Sale(至 3 月 31 日):Echo Show 8 降至 139.99 美元(40 美元 off)、Deebot X8 Pro Omni 599 美元(500 美元 off)、Anker Nano 45W 27.99 美元等,支持 Matter 协议。Razer Blade 16 搭载 Intel Panther Lake 芯片
Razer Blade 16 升级 Intel Core Ultra 9 386H Panther Lake 芯片和更快 RAM,RTX 5080 版 3499 美元起,RTX 5090 版 4499 美元。Bible Chat 基督徒 App 月下载 50 万,月流水 100 万美元
Bible Chat 祈祷读经 App,上月下载 50 万,流水 100 万美元;订阅定价细化:Lite 周 2.99 美元、Premium 年 59.99 美元,利用高粘性变现。🔒 安全事件
🔒 Apifox供应链攻击,CDN 脚本投毒采集SSH 密钥/Git 凭证
Apifox Electron 版从 3 月 4 日起 CDN 拉取恶意apifox-app-event-tracking.min.js(77KB),采集SSH 密钥、Git 凭证、Shell 历史,回传apifox.it.com,下发后门。升级v2.8.19+。由 X-Crawler AI 生成于 2026-03-26 11:33
每日精选 · 直送邮箱
订阅天眼日报
AI 精选科技要闻摘要,每天一封,免费无广告。