天眼午报

科技 · 午报2026年03月31日83 分钟阅读
来源:2038 条精选推文·Lanyun·BatchV2 生成·2026-03-31
分享
AI 速读20 条精选
🤖头条阿里发布Qwen3.5-Omni

全模态、256K上下文、超长音视频输入与113种语音能力,提升国产模型在多模态应用的竞争力。

🚗头条萝卜快跑迪拜全无人运营

百度自动驾驶在海外进入商业化深水区,后续还将接入Uber并扩至数千台车队,验证出海模式。

📈头条平安AI理赔自动化近六成

大型金融机构AI落地进入真金白银阶段,理赔可51秒结案,显示AI正重塑保险业效率与估值逻辑。

🤖头条Claude Code可直接操作Mac

Anthropic把代码代理扩展到GUI操作与截图验证,AI编程从写代码迈向端到端测试和桌面自动化。

🤖Qwen代码模型可16GB本地跑
🤖OpenAI推Claude Code插件
🤖Gemini 3.1编码成功率96.6%
🤖xAI称Grok Imagine已盈利
📦微软开源多语向量模型
🔍Qwen3.6传出百万上下文
📰Claude支持企业版GitHub
🤖微软研究助手引入双模互评
🤖Vercel公开智能体工程规范
📦llama.cpp星标破10万
📰CMU提出多智能体开发框架
📰英伟达PivotRL降代理训练成本
📰斯坦福称代理瓶颈常在脚手架
📰Meta提长上下文测试时训练
🤖研究称CoT未必真实反映推理
📰北京前沿脑机接口研究院成立

🤖 AI 大模型

𝕏 基于 Qwen3.5-27B 的代码模型称在 SWE-bench Verified 上超越 Sonnet 4.5,并可在 16GB 设备本地运行

多条信息指向同一模型发布:该模型基于 Qwen3.5-27B,使用来自 Claude/Opus 4.6 的蒸馏推理或代码数据进行微调,主打代码生成与修复能力。报道称其在 SWE-bench Verified 上的表现超过 Sonnet 4.5,同时支持 4-bit 量化,可在 16GB 显存设备本地部署运行,强调以较低硬件门槛获得较强编程能力。

𝕏 Gemini API Skills 评测称 Gemini 3.1 Pro Preview 在编码任务中成功率达 96.6%

Google 公布 Gemini API Skills 相关评测结果,称 gemini-3.1-pro-preview 在 117 个编码提示上取得 96.6% 的成功率。测试覆盖 agent、聊天以及 SDK 使用等场景,重点展示模型在 API 调用、代码编写与开发者工作流中的稳定性与可用性。这是一项性能宣介,核心看点在于编码场景的高完成率。

阿里发布通义千问全模态模型 Qwen3.5-Omni,支持 256K 上下文与超长音视频输入

两条报道为同一发布事件。阿里上线 Qwen3.5-Omni 全模态模型,提供 Plus、Flash、Light 等版本,支持 256K 长上下文,可处理超过 10 小时音频输入和约 400 秒 720P 音视频输入。模型新增或强化对 113 种语种与方言的语音识别能力,相比前代 Qwen3-Omni 在多语言与多模态处理上明显提升,面向更广泛的音视频理解与交互场景。

🔵 🟢 中国平安利用 AI 将近六成理赔流程自动化,彭博称其改造或释放约 1740 亿美元价值

彭博报道显示,中国平安正将 AI 深度用于保险业务流程改造,事故险和健康险理赔自动化比例已提升至接近 60%,部分案件可在 51 秒内完成结案。报道进一步援引分析称,这类 AI 驱动的效率提升与运营优化,可能为公司释放约 1740 亿美元的潜在企业价值。重点在于 AI 在大型金融保险机构中的真实业务落地与经济效益。

马斯克称 xAI 的视频生成工具 Grok Imagine 已实现正毛利

两条信息均为马斯克就同一话题的回应:他表示 AI 视频生成产品 Grok Imagine 已经为 xAI 实现正毛利,并非亏损业务。同时他强调视频理解与视频生成对通向 AGI 十分关键,认为视频是高带宽的信息形态,相关能力将成为未来模型的重要基础。这一表态兼具商业化与技术路线层面的信号意义。

[泄露文件称 Coatue 预测 Anthropic 估值将达到 2 万亿美元]()

该条信息指向一份泄露文件中的投资判断:对冲基金 Coatue 据称预测 Anthropic 的未来估值可能达到 2 万亿美元。由于输入中未提供更多摘要、来源链接或上下文,这一信息目前更像是市场传闻或投资机构内部观点外流,价值在于反映资本市场对头部大模型公司的极度乐观预期,但仍需等待更权威来源进一步确认。

𝕏 🟢 OpenAI 推出官方 Codex 插件,可接入 Claude Code 生态执行代码审查与任务接管

OpenAI 推出官方插件 codex-plugin-cc,可在 Claude Code 中调用 Codex 能力,执行代码审查、对抗性审查以及任务接管等操作。该插件支持后台运行,并可复用本地 Codex CLI 与现有认证配置,意味着 OpenAI 正主动融入现有开发者工具链与 Anthropic 生态。重点不在模型本身,而在跨平台开发工作流的整合与实际可用性提升。

𝕏 Qwen3.6 据称已在 OpenRouter 开放公测,爆料称支持 100 万上下文

两条内容为同一爆料话题:Qwen3.6 被曝已在 OpenRouter 进入公测阶段。相关信息称该模型支持最高 100 万上下文窗口,阿里自家 API 推理速度约为 62 tokens/s,并可较方便接入 Claude Code 等工具链。由于目前主要来自测试与爆料信息,仍应视为未经完整官方公告确认的早期动态,但已显示其在长上下文和开发者生态兼容方面的潜在卖点。

微软开源 Harrier-OSS-v1 多语言向量模型家族,在 Multilingual MTEB v2 上取得 SOTA

Microsoft 发布并开源 Harrier-OSS-v1 多语言嵌入模型家族,覆盖 270M、0.6B 和 27B 三个参数规模,主打多语言检索、语义匹配与向量表示任务。报道称该系列在 Multilingual MTEB v2 基准上达到当前最优表现。与通用大语言模型不同,这是一条偏向向量表示与检索基础设施的发布,面向搜索、RAG 和跨语言语义理解等应用场景。


🛠️ AI 工具推荐

𝕏 🟢 flash-moe 实现在 48GB MacBook Pro 本地运行 Qwen3.5-397B 模型

flash-moe 展示了在 48GB 内存的 MacBook Pro 上本地运行超大规模 Qwen3.5-397B 模型的能力,推理速度约为 4.4 tok/s。其关键思路是通过 SSD 流式加载约 209GB 模型参数,同时将运行时内存占用控制在约 5.5GB。这类方案说明,借助更激进的分块加载与 MoE 优化,超大模型在消费级苹果设备上的本地推理正变得更可行。

𝕏 🟢 Hermes Agent v0.6.0 发布:支持多实例隔离与 MCP Server

Hermes Agent v0.6.0 带来一批面向团队和多工作区场景的重要更新,包括 Profiles 多实例隔离、MCP Server 模式以及官方 Docker 支持。同时,它还增强了对飞书、企业微信、Slack 多工作区和 Telegram Webhook 的接入能力,便于将代理系统嵌入企业通信与自动化流程。此次更新重点强化了部署灵活性、隔离性与外部系统连接能力。

𝕏 AutoClaw 支持本地运行 OpenClaw,无需 API Key

AutoClaw 现已支持在本地设备上直接运行 OpenClaw,无需额外申请或配置 API Key。对于重视数据隐私和本地化控制的用户来说,这意味着任务处理与相关数据可以尽量保留在本机,不必经过外部云端服务。该能力适合希望低门槛体验本地代理、减少外部依赖并提升可控性的开发者和进阶用户。

𝕏 Agent Watch 可在手表上远程批准 Claude Code 权限请求

Agent Watch 提供了一种更轻量的远程交互方式:用户可直接在手表上查看 Claude Code 的输出,并对权限请求进行批准或拒绝。这种设计将代理操作提醒延伸到可穿戴设备,适合在移动办公、临时离席或需要快速确认操作时使用。它强化了人类在环的审批体验,让本地或远程代码代理的授权流程更及时。

𝕏 cc-connect 可从聊天应用远程控制本地 AI 代理

cc-connect 可将 Claude Code、Cursor、Gemini CLI、Codex 等本地或桌面代理接入 Slack、Telegram、Discord、飞书等聊天工具,让用户直接在熟悉的沟通界面中发起代码审查、研究任务和自动化操作。它的核心价值在于把代理控制入口从 IDE 或终端扩展到团队协作渠道,从而降低使用门槛,并提升多人协作和异步处理的便利性。

🟩 opossum-prom:为 Node.js 熔断器补齐 Prometheus 指标

opossum-prom 是一个面向 Node.js 的监控补充工具,用于为熔断器提供 Prometheus 指标导出能力。接入后,开发者可以在 Grafana 等监控系统中观察熔断状态、失败率、延迟等关键运行指标,更方便地定位系统稳定性问题与异常流量冲击。它更偏向工程监控与可观测性增强,而不是通用 AI 工具。

𝕏 llama.cpp GitHub 星标突破 10 万,本地代理生态持续升温

llama.cpp 的 GitHub 星标数已突破 10 万,项目贡献者约达 1500 人。这一里程碑不仅反映了其在本地大模型推理领域的广泛影响力,也说明围绕本地代理、离线推理和轻量部署的开发生态正在快速成熟。作为本地 AI 基础设施的重要代表,llama.cpp 的增长对整个边缘侧和个人设备上的模型应用具有风向标意义。

𝕏 OpenAgents Workspace 支持多 Agent 共享聊天、文件与浏览器空间

OpenAgents Workspace 提供一个可供多个 Agent 协同工作的共享环境,包含 Chat、Files 和浏览器等统一工作空间。它能够连接 OpenClaw、Claude Code、Codex 等多个代理,让不同模型或工具围绕同一上下文分工协作。该产品更强调“多代理协同操作界面”的概念,适合复杂任务拆分、共享资料处理以及需要统一交互面的工作流。

𝕏 vLLM 上线 ROCm 官方 nightly 轮子与 Docker 镜像

vLLM 现已提供面向 ROCm 7.2.1 的官方 nightly 安装包与 Docker 镜像,并配套 PyTorch 2.10 和 Triton 3.6 的每日更新。这意味着 AMD GPU 用户在部署和测试 vLLM 新能力时将获得更及时、更标准化的环境支持。对关注高性能推理、持续集成和 AMD 生态适配的开发者来说,这是一次偏基础设施层面的实用更新。

𝕏 Claude API 实时 Token 监控工具发布

一款面向 Claude API 的实时 Token 监控工具已发布,可用于追踪 token 消耗与使用状态。此类工具适合开发者进行成本核算、限额管理、性能调试和调用行为分析,尤其适用于多代理或高频调用场景。相比通用日志查看,它更强调实时可见性,有助于及时发现异常消耗、提示词膨胀或接口使用策略问题。


📖 教程攻略

🟩 🟢 用 Azure AI Evaluation SDK 与 Azure AI Foundry 评估智能体质量与安全

这篇实操教程演示如何结合 Azure AI Evaluation SDK 与 Azure AI Foundry,为 GraphRAG 等智能体搭建上线前评估流水线。内容覆盖任务质量评估、安全红队测试、可观测性追踪与结果分析,并给出诸如 task adherence 等实测指标,适合作为 Agent 从原型走向生产时的验证框架参考。

🟩 🟢 7 种 AI 智能体评估模式,提前发现生产环境故障

文章系统整理了 7 种适用于 AI Agent 的评估模式,帮助团队在正式上线前发现潜在问题。内容涵盖确定性断言、工具调用检测、失败检测、成本失控防护等关键环节,重点解决幻觉、循环调用、工具滥用与稳定性不足等常见生产风险,适合用于构建从 Demo 迈向生产的测试与验收体系。

🟩 🟢 5 条周末就能搭建的 AI 代码评审流水线

教程汇总了 5 种可快速落地的 AI 代码评审流水线方案,覆盖 PR Diff 分析、结构化评论生成、自动化审查与反馈输出等常见场景,并附带 Python 示例。整体目标是把重复性的代码检查交给 AI,帮助工程团队将人工评审精力更多投入到架构、设计与高价值决策问题上。

🟩 自建 RustDesk 私有远程访问网络指南

这篇教程介绍如何部署 RustDesk 自托管服务器,搭建安全、私有、可控的远程访问网络。内容包括封闭网络配置、固定公网 IP、企业级安全加固等关键步骤,适合希望替代 TeamViewer 或 AnyDesk、同时对数据主权和网络边界有更高要求的个人与企业用户参考实践。

𝕏 在 Claude Code 中启用 Codex 的三步配置

这则教程给出了在 Claude Code 中激活 Codex 插件的最简流程:先通过插件市场添加来源,再安装 codex@openai-codex,最后执行 /codex:setup 完成初始化。内容短小直接,适合希望快速完成插件接入、尽快在开发环境中体验 Codex 能力的用户参考。

𝕏 图论与网络科学学习路径清单

这份学习路线面向希望系统入门图论与网络科学的读者,内容覆盖 Network Science、Graph Theory、MIT Math for CS、CS224W 以及 PyTorch Geometric 等资源。整体兼顾理论基础、算法理解与工程实践,适合从数学与经典网络分析一路延伸到图机器学习与图神经网络方向的学习规划。


💎 技巧经验

𝕏 Claude 上下文管理的三条省 Token 实用建议

围绕 Claude 的上下文消耗控制,这条经验给出三项直接可执行的做法:一是按话题及时新开对话,避免历史消息不断累积;二是精简 CLAUDE.md 内容,只保留真正必要的长期指令;三是定期检查 /memory 状态,确认没有无意中保留过多记忆。核心目标是减少历史上下文带来的额外 token 消耗,提升响应效率并降低使用成本。

𝕏 TurboQuant+ 为 Mac 本地大模型推理提供具体硬件配置参考

这条信息给出了 TurboQuant+ 在 Mac 设备上运行本地大模型的较具体性能数据,可作为硬件选型参考。其特点包括支持约 4.6 倍 KV 缓存压缩;在 M5 Max 128GB 上可实现约 2747 tok/s 的 prefill 和 70+ tok/s 的 decode;较旧的 M1 Max 64GB 也能运行约 38K 上下文。内容的价值在于给出较明确的性能区间,而非停留在泛泛而谈的“可运行”层面。

𝕏 精简 Claude Code Skills 以避免系统臃肿和效率下降

多条内容指向同一实践经验:不要在 Claude Code 中盲目堆叠 skills。更有效的做法是先分析优秀技能包中真正适合自身工作流的部分,再将这些能力拆解、吸收进自己的系统,而不是机械安装越来越多的 skills。这样可以避免系统逐渐臃肿、运行变慢、维护复杂度上升等问题,适合追求长期稳定效率的使用者。

𝕏 使用 Codex 插件审查多文件变更时,建议改为后台执行

针对使用 Codex 插件审查多文件改动的场景,这条经验建议在命令中加入 --background,让审查任务转入后台执行,同时由人工持续监控 Review Gate。这样做的目的,是降低前台阻塞和异常额度消耗的风险,尤其适合涉及较多文件、耗时较长的审查任务。重点不是完全放手交给工具,而是在后台执行的同时保留人工把关。


⚡ 工作流

𝕏 🟢 Vercel 公布“负责任使用智能体”内部工程规范,强调关键基础设施场景优先安全与可用性

Vercel 公开了内部“agenting responsibly(负责任使用智能体)”工程准则,并表示自 Opus 4.5 之后,智能体已经承担了其大部分编码工作。这套规范的核心并非一味追求自动化,而是要求在关键基础设施、生产系统与高影响场景中,把安全性、耐久性和可用性放在首位。该信息反映出企业正在从“是否使用 AI 智能体”转向“如何在工程体系中设定边界、审查机制与责任原则”,对团队级工作流设计具有较强参考价值。

𝕏 Claude Code 接入 Computer Use,补上基于 GUI 的测试与验证闭环

Claude Code 新增 computer-use 能力,可在 macOS 上直接打开应用、点击界面并截图验证结果,从而把原本停留在代码层的智能体工作流延伸到真实图形界面操作。该功能需要通过 /mcp 手动启用,并授予辅助功能与录屏权限。它的意义在于让 Claude Code 不仅能写代码、改代码,还能执行带界面的端到端测试与结果核验,适合用于桌面应用验证、回归测试和需要“看见界面是否正确”的自动化场景。

𝕏 Claude Code 可调用 Codex 进行交叉代码审查,支持评审、对抗评审与救援模式

一款 Codex 插件为 Claude Code 增加了 /codex:review、/codex:adversarial-review 和 /codex:rescue 三类命令,使“一个模型编写、另一个模型审查”成为更清晰的工作流。相比单模型自审,这种交叉评审方式更适合发现实现偏差、隐藏缺陷与高风险改动问题,也便于在复杂工程中把生成与审查职责拆分给不同模型执行。该信息体现出 AI 编程工作流正在从单次生成,演进为多模型协作、相互制衡的流水线。

🟩 基于 MCP 的 Dead Letter Oracle:把失败消息重放决策做成可治理工作流

这篇 MCP 实战文章构建了一个名为 Dead Letter Oracle 的工作流,用于治理死信队列(DLQ)消息的重放决策。流程涵盖 DLQ 消息读取、Schema 校验、修复建议生成、重放模拟,以及最终的 ALLOW/WARN/BLOCK 决策输出,形成一条从诊断到治理的闭环链路。其价值在于,不再把失败消息处理视为纯人工运维动作,而是通过 MCP 将判断标准、风险提示与执行建议结构化,适合需要提高消息系统可靠性与审计性的团队参考。

🟩 用 DGE 让 AI 审稿器“自我辩论”,自动暴露规格遗漏与设计漏洞

作者使用 @unlaxer/dge-toolkit 配合 Claude Code,构建了一个让多个 AI 评审角色围绕同一设计文档展开辩论的工作流。通过这种“自我争论”式审查,系统能够主动挖出规格遗漏、认证设计漏洞、边界条件缺失等问题,尤其适合在设计阶段尽早发现文档中的隐性风险。相比单一审稿器直接给建议,这种多角色对抗式方法更强调观点碰撞与漏洞暴露,体现出 AI 工作流从“给答案”升级为“组织结构化争论”的趋势。

𝕏 🟢 微软 Copilot Researcher 引入双模型交叉评审流程,由 OpenAI 与 Anthropic 互评报告

微软在 Copilot Researcher 中采用双模型交叉评审机制:同时调用 OpenAI 与 Anthropic 模型,各自独立生成完整报告,再依据来源可靠性、证据锚定情况和内容完整性进行相互评估。这种设计并非简单地堆叠多个模型,而是把“生成—复核—互评”做成正式流程,以降低单模型偏差、遗漏证据或论证不充分的问题。对知识研究、分析写作和高要求信息整合任务来说,这代表 AI 工作流正走向更强调证据约束与质量控制的多模型协作模式。


📚 论文研究

𝕏 研究称 λ-RLM 可让 8B 模型在长上下文任务上达到 405B 级表现

一项关于 λ-RLM 的研究指出,通过引入类型化 λ 演算约束,模型在长上下文推理中不仅能够获得更强的表达与检索能力,还可从理论上保证计算终止,减少无效展开带来的开销。结果显示,8B 规模模型在相关长上下文任务上的表现可逼近 405B 级别模型,同时推理延迟最高可降低 4.1 倍。该工作为以更小参数规模实现高效长文本建模提供了新思路。

𝕏 开源 Multitask Diffusion Policy 机器人控制实现

有开发者开源了 Multitask Diffusion Policy 的机器人控制实现,展示了扩散式策略在多任务机器人动作生成与控制中的应用方式。该方案被描述为已广泛出现在 Boston Dynamics Atlas 等人形机器人相关技术路线中,强调其在复杂动作建模、多任务迁移和稳定控制方面的潜力。此次开源有助于研究者进一步复现和扩展基于扩散模型的机器人策略学习框架。

𝕏 🟢 CMU 提出异步多智能体软件工程框架 CAID,可并行分派任务到独立 git worktree

CMU 提出的 CAID 是一个面向软件工程的异步多智能体框架。其核心做法是由管理智能体先构建任务依赖图,再将子任务并行委派给多个工程智能体,并在相互隔离的 git worktree 中独立执行,从而降低冲突并提升协作效率。论文结果显示,CAID 在 PaperBench 上相对单智能体提升 26.7 个百分点,在 Commit0 上提升 14.3 个百分点。该研究强调,多智能体系统的关键不只是增加算力,而在于有效协调、拆解与执行流程设计。

𝕏 🟢 英伟达提出 PivotRL,仅学习关键转折回合以降低智能体后训练成本

英伟达提出的 PivotRL 旨在降低面向智能体的强化学习后训练成本。与依赖完整轨迹训练的传统方法不同,PivotRL 只从专家轨迹中选取成败混合、最具信息量的“关键转折回合”进行学习,从而保留大部分性能收益并显著减少训练资源消耗。论文显示,在 SWE-Bench 上,该方法以约 4 倍更少的 rollout turns、约 5.5 倍更低的墙钟时间,实现接近全轨迹 RL 的效果,并已被用于 Nemotron-3-Super-120B。该工作说明,智能体后训练可通过更精细的数据选择实现显著提效。

𝕏 🟢 斯坦福 Meta-Harness 研究表明,智能体性能瓶颈常在脚手架而非底层模型

斯坦福提出的 Meta-Harness 研究聚焦于智能体系统的“外层脚手架”优化,包括提示词设计、工具定义、上下文管理与终止逻辑等。论文指出,许多代理系统的性能瓶颈并不完全来自基础模型本身,而是来自围绕模型构建的执行框架。实验中,Meta-Harness 在 TerminalBench-2 上将 Claude Haiku 4.5 的成绩从 27.5% 提升到 37.6%。这表明,改进代理接口层、工作流调度和调用策略,能够在不更换模型的前提下显著提升整体任务表现。

𝕏 论文发现 LLM 遇到超分布难题时内部表征会明显稀疏化

论文《Farther the Shift, Sparser the Representation》研究了大模型在处理超出训练分布的问题时的内部状态变化。作者发现,当模型面对更困难、偏移更大的任务时,其最终层激活会收缩到更少的计算路径,呈现出明显的表征稀疏化现象。该特征可被视为识别 LLM “困惑状态”或不确定状态的一种内部信号。相关发现有助于未来构建更可靠的模型置信度估计、异常检测和安全监控方法。

恒瑞医药披露 HRS-1893 治疗梗阻性肥厚型心肌病 II 期积极结果

恒瑞医药与 Braveheart Bio 在美国心脏病学会年会上公布 HRS-1893 治疗梗阻性肥厚型心肌病的 II 期研究数据。结果显示,该药物可快速降低左心室流出道压差(LVOT-G),体现出较好的临床潜力。根据披露信息,中国 III 期临床已于 2025 年启动,全球 III 期研究计划于 2026 年启动。该进展意味着 HRS-1893 在该适应症上的开发已由早期有效性验证进一步走向更大规模关键性临床阶段。

🔶 北京前沿脑机接口研究院正式成立

由宣武医院牵头的北京前沿脑机接口研究院正式成立,定位于推动脑机接口关键技术研发、平台建设和临床转化。研究院计划建设六大共性支撑平台,覆盖神经电生理数据、算法、器械测试、前临床研究以及临床验证等关键环节。此举有望提升脑机接口领域的基础研究与工程验证能力,促进医疗器械、神经调控和临床应用之间的协同发展,为国内脑机接口产业化和规范化提供基础设施支撑。

𝕏 🟢 Meta 提出 qTTT,通过测试时训练缓解长上下文中的信息埋没问题

Meta 提出的 qTTT 是一种面向长上下文模型的测试时训练方法,目标是缓解长文场景中关键信息被“埋没”后导致的事实丢失与检索失败问题。其核心思路是在推理阶段只更新与 query 相关的权重,而非整体微调模型,从而以更低成本增强模型对当前问题的针对性利用能力。实验显示,在 LongBench-v2 和 ZeroScrolls 上,qTTT 可让 Qwen3-4B 的平均成绩分别提升 12.6 分和 14.1 分,说明其对长文理解与定位能力有明显改善。

𝕏 OpenDriveLab 发布户外乒乓人形机器人 SMASH

OpenDriveLab 发布了名为 SMASH 的户外乒乓人形机器人,并将其描述为首个面向户外乒乓场景的高动态人形机器人。该系统依靠机载感知实现全自主对打,无需依赖外部动作捕捉系统,意味着其感知、决策和运动控制均更多地在本体上完成。相较于实验室受控环境中的机器人演示,SMASH 更强调真实开放场景下的快速响应与动态交互,为人形机器人在复杂运动任务中的自主化能力提供了新的展示样本。

📄 🟢 研究评估 12 个开源推理模型的 CoT 忠实性差异,提示安全监控不能只看表面推理链

一项研究系统评估了 12 个开源推理模型在思维链(CoT)上的忠实性差异,覆盖 9 个架构家族,并进行了 41832 次推理测试。结果发现,不同模型的 CoT 忠实率差异显著,区间从 39.7% 到 89.9% 不等。这意味着模型展示出的文字推理过程,并不总能真实反映其内部决策依据。研究据此指出,在安全审计、可解释性分析和模型监管中,不能仅依赖表面可见的推理链,还需要更稳健的机制来判断模型真实的推理路径与意图。


🚀 产品发布

𝕏 🔥 萝卜快跑在迪拜启动全无人驾驶商业化运营,未来将接入 Uber 并扩展至数千台车队

Apollo Go(萝卜快跑)已在迪拜正式开启全无人驾驶出租车商业化运营,成为当地率先实现该模式的平台之一。用户当前可通过官方 App 下单,后续数周还将接入 Uber;公司同时与迪拜交通部门推进合作,计划分批把车队规模扩展至数千台。多方报道还提到,该项目已形成当地较大规模的无人车队布局,标志着百度自动驾驶出海商业化进入更深阶段。

𝕏 🟢 Claude Code 上线 Computer Use,可直接操作 macOS 应用界面

Anthropic 为 Claude Code 推出 Computer Use(研究预览)能力,支持在 macOS 上直接打开应用、点击按钮、滚动页面、输入内容并通过截图进行结果验证,可用于调试、修复和执行更复杂的桌面操作任务。该功能要求 Claude Code 版本为 v2.1.85 及以上,面向 Pro/Max 用户开放,并需用户手动授予辅助功能、录屏等系统权限。

𝕏 🟢 OpenAI 发布 Claude Code 官方 Codex 插件,可在 Claude Code 中直接调用 Codex

OpenAI 推出面向 Claude Code 的官方 Codex 插件 codex-plugin-cc,允许开发者在 Claude Code 工作流中直接调用 Codex 执行只读代码审查、对抗性审查以及任务接管等操作。该插件的核心价值在于减少模型切换和手工复制粘贴流程,让使用 Claude Code 的开发者也能便捷接入 OpenAI 的代码能力,提高审查与协作效率。

𝕏 Claude 全系产品支持 GitHub Enterprise Server

Anthropic 宣布 Claude 全系产品已支持 GitHub Enterprise Server。覆盖范围包括 Claude Code、网页端、iOS、Android 以及 Code Review 等入口,便于企业在本地化或自托管 GitHub 环境中接入 Claude 的开发与审查能力。该更新有助于满足大型组织对合规、安全和私有部署协作的要求。

🔶 联想发布 YOGA AI Mini 与 Think AI Tiny 两款 AI 终端

联想发布 YOGA AI Mini 与 Think AI Tiny 两款 AI 终端产品,分别面向个人部署和企业办公场景。两款设备主打一键部署、系统级安全以及 AI 智能体终端能力,意在把本地 AI 能力进一步落地到桌面与办公环境中,满足个人创作、企业协作和私有化部署等不同需求。

𝕏 🟢 Figma 将 AI 图像编辑能力扩展至 FigJam、Buzz 和 Slides

Figma 把 AI 图像编辑能力从传统设计场景进一步扩展到 FigJam、Buzz 和 Slides。新增能力包括扩图、抠图、擦除对象以及图片转矢量等,可帮助用户在头脑风暴、内容制作和演示文稿流程中直接完成图像处理,减少在多款工具之间来回切换,强化 Figma 在设计与协作闭环中的一体化体验。

𝕏 Google 为 Gemini 增加从 ChatGPT、Claude 迁移资料的功能

Google 为 Gemini 增加数据迁移入口,允许用户把 ChatGPT 和 Claude 中的聊天记录及相关个人信息整理后导入 Gemini。此举有助于降低用户跨平台切换成本,减少历史上下文丢失,提高新用户迁移时的连续体验,也进一步体现各家大模型产品围绕用户留存和生态转换的竞争正在加剧。

🔶 🟢 三星电子将注销价值 14.5 万亿韩元库存股

三星电子宣布将注销价值 14.5 万亿韩元的库存股,涉及约 7330 万股普通股和 1360 万股优先股。公司表示,此举属于此前回购计划的一部分,旨在提升股东回报并优化资本结构。虽然这并非典型新品发布,但属于重要公司层面的资本动作,对市场预期和投资者信心具有较强影响。

中兴通讯联合字节跳动推进新一代豆包 AI 手机研发与落地

中兴通讯在业绩说明会上表示,正与字节跳动等生态伙伴深化合作,推进新一代豆包 AI 手机的研发与落地,并继续加码“AI for All”战略。该合作显示手机厂商正加速把大模型能力与终端硬件深度结合,未来可能在系统级助手、应用生态联动和端云协同体验方面进一步展开。

SpaceX 确认一颗“星链”卫星在 560 公里轨道失联

SpaceX 确认“星链 34343”卫星于 3 月 29 日在约 560 公里轨道发生异常并失去通信。目前公司正与 NASA 和美国太空军协调,对潜在碎片风险进行监测和评估。事件反映出低轨卫星大规模组网过程中,单星异常、空间交通管理和轨道碎片治理等问题仍然是产业持续关注的重点。

▶️ Rec Room 宣布将于 6 月 1 日关闭,曾累计拥有 1.5 亿用户

虚拟社交与创作平台 Rec Room 宣布将于 6 月 1 日停止运营。该平台曾累计拥有超过 1.5 亿玩家和创作者,高峰时期估值达到 35 亿美元。此次关停说明,即便拥有大规模用户基础,元宇宙和 UGC 社交平台在商业化、留存和市场环境变化面前仍可能面临持续经营压力。

𝕏 微软将 Copilot Cowork 扩展至更广泛可用范围

微软宣布扩大 Copilot Cowork 的可用范围,使其能够在 Microsoft 365 中执行日程规划、每日简报等多步骤任务。此次扩展体现出 Copilot 正从单点问答与文本生成,进一步迈向跨应用、跨流程的办公协作代理,帮助用户把更多重复性的组织与协调工作自动化。


🌍 国际大事

特朗普称即使霍尔木兹海峡未重开也愿结束对伊军事行动

多家报道显示,特朗普已向助手表示,即便霍尔木兹海峡仍大体关闭,也愿在完成削弱伊朗海军与导弹能力等既定目标后,按原定约 4 至 6 周框架逐步结束对伊军事行动。消息传出后,市场迅速调整中东风险溢价,纳指及标普 500 期货转涨,布油和 WTI 原油涨幅收窄或短线转跌,显示投资者对冲突外溢风险的预期阶段性降温。

𝕏 中远海运两艘货轮在遭拦截折返后成功通过霍尔木兹海峡

中国远洋海运旗下两艘集装箱船在上周曾被伊朗革命卫队拦截并迫使掉头后,已于周一上午成功通过霍尔木兹海峡。该进展表明,在海峡通行高度紧张、航运与保险风险上升的背景下,部分商船仍在谨慎恢复通行,也反映出中东局势对全球航运链、能源运输和亚洲贸易航线的直接影响仍在持续。

日本陆上自卫队在熊本和静冈部署远程导弹

日本陆上自卫队宣布,在熊本健军驻屯地和静冈富士驻屯地部署“25 式陆基反舰导弹”与“25 式高速滑翔弹”两型新装备。此举意味着日本远程打击能力和前沿威慑布局进一步强化,也被视为其防卫政策持续转向、提升对周边海空域应对能力的重要一步,可能对东北亚安全格局产生更深远影响。

美国 ITC 对智能电视和显示器启动 337 调查

美国国际贸易委员会(ITC)已就具视频功能的智能电视、显示器及相关组件正式启动 337 调查。该程序通常涉及专利、知识产权或不公平进口问题,可能令消费电子、面板、模组及终端品牌供应链面临新的诉讼与合规风险。若调查推进,相关企业在美国市场的销售、进口和零部件采购安排都可能受到影响。

𝕏 中国创业者加速涌向印尼,2024 年居留许可发放逾 10 万份

报道称,印尼在 2024 年向中国创业者和企业人士发放的居留许可已超过 10 万份,反映出中国企业和个人正加快在东南亚尤其是印尼布局。其背后既有制造业转移、区域贸易重组,也有供应链本地化与出海经营需求上升等因素。印尼作为人口大国和区域制造枢纽,正成为中国企业海外落地与扩张的重要目的地。

以色列议会通过针对巴勒斯坦人的死刑法案

以色列议会以 62 票赞成、48 票反对通过一项备受争议的死刑法案。根据法案,约旦河西岸巴勒斯坦人若被军事法庭认定实施“致命袭击”,可由法官以简单多数判处死刑。报道指出,该法案由极右翼力量推动,内塔尼亚胡也投下赞成票。法案迅速引发法律、公平审判和人权层面的广泛争议,并可能进一步激化以巴紧张局势。

英国对中国挖掘机发起反吸收复审调查

英国贸易救济署于 3 月 30 日启动对中国进口挖掘机的反吸收复审调查,涉及此前已实施的 18.81%至 40.08%反倾销税。所谓“反吸收复审”通常聚焦出口商是否通过调整价格或贸易安排消化关税影响。此举可能加大中国工程机械企业对英出口压力,也将影响中英之间相关设备贸易、定价和市场竞争格局。

日本称中国科考船在钓鱼岛附近专属经济区作业

日本海上保安厅称,中国调查船“向阳红 22”在距鱼钓岛约 37 海里海域投放管状或线缆状设备,并要求中方停止相关海洋调查活动。事件涉及钓鱼岛附近海域的海洋科研与管辖权敏感问题,可能进一步牵动中日围绕东海海域活动、专属经济区认定及海上执法的持续摩擦。

以色列称监测到伊朗发射导弹,以中部多地响起防空警报

以色列国土防卫司令部表示,3 月 31 日早间监测到伊朗向以色列发射导弹,随后以色列中部多地拉响防空警报。此轮导弹预警显示伊以之间直接军事对抗风险继续升高,也令地区安全局势更趋紧张。导弹袭击与预警机制的持续启动,正加剧市场对中东局势失控及外溢冲击的担忧。

泰国国王批准新政府内阁成员名单

泰国国王玛哈·哇集拉隆功已批准总理阿努廷提交的新内阁名单。此次人事调整延续了泰国自 2025 年以来政局频繁重组的趋势,也显示执政架构仍在重新平衡之中。新内阁获批后,外界将继续关注其对经济治理、联盟稳定以及国内政治整合能力的实际影响。

伊朗收紧霍尔木兹海峡通行政策:批准收费法案并限制敌对国家船只

伊朗议会已批准针对霍尔木兹海峡通行船只的收费法案,计划以伊朗里亚尔结算,并拟限制美国和以色列船只通行。与此同时,伊朗官员还表示,所有穿越海峡的船只都需与伊朗达成协议并接受文件审查,未获许可的“敌对国家”货船不得通过。相关举措显示伊朗正强化对这一全球关键能源通道的控制,油运、航运与地缘政治风险同步抬升。

💹 以军称黎巴嫩南部战斗造成 4 名士兵死亡

以色列军方表示,黎巴嫩南部战斗已造成 4 名以军士兵死亡、3 人受伤。该伤亡情况显示以黎边境冲突仍在升级,地面交火烈度并未明显缓和。随着北线局势持续紧张,以色列面临同时应对多条战线的安全压力,地区局势进一步复杂化的风险也在上升。

💹 德黑兰变电站遭弹片击中,多地区停电并传出爆炸

德黑兰东部一座变电站遭弹片击中后,引发首都多个地区停电;随后德黑兰西部在约 6 时又传出多起爆炸。事件表明伊朗首都关键基础设施已受到战事波及,城市运行与民生供电安全面临压力。能源、电力与城市公共设施遭受影响,也加深外界对冲突升级后伊朗内部稳定性的担忧。

美伊冲突升级致全球市场震荡,特朗普威胁打击伊朗石油与电力设施

随着美伊冲突持续升级,特朗普威胁称若谈判失败,将打击伊朗油井、发电站等关键能源设施,推动国际油价明显上行。报道显示,布伦特原油一度升至 113.39 美元,WTI 5 月原油收于 102.88 美元/桶;霍尔木兹海峡通行量大幅下降,全球股债金市场同步承压。冲突对能源供应、航运安全和全球风险资产定价已形成显著冲击。

重庆铁峰山隧道发生爆炸事故,致 4 人死亡 12 人受伤

重庆万州区铁峰山隧道左洞发生疑似可燃气体爆炸,造成 4 人死亡、12 人受伤。事故发生在恩施至广元国家高速公路项目施工现场,目前现场搜救已经结束,相关部门已启动事故原因调查。事件再次引发外界对隧道施工环境、可燃气体监测和工程安全管理措施的关注。

习近平出席世界数据组织成立大会并致贺信

世界数据组织在北京成立,旨在推动全球数据合作、弥合数据鸿沟。习近平向大会致贺信表示,中国将促进数据安全有序流动,支持该组织发挥平台作用,服务全球数字经济健康发展。此举被视为中国在全球数字治理、数据规则协同以及跨境数据合作方面进一步提升参与度和话语权的重要信号。

伊拉克一所美国大学遭袭

位于伊拉克苏莱曼尼亚的一所美国大学于 3 月 31 日凌晨遭到袭击。此前,伊朗革命卫队曾将西亚地区美国高校列为合法打击目标,使得此次袭击具有更强的地区冲突延伸意味。事件反映出美伊及其关联冲突正在波及教育机构与非军事目标周边环境,地区安全风险进一步外溢。

白宫称特朗普希望在 4 月 6 日前与伊朗达成协议

白宫表示,特朗普希望在 4 月 6 日前与伊朗达成协议,目前美方对伊朗能源设施的打击已暂停 10 天,显示双方仍保留谈判窗口。与军事施压并行的外交时限设定,说明美国正试图在高压威慑与有限缓和之间寻求筹码平衡。后续谈判若无突破,中东局势和能源市场仍可能迅速再度承压。

海地周末严重袭击已致超 70 人死亡

海地阿蒂博尼特省周末发生严重暴力袭击,已造成超过 70 人死亡、约 30 人受伤,另有约 6000 名居民被迫逃离家园。大规模死伤和流离失所显示当地治安与社会秩序进一步恶化。海地长期面临帮派暴力、政府治理脆弱与人道危机叠加压力,此次袭击恐进一步加剧国内不稳定与国际援助压力。


📈 财经市场

贵州茅台上调飞天酒合同价与零售价,白酒板块受提振

贵州茅台公告,自 3 月 31 日起,飞天 53%vol 500ml 产品销售合同价由 1169 元上调至 1269 元,零售价由 1499 元调整至 1539 元。这是市场高度关注的核心价格调整动作,直接带动白酒板块走强。机构观点认为,此次提价有助于提升公司盈利能力和每股收益,并对高端白酒价格体系形成示范效应。

中国 3 月制造业 PMI 回升至 50.4,重返扩张区间

国家统计局公布数据显示,中国 3 月制造业 PMI 为 50.4,较上月回升 1.4 个百分点,结束连续两个月低于荣枯线的局面;非制造业 PMI 为 50.1,综合 PMI 产出指数为 50.5。分项来看,新订单指数升至 51.6,出厂价格指数 55.4,原材料购进价格指数 63.9,显示春节后复工复产推进、需求边际改善,同时原材料价格上行也对景气回升形成支撑。

𝕏 🟢 中国加强对持有港股的离岸信托税务审查,范围由上海扩至多地

中国税务部门正加强对持有香港上市股票的离岸信托安排审查,范围已从上海扩展至江苏、深圳等地,重点要求披露股息与资本利得相关信息。报道称,至少有个案面临按 20%税率追征并附加罚款。此举意味着高净值人群通过离岸信托进行跨境持股的税务合规压力明显上升,相关结构安排的不确定性加大。

𝕏 🟢 纳斯达克修改指数纳入规则,大型 IPO 最快约 15 个交易日可入选

纳斯达克宣布调整指数纳入机制,新增“Fast Entry”快速纳入安排,大市值 IPO 上市约 15 个交易日后即可进入相关主指数,同时取消原有 10%流通股最低要求。新规将于 2026 年 5 月 1 日起生效。市场预计,这一变化将改变大型新股被动资金流入节奏,并可能提升超大规模 IPO 在上市初期的指数配置效率。

美国汽油均价自 2022 年 8 月以来首次突破每加仑 4 美元

GasBuddy 及市场数据表明,美国平均汽油零售价升破每加仑 4 美元,为 2022 年 8 月以来首次。推动因素主要包括中东冲突升级、原油价格走强以及市场对霍尔木兹海峡供应风险的担忧。摩根大通测算,如果高油价持续,美国家庭购买力或将额外损失约 1100 亿美元,能源成本上行也将对通胀和消费形成新的压力。

鲍威尔称将观察战争对通胀和经济的影响后再决定政策行动

鲍威尔表示,美联储将继续观察美伊冲突等地缘局势对美国经济与通胀的影响,目前可以保持观望,联邦基金利率维持在 3.50%-3.75%。他同时指出,长期通胀预期仍相对稳固。随着市场对进一步加息的押注明显降温,投资者正重新评估地缘风险、能源价格与货币政策路径之间的相互影响。

韩国股市受中东冲突与芯片预期降温拖累,3 月累计跌超 15%

受中东冲突升温、能源价格上行以及芯片行业预期转弱影响,韩国综合股指 3 月累计下跌逾 15%,市值蒸发约 4930 亿美元。外资集中抛售三星电子和 SK 海力士,两家公司外资持股比例降至 2022 年以来低位。韩国市场在出口导向、半导体权重较高的结构下,对全球风险偏好和科技周期变化尤为敏感。

美光财报后两周累跌约 30%,华尔街仍大多维持看多

美光自 3 月 18 日发布财报后股价累计回撤约 30%,市场开始重新定价 AI 带动的存储需求前景,并关注新技术变化对内存行业长期需求的影响。不过,华尔街主流分析师整体态度仍偏积极,43 位分析师中有 38 位维持买入或强力买入评级。当前分歧主要集中在短期估值压力与长期行业景气之间的平衡。

韩国 AI 芯片公司 Rebellions 完成 4 亿美元融资,估值约 23.4 亿美元

韩国 AI 芯片企业 Rebellions 完成新一轮 4 亿美元融资,投后估值约 23.4 亿美元,累计融资规模达到 8.5 亿美元。公司表示,资金将主要用于拓展美国市场、扩大产能并推进上市准备。Rebellions 聚焦 AI 推理芯片赛道,在韩国本土半导体创新公司中关注度较高,此轮融资也反映出资本对区域 AI 算力替代方案的持续押注。

🔶 🟢 澳大利亚 10 月起取消银行卡支付附加费,预计年省 25 亿澳元

澳大利亚央行宣布,自 10 月 1 日起取消消费者在借记卡和信用卡支付中常见的附加费,同时下调商户跨行手续费。官方预计,该调整每年可为消费者和企业合计节省约 25 亿澳元。此举有望降低支付环节额外成本,改善零售端支付体验,并推动银行卡收费机制进一步透明化。

💹 🟢 大韩航空因油价飙升启动紧急管理模式,国际航线附加费大涨

大韩航空内部备忘录显示,公司将自 4 月起进入紧急管理模式,原因是燃油成本预计升至每加仑 450 美分,远高于商业计划中的 220 美分。受此影响,仁川至纽约、伦敦等国际航线燃油附加费上调约 200%至 250%。油价急涨正显著侵蚀航空公司利润空间,票价与附加费调整压力同步上升。

印尼卢比兑美元跌至历史新低 16997,区域汇市承压

印尼卢比兑美元跌至历史低点,报 1 美元兑 16997 卢比。市场认为,油价上涨、地缘冲突升温以及新兴市场整体风险偏好回落,是推动本轮汇率走弱的重要因素。卢比创新低也反映出区域资本流动承压,若美元继续强势且能源成本高企,印尼面临的输入型通胀和货币稳定压力或进一步上升。

𝕏 🟢 SEC 放宽券商优质股票抵押使用规则,简化借券流程

美国证监会交易与市场部通过无行动信函支持 ISLA 与 SIFMA 相关请求,允许券商将属于 Russell 1000 或标普 500 成分股的客户保证金股票,直接用于借券抵押,而不必先转换为现金再进行抵押。新安排有助于减少双重操作流程,提高市场中证券借贷与抵押品管理效率,也被视为对大型优质股票流动性运用的进一步放宽。

𝕏 🟢 亚马逊今年资本开支计划达 2000 亿美元,重点投向云与 AI 基础设施

消息称,亚马逊计划今年投入约 2000 亿美元资本开支,规模创下企业年度投入新高。资金重点将用于云计算、数据中心、基础设施扩张以及 AI 相关能力建设。若该计划落地,意味着大型科技公司在算力、模型训练和云服务竞争上的投入仍在持续升温,也可能继续带动上游芯片、服务器和电力等产业链需求。

🔶 🟢 玻色量子完成 10 亿元 B 轮融资,加码技术攻关与量产制造

玻色量子完成 10 亿元 B 轮融资,由北京金控、工银资本、招银国际等联合领投。公司表示,本轮资金将投向核心技术攻关、芯片工艺、量产制造及生态拓展。作为量子计算领域的重要融资案例,此次募资显示资本市场对前沿硬科技赛道仍保持较强兴趣,也有助于公司推进产业化落地和上下游合作。

37 家公募基金公司业绩披露:易方达与工银瑞信净利均超 30 亿元

已披露业绩的 37 家基金公司中,易方达以 38.06 亿元净利润居首,工银瑞信净利润达 30.7 亿元,共有 26 家公司实现净利同比增长。数据表明,头部公募机构在市场波动环境中仍具备较强盈利韧性,行业集中度继续维持高位。随着费率改革和产品竞争加剧,后续头部与中小机构之间的分化或将进一步扩大。

🔶 元思生肽完成 1.5 亿美元 B 轮融资,推进大环肽平台与临床管线

元思生肽完成 1.5 亿美元 B 轮融资,资金将用于迭代 Synova 大环肽平台,并推动创新药管线进入临床阶段。大环肽药物因兼具小分子与生物大分子的部分优势,近年受到资本与产业高度关注。此次融资有助于公司在平台研发、候选分子筛选及临床前到临床转化方面加快布局。

🔶 🟢 六大行 2025 年净利润合计约 1.42 万亿元,拟分红超 4000 亿元

工商银行、农业银行等六大国有银行 2025 年报披露完毕,全部实现营收和净利润双增长,合计净赚约 1.42 万亿元,全年拟分红金额超过 4000 亿元。银行体系整体盈利保持稳健,同时继续加大对科技创新、普惠小微等重点领域的信贷支持。高分红与稳定盈利能力也进一步强化了大行在 A 股中的红利资产属性。

创业板指跌逾 2%,半导体存储芯片板块持续调整

A 股创业板指盘中跌逾 2%,市场下跌个股接近 3700 只,半导体与存储芯片概念持续承压。受 DDR5 内存条现货价格降幅明显影响,佰维存储跌近 10%,德明利、兆易创新等多股跌超 5%。板块走弱反映出市场对存储价格周期、库存去化节奏以及相关企业盈利预期的重新评估。

协鑫光电计划年内赴港上市,并推进太空光伏业务验证

协鑫科技董事长朱共山表示,协鑫光电预计今年在港股发行上市。与此同时,公司正与航天科技集团 811 所合作推进太空光伏业务,计划于 2026 年第四季度完成钙钛矿近太空环境验证,并争取在 2027 年至 2028 年实现量产。该进展显示公司正同步推动资本化运作与前沿光伏技术场景拓展。

WTI 原油升破 106 美元,市场继续交易中东供应风险

WTI 原油上涨超 3%,一度升至 106.23 美元/桶。市场焦点仍集中在中东局势升级、霍尔木兹海峡运输风险以及潜在能源供应冲击上。油价快速上行不仅推高全球通胀预期,也对航空、运输和制造业成本形成明显压力,并已开始向汽油、汇率和股市等更广泛资产价格传导。


🏭 工业能源

河南提出到 2027 年数据产业年均复合增长率超 25%,培育 500 家骨干企业

河南发布关于数据资源开发利用的相关意见,提出到 2027 年全省数据生产总量年均复合增长率超过 25%,培育 500 家骨干企业,形成 1000 项数据产品和服务。政策重点在于推动数据要素开发利用、壮大数据产业体系,并以数据资源转化带动区域数字经济发展。

中科宇航力箭二号首飞成功入轨,近地轨道运力达 12 吨

中科宇航力箭二号于 3 月 30 日 19 时完成首飞并成功将 3 颗卫星送入预定轨道,当前 200 公里近地轨道运力达到 12 吨。官方表示,后续换装自研可回收发动机后,火箭有望实现回收复用,进一步降低发射成本,并加快低轨星座组网能力建设。

长鹰-8 大型货运无人机首飞成功,载重 3.5 吨

长鹰-8 在郑州上街机场完成首飞,成为目前全球已首飞的最大货运无人机。该机为 7 吨级智能无人运输平台,可载重 3.5 吨,首飞历时约 30 分钟,完成了飞控、航电、动力等关键系统验证,显示大型无人货运平台在低空物流和工业运输场景中的应用前景。

天兵科技天龙三号预计 4 月 2 日首飞,运力对标猎鹰 9 号

天兵科技透露,天龙三号预计于 4 月 2 日执行首飞。该火箭被视为国内商业航天首款近地轨道运力有望超过 20 吨的大运力液体火箭,可实现一箭 36 星组网发射,整体性能对标 SpaceX 猎鹰 9 号,意味着中国商业航天在重型液体火箭领域正加速突破。

工信部将动态跟踪储能电池产能、产量和价格,编制“十五五”新型电池发展规划

工信部表示,将动态跟踪储能电池产能、产量、价格等关键指标,组织编制“十五五”新型电池发展规划,并强化相关国家标准实施。政策导向直指行业低水平重复建设和同质化竞争,意在引导储能电池产业有序扩张、提升安全和技术标准,改善供需结构。

𝕏 Starcloud 完成 1.7 亿美元融资,推进轨道数据中心计划

Starcloud 完成 1.7 亿美元融资,估值约 11 亿美元,资金将主要用于建设轨道数据中心。公司此前已发射搭载 NVIDIA H100 的 Starcloud-1,后续目标是扩展更大规模的太空算力平台。该项目反映出卫星、算力基础设施与太空数据处理融合发展的新趋势。

🔶 两部门提出推动人工智能与脑机接口融入医疗装备

在推进医疗装备发展应用领导小组会议上,相关部门提出将在“十五五”阶段推动人工智能、脑机接口与医疗装备融合创新,同时提升产业链韧性和软硬一体化供给能力。政策信号显示,智能医疗装备正从单点技术突破转向系统化产业布局。

🔶 🟢 3 月中国制造业 PMI 回升至 50.4,重返扩张区间

国家统计局公布数据显示,3 月制造业 PMI 为 50.4,较上月上升 1.4 个百分点,结束连续 2 个月低于 50 的状态并重回扩张区间。生产和需求同步改善,显示工业活动边际回暖,制造业景气度有所修复,对装备制造、原材料和能源需求形成一定支撑。

𝕏 经济学人称中国企业仍可能通过灰色渠道获取英伟达芯片

《经济学人》报道称,在美国出口限制持续趋严背景下,英伟达高端芯片仍可能通过灰色渠道流入中国市场。这反映出半导体走私、跨境转售及规避监管链条仍在适应新规则,也凸显全球高端算力供给在地缘政治约束下的复杂流通格局。

🔶 🟢 AWS 计划到 2031 年在韩国投资 7 万亿韩元,扩建 AI 与云基础设施

AWS 韩国计划到 2031 年累计投资 7 万亿韩元,约合 46 亿美元,用于扩展本地人工智能与云基础设施能力。该投资将强化 AWS 在韩国及东亚地区的算力、云服务和 AI 部署能力,也表明全球云计算巨头正持续加码亚洲关键市场的数据中心与 AI 底座建设。

💹 🟢 日本与印尼签署关键矿产合作协议,涵盖稀土、可再生能源与核能

日本与印尼确认加强关键矿产合作,合作范围涵盖稀土、可再生能源、核能及能源安全等领域。此举显示双方正在围绕关键资源供应链和能源转型建立更紧密协作,也反映出亚太地区在矿产资源、清洁能源和战略材料保障方面的合作正持续升温。

协鑫光电计划于 2026 年四季度完成钙钛矿近太空环境验证

协鑫光电表示,已于 2026 年一季度向航天科技集团 811 所送样测试,并计划于 2026 年四季度通过高空气球开展钙钛矿近太空环境验证。若验证顺利,将有助于推动钙钛矿电池在航天及极端环境应用中的产业化探索,拓展光伏技术的高端应用场景。

💹 三菱材料与 REElement 签署稀土回收合作备忘录

三菱材料与 REElement 就稀土及稀有金属回收签署谅解备忘录,显示日美在关键材料回收链条上的合作进一步深化。随着新能源、电子和高端制造对战略金属需求提升,资源回收体系正成为保障供应安全和降低地缘风险的重要环节。

黄茅峡水库防护工程开工,总投资 123.88 亿元

黄茅峡水库全部施工项目已落地实施,工程总投资 123.88 亿元,总库容 5.7 亿立方米,被定位为国家水网的重要防洪工程。项目推进有望提升区域防洪调蓄能力和水资源配置水平,也将带动水利工程建设及相关基础设施投资需求。

🔶 🟢 Golden Pass LNG 项目首条生产线投产

由卡塔尔能源与埃克森美孚推进的美国 Golden Pass LNG 项目已实现液化天然气生产,首条生产线正式投产。该项目共设 3 条生产线,总年产能达 1800 万吨。首线投产意味着北美 LNG 新增供给进一步释放,也将对全球天然气贸易流向和亚洲、欧洲能源供需平衡产生影响。

深圳出台“进口十条”,支持集成电路等产业升级

深圳市商务局提出“进口十条”措施,支持集成电路、平板显示模组等关键中间品进口,并探索汽车研发测试用废旧关键零部件进口试点。政策意在增强关键产业链供应保障能力,降低研发和制造环节成本,推动芯片、显示和汽车研发测试等产业进一步升级。

🔶 通用汽车底特律电动车工厂停产近一个月,影响约 1300 名工人

通用汽车表示,底特律 Factory ZERO 工厂自 3 月 16 日起停产至 4 月 13 日,涉及约 1300 名工人,原因是调整电动车产量以匹配市场需求。此举反映出欧美电动车市场需求节奏放缓、车企主动去库存和优化排产的现实压力。

储能系统运行费 2026 年平均上涨约 3 分/千瓦时

中信建投指出,各省储能系统运行费较 2025 年平均上涨约 3 分/千瓦时。不过从市场表现看,1 至 3 月储能新增招标容量仍增长近 120%。这意味着虽然运行成本上升,但行业投资和装机需求依然较强,储能建设景气度并未明显降温。

钛白粉 3 月内三连涨,累计涨幅约 2000 元/吨

受硫磺、硫酸等原材料价格上涨带动,钛白粉在 3 月内已连续三次提价,累计涨幅约 2000 元/吨。价格连续走高反映出上游化工原料成本传导压力增强,也可能对涂料、塑料、造纸等下游行业成本形成进一步挤压。


🧠 深度思考

𝕏 🟢 智能体距离大规模严肃落地,仍缺“自我监控与主动移交”能力

基于对 openclaw 等自主智能体攻防实验的观察,这一观点认为当前 Agent 更接近“L2 自主”阶段:它们可以执行明确子任务,也能在一定范围内连续行动,但尚不具备稳定的边界感知能力。真正阻碍其在严肃业务中大规模落地的,不只是任务成功率,而是系统无法可靠判断何时超出自身能力、何时应暂停、求助或把控制权移交给人类。换言之,问题核心是“自我监控”和“安全接管”机制不足,而非单点能力不够强。

𝕏 🟢 a16z:软件公司正被迫在更高增长与 40% 利润率之间二选一

围绕 a16z 提出的“Grow 10 or earn 40”观点,文章认为传统 SaaS 的中间地带正在快速消失:如果一家软件公司无法在未来 12-18 个月内推出真正具备差异化的 AI 原生产品,就很难继续维持过去那种“增长还行、利润也还行”的均衡状态。企业要么把增速再抬高一个台阶,要么重构组织、定价与成本结构,向 40% 运营利润率靠拢。其核心判断是,AI 正在改变软件公司的产品逻辑与资本市场的估值标准。

𝕏 Wikipedia 限制 AI 写作,核心争议在可追责的内容责任链而非准确率

这则观点认为,Wikipedia 对 AI 写作保持谨慎,重点并不只是“AI 写得准不准”,而是其内容生产缺少完整的 provenance,也就是可追溯、可问责的责任链。Wikipedia 的可信度建立在作者身份、编辑记录、时间戳、引用来源和社区协作机制之上;如果内容由缺乏明确主体责任的 AI 生成,即便表面上准确,也会削弱条目背后的信任结构。换言之,百科平台真正看重的是“谁写的、依据什么写、出了问题谁负责”。

🟩 提示词填充正在拖垮 Agent:精简上下文比堆叠信息更重要

文章聚焦 Agent 与 RAG 系统设计中的常见误区:为了追求“信息更全”,开发者往往向模型塞入过多上下文,结果导致提示词膨胀、工具调用混乱、推理路径失焦以及成本持续上升。作者主张,真正高质量的 Agent 并不是靠无限扩充上下文取胜,而是依靠更克制的检索策略、更合理的上下文编排以及更清晰的工具使用边界。其核心观点是,信息过载会削弱执行质量,精简、结构化和有选择的输入,反而更能提升 Agent 的稳定性与效率。

学 100 个 AI 工具,不如先把 1 个用熟用透

文章反对“不断换工具”的浅尝辄止式学习,主张先选定一个 AI 工具连续使用 30 天,在真实任务中反复打磨模板、流程和上下文习惯。作者认为,效率提升并不主要来自工具数量,而来自稳定工作流的形成:当用户把同一工具嵌入固定场景,持续复盘输出、沉淀提示模板和协作方式,才更容易建立可复制的生产力系统。与频繁追逐新产品相比,把一个工具真正用到极致,往往更能带来持续、可复用的实际产出。

𝕏 JavaScript 生态臃肿,正在拖慢 Web 体验

作者认为,JavaScript 生态在长期发展中不断叠加框架、构建工具、运行时依赖与复杂工程习惯,已经从“提升开发效率”逐渐演变为“伤害最终用户体验”的负担。页面加载更慢、资源体积更大、执行链路更复杂,使 Web 的轻量与开放优势被削弱。文章尝试拆解这种臃肿现象的成因,并主张回到更节制的工程方式,通过减少不必要抽象、压缩依赖和追求更轻的交付模型,来重新改善 Web 的性能与可用性。


📰 综合新闻

𝕏 🟢 NASA 称“阿耳忒弥斯 2 号”最早将于 4 月 1 日发射,进入最后 48 小时倒计时

NASA 表示,阿耳忒弥斯 2 号(Artemis II)任务最早将于 4 月 1 日执行发射,目前已进入最后 48 小时倒计时阶段。该任务是美国新一代重返月球计划中的关键一步,也是阿耳忒弥斯计划下首次载人绕月飞行任务,外界高度关注其对后续载人登月安排、SLS 火箭与猎户座飞船综合验证进展的意义。

国家计算机病毒应急处理中心通报 71 款 APP 及小程序违规收集个人信息

国家计算机病毒应急处理中心通报称,经检测发现共有 71 款移动应用存在违法违规收集、使用个人信息等问题,涉及多类 APP 及微信、支付宝小程序,其中包括微信小程序“热雪奇迹”、支付宝小程序“人人租”等。此次通报再次聚焦移动应用数据合规与隐私保护,预计相关应用后续将面临整改、下架或进一步监管处置。

𝕏 Waymo 公布日本进展,拟联合本地伙伴推进自动驾驶叫车服务落地

Waymo 表示,将基于其累计超过 3 亿公里的自动驾驶运营与测试经验,与日本交通及出行平台 GO 等本地合作伙伴共同推进自动驾驶叫车服务在日本落地。这表明 Waymo 正加快国际化扩张步伐,尝试将美国市场积累的技术与运营经验复制到日本,为当地 Robotaxi 商业化铺路。

𝕏 Apple Intelligence 曾误推送至国行设备后被撤回,部分升级用户据称仍可安装

多方消息显示,Apple Intelligence 功能曾短暂出现在国行 Apple 设备的更新或安装选项中,随后又被撤回。相关信息称,此次撤回可能与该功能尚未获得监管批准有关。不过,部分已升级至 iOS 26.4 的用户表示,设备仍可继续下载安装并体验相关功能。事件反映出苹果 AI 功能在中国市场上线节奏和合规审批仍存在不确定性。

💻 美国民调:AI 工具使用率上升,但公众信任度偏低,仅 15%愿接受 AI 主管

Quinnipiac 民调显示,美国民众对 AI 工具的使用正在增加,但对其结果的信任度仍然偏低,多数受访者依旧担忧透明度不足、监管缺失及更广泛的社会影响。与此同时,仅 15%的受访者表示愿意接受由 AI 程序直接分配任务、安排日程,显示公众对 AI 进入管理岗位和高决策场景仍明显保留。这反映出 AI 普及与社会信任之间仍存在显著落差。


💡 生活建议

𝕏 🟢 ⭐ 经济下行期的中产家庭四条风控原则

作者提出中产家庭应优先守住健康、建立双收入、避免教育攀比,并远离高杠杆与高风险投资;文中引用布鲁金斯学会数据称,60%美国家庭无法覆盖 3 个月应急储蓄。


🛡️ 网络安全

𝕏 🟢 Cloudflare 向所有用户开放高级客户端安全能力:结合图神经网络与 LLM,误报率最高降低 200 倍

Cloudflare 宣布将高级 Client-Side Security 能力向全量用户开放。该能力面向前端与浏览器侧的安全风险检测,重点用于识别客户端脚本中的异常行为、供应链风险以及更复杂的零日攻击。官方称,在引入图神经网络与大语言模型后,系统对复杂攻击链和可疑脚本关系的识别能力显著增强,误报率最高可下降 200 倍。此举反映出云安全厂商正把 AI 深度用于前端安全监测与告警优化,以降低企业在实际运营中的排查成本。

💻 🟢 LiteLLM 在凭证窃取恶意软件事件后弃用 Delve,暴露 AI 基础设施供应链安全风险

AI 网关初创公司 LiteLLM 在遭遇凭证窃取恶意软件事件后,宣布停止使用合规服务商 Delve。该事件显示,除了模型与应用本身的安全问题,AI 基础设施还面临来自第三方服务商、内部凭证管理和开发流程的供应链风险。一旦凭证被窃取,攻击者可能进一步访问云资源、开发环境或客户数据,造成更广泛影响。此事也再次提醒企业,在引入外部工具与服务时,应强化供应商审查、最小权限控制、密钥轮换与终端防护。

𝕏 ChatGPT 网页端被曝在解锁输入框前静默采集 55 项客户端信息,引发隐私与反机器人边界讨论

有开发者逆向分析称,ChatGPT 网页端在用户开始输入前,会先静默检查约 55 项客户端数据,包括 GPU 型号、字体、分辨率、IP 地址及页面状态等信息。这类机制通常与风控、反滥用和反机器人识别有关,但由于采集过程对普通用户不够透明,也引发了对隐私告知、数据最小化以及浏览器指纹边界的争议。相关讨论聚焦于:平台在进行安全验证时应如何平衡风控需求与用户知情权,以及是否需要更清晰的披露和选择机制。


🚀 创业投融资

🔶 🟢 ⭐ 韩国 AI 芯片初创公司 Rebellions 再融 4 亿美元

Rebellions在去年11 月完成 C 轮后,又额外获得4 亿美元融资,领投方包括Mirae Asset Financial GroupKorea National Growth Fund,公司计划年内 IPO。

💻 前 Coatue 合伙人创办企业 AI Agent 公司获 6500 万美元种子轮

一家企业 AI Agent 初创公司完成高达6500 万美元种子轮,显示资本继续押注企业级智能体落地。


由 X-Crawler AI 生成于 2026-03-31 12:03

订阅天眼 · 掌握先机

解锁完整情报系统

登录后可访问全部历史日报、智能推文搜索、深度行业分析等高级功能。

分享

每日精选 · 直送邮箱

订阅天眼日报

AI 精选科技要闻摘要,每天一封,免费无广告。