天眼日报

科技|2026年02月25日|约 49 分钟阅读

来源：2530 条推文 + 0 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-24 — 2026-02-25

AI 速读23 条精选

🤖 AI 大模型

大模型 Bullshit Benchmark 评测：Claude Sonnet 4.6 识别率 94.55%领跑

Anthropic 的 Claude Sonnet 4.6 在 Bullshit Benchmark 中以 94.55%绿色率（直接指出胡说八道）夺冠，Claude 系列包揽前 8；Qwen 3.5-397B 第 9（65.45%），GPT-5.2 仅 27.27%；Mistral Large 2512 垫底 3.64%。

Claude Code 迎来一周年：开发者用于生产应用和火星漫游车规划

Anthropic 的 Claude Code 发布一周年，开发者用于周末项目、生产应用、世界最大公司代码编写及火星漫游车路径规划。

Claude Code 新增远程控制功能

Anthropic 为 Claude Code 推出 Remote Control，用户可在手机上控制终端任务，Claude 继续在本地机器运行，支持散步或会议中接管会话。从本地终端启动会话后可在手机继续，支持 Max 用户研究预览。

Alibaba_Qwen 推出 Qwen3.5-Flash、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B 和 Qwen3.5-27B，其中 Qwen3.5-35B-A3B 使用 3B 活跃参数/令牌，优于 Qwen3-235B，采用混合注意力层（3:1 线性与标准）、超稀疏专家路由及强化学习，单 GPU 运行前沿推理，支持 100 万 token 上下文。Flash 支持 1M 上下文和内置工具，已在 Hugging Face 和 ModelScope 开源。Qwen 团队今日发布 Qwen 3.5 122B-A10B (MoE)、Qwen 3.5 35B-A3B (MoE)和 Qwen 3.5 27B (Dense)三个新开源模型，支持多模态和高效推理。

Warp 宣布 OpenAI Codex 5.3 正式可用并开放给开发者

Warp 与 OpenAI 合作调优 Codex 5.3，提升智能边界，响应迅速，将复杂问题分解为可管理块，现已通用可用。OpenAI 宣布 GPT-5.3-Codex 在 Responses API 中可用，开发者可立即构建应用，定价输入$1.75、输出$14.0/百万 token。基准测试：在 Terminal Bench 2 排名第 2、IOI 第 2、LiveCodeBench 第 3、Vibe Code Bench 第 4，使用 xhigh 推理。

Mercury 2 发布：首款推理扩散 LLM 输出速度达 1000+ tokens/s

Inception Labs 推出 Mercury 2 扩散 LLM，采用扩散架构，同时精炼整个响应，实现 1000 token/s 速度，匹配 70-90 token/s 自回归模型质量，支持多步代理和实时代码编辑。在 Terminal-Bench Hard 和 IFBench 上媲美 Claude 4.5 Haiku，代理编码和指令跟随得分 70%。创始人来自斯坦福等，支持生产部署。

Wan2.6-t2v 成视频竞技场中文模型第一

Alibaba Wan 的 Wan2.6-t2v 在 Video Arena 文本到视频排名第 1，得分 1346，图像到视频第 12，得分 1292，接近 Seedance v1.5 pro 和 Kling 2.6 pro。

SONIC：42M 参数 Transformer 控制人形机器人

DrJimFan 团队训练 42M SONIC 模型，使用 1 亿+ mocap 帧和 50 万+并行机器人在 128 GPUs 上训练，零样本转移到真实 G1 机器人，100%成功率支持 50 种动作序列，支持 VR、视频、文本和音乐输入，已开源代码和权重。

Arena 新增 Qwen3.5-397B-A17B 多文件 React 能力

Arena 支持 Qwen3.5-397B-A17B 测试 web 开发任务，并新增多文件 React 能力，YouTube 演示可用。

Perplexity 发布 4 款 SOTA 扩散嵌入模型

Perplexity AI 上周发布 4 款 SOTA 扩散嵌入模型（600M 和 4B 参数），支持 SBERT 和 ONNX 格式，可用于技术报告。

Anthropic 推出 Cowork 企业代理，支持 Excel-PowerPoint 端到端协作

Anthropic 发布 Cowork 和插件更新，支持 Google Workspace、Docusign、Apollo 等 10+连接器，以及 HR、设计、工程、投资银行等插件。Claude 可在 Excel 分析数据并生成 PowerPoint 演示，现向付费计划用户开放。

LiquidAI 发布 LFM2-24B-A2B，本地设备最大模型

LiquidAI 推出 LFM2-24B-A2B 模型，训练于 17T tokens，适用于 32GB 统一内存设备，通过 ollama 运行，支持快速本地推理。

GeminiCLI 推出 Hooks 功能

Google 官方宣布 GeminiCLI 新增 Hooks 功能，支持自定义代理循环、添加上下文、验证动作和执行策略。

Anthropic 更新 Responsible Scaling Policy 至 3.0 版

Anthropic 发布 RSP 3.0，自 2023 年实施以来优化政策，提升透明度，提供所有相关文档链接。

Anthropic 指控 DeepSeek、Moonshot AI、MiniMax 对 Claude 实施工业级蒸馏攻击

Anthropic 指控 DeepSeek、Moonshot AI、MiniMax 创建超 24,000 个欺诈账户，生成 1,600 万+次交互，系统性提取 Claude 的 Agent 推理、工具使用、编码等核心能力。MiniMax 攻击最活跃，新模型发布后 24 小时内转向。

OpenAI 认为 SWE-bench Verified 基准已失效，建议使用 SWE-bench Pro

OpenAI 审计显示 SWE-bench Verified 测试用例缺陷达 59.4%，训练数据污染严重，前沿模型依赖记忆高分通过。Claude Opus 4.6 用 Verified(80.8%)，GPT-5.3-Codex 用 Pro(56.8%)。

Qwen3.5-397B-A17B 登顶 Hugging Face 最热模型

通义千问旗舰开源模型 Qwen3.5-397B-A17B 成为 Hugging Face#1 趋势模型，支持高性能推理和复杂推理，现已在平台开放试用。

fal.ai 发布 Seedream 5.0 Lite 多模态图像生成模型

fal.ai 推出 Seedream 5.0 Lite，统一多模态图像生成，内置在线搜索实时生成新闻趋势，支持精确风格布局控制和意图理解。

EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点，再决定是否升级

每篇公开内容都对应三步：订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

订阅每日情报查看同主题历史事件升级 Pro 解锁搜索 / 研究 / 事件详情

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报，先用邮件建立复访，再决定是否升级到更深的追踪能力。

查看同主题历史事件升级 Pro 解锁事件详情