02月25日 · 科技日报

天眼日报

科技|2026年02月25日|49 分钟阅读
来源:2530 条推文 + 0 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-24 — 2026-02-25
分享
科技 日报封面
AI 速读23 条精选

🤖 AI 大模型

大模型 Bullshit Benchmark 评测:Claude Sonnet 4.6 识别率 94.55%领跑

Anthropic 的 Claude Sonnet 4.6 在 Bullshit Benchmark 中以 94.55%绿色率(直接指出胡说八道)夺冠,Claude 系列包揽前 8;Qwen 3.5-397B 第 9(65.45%),GPT-5.2 仅 27.27%;Mistral Large 2512 垫底 3.64%。

Claude Code 迎来一周年:开发者用于生产应用和火星漫游车规划

Anthropic 的 Claude Code 发布一周年,开发者用于周末项目、生产应用、世界最大公司代码编写及火星漫游车路径规划。

Claude Code 新增远程控制功能

Anthropic 为 Claude Code 推出 Remote Control,用户可在手机上控制终端任务,Claude 继续在本地机器运行,支持散步或会议中接管会话。从本地终端启动会话后可在手机继续,支持 Max 用户研究预览。

阿里 Qwen 发布 Qwen3.5 中型模型系列

Alibaba_Qwen 推出 Qwen3.5-Flash、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B 和 Qwen3.5-27B,其中 Qwen3.5-35B-A3B 使用 3B 活跃参数/令牌,优于 Qwen3-235B,采用混合注意力层(3:1 线性与标准)、超稀疏专家路由及强化学习,单 GPU 运行前沿推理,支持 100 万 token 上下文。Flash 支持 1M 上下文和内置工具,已在 Hugging Face 和 ModelScope 开源。Qwen 团队今日发布 Qwen 3.5 122B-A10B (MoE)、Qwen 3.5 35B-A3B (MoE)和 Qwen 3.5 27B (Dense)三个新开源模型,支持多模态和高效推理。

Warp 宣布 OpenAI Codex 5.3 正式可用并开放给开发者

Warp 与 OpenAI 合作调优 Codex 5.3,提升智能边界,响应迅速,将复杂问题分解为可管理块,现已通用可用。OpenAI 宣布 GPT-5.3-Codex 在 Responses API 中可用,开发者可立即构建应用,定价输入$1.75、输出$14.0/百万 token。基准测试:在 Terminal Bench 2 排名第 2、IOI 第 2、LiveCodeBench 第 3、Vibe Code Bench 第 4,使用 xhigh 推理。

Mercury 2 发布:首款推理扩散 LLM 输出速度达 1000+ tokens/s

Inception Labs 推出 Mercury 2 扩散 LLM,采用扩散架构,同时精炼整个响应,实现 1000 token/s 速度,匹配 70-90 token/s 自回归模型质量,支持多步代理和实时代码编辑。在 Terminal-Bench Hard 和 IFBench 上媲美 Claude 4.5 Haiku,代理编码和指令跟随得分 70%。创始人来自斯坦福等,支持生产部署。

Wan2.6-t2v 成视频竞技场中文模型第一

Alibaba Wan 的 Wan2.6-t2v 在 Video Arena 文本到视频排名第 1,得分 1346,图像到视频第 12,得分 1292,接近 Seedance v1.5 pro 和 Kling 2.6 pro。

SONIC:42M 参数 Transformer 控制人形机器人

DrJimFan 团队训练 42M SONIC 模型,使用 1 亿+ mocap 帧和 50 万+并行机器人在 128 GPUs 上训练,零样本转移到真实 G1 机器人,100%成功率支持 50 种动作序列,支持 VR、视频、文本和音乐输入,已开源代码和权重。

Arena 新增 Qwen3.5-397B-A17B 多文件 React 能力

Arena 支持 Qwen3.5-397B-A17B 测试 web 开发任务,并新增多文件 React 能力,YouTube 演示可用。

Perplexity 发布 4 款 SOTA 扩散嵌入模型

Perplexity AI 上周发布 4 款 SOTA 扩散嵌入模型(600M 和 4B 参数),支持 SBERT 和 ONNX 格式,可用于技术报告。

Anthropic 推出 Cowork 企业代理,支持 Excel-PowerPoint 端到端协作

Anthropic 发布 Cowork 和插件更新,支持 Google Workspace、Docusign、Apollo 等 10+连接器,以及 HR、设计、工程、投资银行等插件。Claude 可在 Excel 分析数据并生成 PowerPoint 演示,现向付费计划用户开放。

LiquidAI 发布 LFM2-24B-A2B,本地设备最大模型

LiquidAI 推出 LFM2-24B-A2B 模型,训练于 17T tokens,适用于 32GB 统一内存设备,通过 ollama 运行,支持快速本地推理。

GeminiCLI 推出 Hooks 功能

Google 官方宣布 GeminiCLI 新增 Hooks 功能,支持自定义代理循环、添加上下文、验证动作和执行策略。

Anthropic 更新 Responsible Scaling Policy 至 3.0 版

Anthropic 发布 RSP 3.0,自 2023 年实施以来优化政策,提升透明度,提供所有相关文档链接。

Anthropic 指控 DeepSeek、Moonshot AI、MiniMax 对 Claude 实施工业级蒸馏攻击

Anthropic 指控 DeepSeek、Moonshot AI、MiniMax 创建超 24,000 个欺诈账户,生成 1,600 万+次交互,系统性提取 Claude 的 Agent 推理、工具使用、编码等核心能力。MiniMax 攻击最活跃,新模型发布后 24 小时内转向。

OpenAI 认为 SWE-bench Verified 基准已失效,建议使用 SWE-bench Pro

OpenAI 审计显示 SWE-bench Verified 测试用例缺陷达 59.4%,训练数据污染严重,前沿模型依赖记忆高分通过。Claude Opus 4.6 用 Verified(80.8%),GPT-5.3-Codex 用 Pro(56.8%)。

Qwen3.5-397B-A17B 登顶 Hugging Face 最热模型

通义千问旗舰开源模型 Qwen3.5-397B-A17B 成为 Hugging Face#1 趋势模型,支持高性能推理和复杂推理,现已在平台开放试用。

fal.ai 发布 Seedream 5.0 Lite 多模态图像生成模型

fal.ai 推出 Seedream 5.0 Lite,统一多模态图像生成,内置在线搜索实时生成新闻趋势,支持精确风格布局控制和意图理解。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。