02月18日 · 科技日报

天眼日报

科技|2026年02月18日|44 分钟阅读
来源:2157 条推文 + 159 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-02-17 — 2026-02-18
分享
科技 日报封面
AI 速读26 条精选

🤖 AI 大模型

Anthropic 发布 Claude Sonnet 4.6 模型,支持 100 万 token 上下文窗口,编程和计算机使用能力大幅提升

Anthropic 推出 Claude Sonnet 4.6 模型,在编码、计算机使用、长上下文推理、智能体规划、知识工作和设计领域全面升级。核心亮点包括 100 万 token 上下文窗口(API beta 测试,现向 Pro 用户开放),定价不变为每百万 token 输入 3 美元/输出 15 美元(Opus 4.6 为 5/25 美元)。基准测试表现卓越:Terminal-Bench 2.0 从 51.0%升至 59.1%,SWE-bench Verified 从 77.2%至 79.6%,OSWorld-Verified 达 72.5%(前代 14.9%),MATH 88.0%,GDPval-AA ELO 1633(胜过 Sonnet 4.5 达 85%),ARC-AGI-2 58.3%。新增网页搜索优化,通过 AI 动态写代码筛选相关信息,避免上下文爆满,提高准确率;前端审美提升,支持 Computer Use 接近人类水平。免费/Pro 用户默认使用 Sonnet 4.6,免费层新增文件创建、连接器、技能和压缩功能,对所有计划开放,包括 Amazon Bedrock 和 Vertex AI。开发者偏好 Sonnet 4.6 超 Sonnet 4.5 达 70%,编码能力逼近甚至在部分基准超越 Opus 4.6。系统卡确认支持 Adaptive Thinking 引擎和动态过滤搜索。

xAI 推出 Grok 4.20 Beta 公测版,支持四代理实时协作系统

xAI 发布 Grok 4.20 Beta 版(公测),Elon Musk 宣布其比 Grok 4 智能和速度提升一个数量级,每周通过发布笔记持续优化,用户需手动选择模型。核心功能包括 4 代理实时协作:Grok(统筹)、Harper(研究)、Benjamin(验证)、Lucas(逻辑),支持复杂任务处理;256K 上下文(最高 2M),多模态输入(文本+图像+视频)。训练于 20 万 GPU Colossus 集群,现向 SuperGrok Pro/Premium+用户推送更新,强调幽默、智能且基于事实。

阿里巴巴发布 Qwen3.5-397B-A17B 稀疏专家开源模型,多模态能力卓越

阿里巴巴推出 Qwen3.5 系列旗舰开源模型 Qwen3.5-397B-A17B(总 397B 参数,每 token 仅激活 17B),采用高稀疏 MoE 和门控 Delta 网络,支持 201 种语言、256K/262K 上下文、原生多模态早融合(图像+视频+GUI 交互)。性能亮点:解码吞吐量比 Qwen3-Max 提升 8.6-19 倍,IFBench 76.5,SWE-bench 76.4,Intelligence Index 得分 45(排名第 3),GDPval-AA ELO 1221,后端编程 vector DB Bench QPS 1405(超 Kimi 2.5 4.8 倍),Agent 得分 668.43,256K 上下文召回 99.1%,幻觉率 88%。Apache 2.0 许可,提供 GitHub、Hugging Face 下载及 API,支持代理工作流、视频理解等。

GLM-5 在 SimpleBench 成为最佳开源模型,与 Sonnet 4.6 对标 Opus 4

GLM-5 在 SimpleBench 测试中成为最佳开源模型,性能与 Sonnet 4.6 相当、对标 Opus 4,本周在 opencode 免费使用。

GLM-5 在 WeirdML 基准达 48.2%,超 Claude Sonnet 4.5

GLM-5 在 WeirdML 基准得分 48.2%,击败 Claude Sonnet 4.5,与 gpt-oss-120b 持平,为最佳开源模型,但落后 Opus-4.6(78%)和 gpt-5.2(72%)。

OpenClaw v2026.2.15 更新,长期任务成本降 40-70%

OpenClaw v2026.2.15 升级 Prompt 缓存、子代理轮询、工具批量执行、成本感知路由,token 消耗整体降低 40-70%,支持 Discord 交互组件。

Cursor 集成 Sonnet 4.6 模型和插件市场

Cursor 支持 Sonnet 4.6,长任务优于 Sonnet 4.5 但低于 Opus 4.6;推出插件市场,支持 Cloudflare、Figma 等一键集成。

Anthropic 模型内核优化速度提升 427 倍

Anthropic 模型从 Sonnet 3.7 的 7 倍加速,到 Opus 4.6 达 427 倍,时间线:2025 年 2 月 7x、5 月 72.65x、11 月 252.42x、2026 年 2 月 427x。

LlamaCloud 推出页面级文档提取功能

LlamaCloud Extract 支持从数百页文档提取结构化信息,提供页面归属、边界框引用、置信分数,无幻觉。适用于简历、发票等密集文档。

Cohere 发布 Tiny Aya 多语言小型模型家族

Cohere Labs 推出 Tiny Aya 系列(3.35B 参数),覆盖 70+语言,专注低资源语言。包含 tiny-aya-base 基座+4 区域优化变体(global/fire/earth/water),Apache 许可,支持笔记本离线运行,提供强大多语言性能。

Cloudflare 更新 AI 聊天 SDK

Cloudflare 发布@cloudflare/ai-chat@0.1,支持自动消息持久化、SQLite 存储、可恢复流式传输、WebSocket 实时同步及工具调用。

字节开源 BitDance AI 绘画模型

字节大年初一开源 BitDance,14B 参数,使用高压缩视觉分词器,每步扩散并行预测 64 个 Token,生成速度极快。模型链接:https://t.co/6FtVbAU4uk,GitHub:https://t.co/ux7k7xVvbA。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。