天眼日报

🤖 AI 大模型
本地 LLM 运行基础教程:从推理到 Transformer 架构详解
TheAhmadOsman 分享本地 LLM 入门指南,覆盖 token 化(BPE/SentencePiece)、推理过程(预测下一个 token)、Transformer 架构(自注意力、MLP、RoPE)、量化(4-bit NF4/GPTQ 节省 VRAM 至 7B 模型 3.5GB)、KV 缓存(每 token 0.5MB)和运行时(llama.cpp、vLLM)。强调 VRAM 瓶颈和调试常见坑。
MiniMax 新模型媲美 Opus 4.6,支持 Claude 和 Pi 代理
MiniMax_AI 模型获早期访问反馈,与 Claude Opus 4.6 性能相当,支持 Claude 和 Pi 代理本地工作流,无任务问题。
Ollama 云端 GLM-5 容量提升,支持 Claude 和 OpenClaw
Ollama 升级 GLM-5:cloud,容量增加速度更快,支持 Claude 和 OpenClaw 全尺寸模型工具调用。
PicoClaw:10 美元硬件运行类 OpenClaw,仅 10MB 内存
aigclink 发布 PicoClaw,用 Go 重构 OpenClaw 核心,节省 99%内存,0.6GHz 单核 1 秒启动,支持全栈开发/日志/搜索,兼容 Telegram/Discord/QQ。
Ant 开源 LLaDA2.1 Flash 模型,推理速度达 892 tokens/s
Ant Open Source 发布 LLaDA2.1 Flash,100B 参数语言扩散 MoE 模型,峰值速度 892 tokens/s,超越 Qwen3-30B-A3B 2.5 倍。采用“草稿后编辑”机制,支持 Speedy Mode 和 Quality Mode 双模式。
PixVerse-R1 实时交互世界生成,720P 1-4 步采样
PixVerse 推出 R1,实时 720P 交互世界,Instantaneous Response Engine 将采样减至 1-4 步,管道重组实现近即时响应。
Agentica 在 ARC-AGI-2 基准创下 85.28%新 SOTA
Agentica 代理使用 350 行代码撰写并运行代码,在 François Chollet 的 ARC-AGI-2(最难基准)达到 85.28%,通用系统非专为 ARC 优化。
智谱 AI 开源 GLM-5 旗舰模型,Coding 与 Agent 能力开源 SOTA,全球排名第 4
智谱 AI 于 2026 年 2 月 12 日正式开源 GLM-5(744B 参数,活跃参数 40B),预训练数据达 28.5T,采用 Slime 框架和异步强化学习。在 Artificial Analysis Intelligence Index 得分 AA=50,全球排名第 4、开源模型第 1;SWE-bench 得分 77.8%(开源 SOTA),Terminal-Bench 2.0 得分 56.2 提升 9%,Finance Agent Benchmark 开源第 1。擅长代理工程、长时序任务如 BrowseComp 和 MCP-Atlas,前端/后端开发领先,逼近 Claude Opus 4.5。以 MIT 许可证完全开源,已适配昇腾、摩尔线程等 10 余款国产芯片。比 GLM-4.7 输入涨 67%、输出涨 45%,GLM-5-Code 输入涨 100%、输出涨 127%。上线 ModelScope 魔搭平台免费试用、Poe 平台。编程套餐调价:Lite/Max 订阅提高,Max 月费 469 元或 80 美元,季度折 10%、年度 30%。
OpenRouter 周令牌消耗达 12.1 万亿,同比增长 12.7 倍
OpenRouter 周消耗 12.1 万亿 token(年化 662 万亿),相当于 Azure 全部推理量,过去一年增长 12.7 倍。
字节跳动豆包上线 Seedance 2.0 视频生成模型,支持实时视频理解
字节跳动豆包(Doubao)在 App、桌面和网页端推出 Seedance 2.0 视频生成模型,支持低门槛提示词生成高质量视频,速度更快、积分消耗更少;Seedance 2.0 Fast 略微牺牲效果换取效率。接入豆包 App/电脑端/网页版,已在快手万擎竞猜活动提供 192 次用量。即梦平台上线 Seedance 2.0 Fast。支持 100 万 token 上下文、实时视频理解、API 降价 50%。马斯克评论‘发展太快’,贾樟柯称准备用其做短片。
OpenAI 发布 Shell+Skills+Compaction 构建长运行智能体组件
OpenAI 推出 Shell(命令行环境)、Skills(复用指令包)和 Compaction(上下文压缩),支持长时稳定工作流;附 10 个技巧如技能路由、负面示例、网络白名单,构建模式从数据处理到企业 SOP。
小米开源 47B 机器人 VLA 大模型 Xiaomi-Robotics-0
小米开源 Xiaomi-Robotics-0,47 亿参数 VLA 模型,支持视觉语言理解和实时执行;基于 Qwen3-VL-4B-Instruct,用于机器人应用。
Cursor 提升 Composer 1.5 和 Auto 使用限额
Cursor 宣布 Composer 1.5 成为第二受欢迎模型,增加容量并提高所有个人计划限额:Composer 1.5 使用量为 Composer 1 的 3 倍,至 2 月 16 日限时提升至 6 倍。个人计划用户 Auto 和 Composer 1.5 限额提升。
MiniCPM-SALA 9B 模型发布,支持 1M 上下文
面壁智行/面壁智能发布 MiniCPM-SALA,9B 参数,采用稀疏线性注意力混合架构 SALA,在 256K 上下文推理速度比 Qwen3-8B 快 3.5 倍,支持边缘 GPU 1M 上下文,优化文本生成。
OpenAI Codex CLI 本地代理循环详解
Codex CLI 采用 agent loop 架构,支持 Responses API,包含 shell、plan 工具。prompt caching 优化性能,compaction 管理上下文窗口。提供 Java/Python 工程化清单:prompt 日志化、工具排序稳定、权限沙箱。
ContextMATH:LLMs 在数学中的抽象到上下文推理差距
ContextMATH 基准重构 AIME 和 MATH-500 问题,61 个模型评估显示开源模型在场景 grounding 上下降 13 分、复杂度缩放 34 分,专有模型 13 和 20 分,错误主要为问题表述不准。
World of Workflows:将世界模型带入企业系统的基准
WoW 基于 ServiceNow 环境含 4000+业务规则和 55 工作流,WoW-bench 含 234 任务,揭示前沿 LLM 动态盲视导致约束违反。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。