天眼日报

🤖 AI 大模型
MiniMax M2.5 发布,SWE-Bench Verified 达 80.2%
MiniMax 推出 M2.5 开源权重模型,SWE-Bench Verified 得分 80.2%,Multi-SWE-Bench 达 51.3%,首位超 80%门槛。输入价 0.30 美元/百万 token,输出 1.20 美元/百万 token,性能媲美 Opus 4.6 和 GPT 5.2,支持代理工具如 Word/Excel。
Ollama 支持子代理、Claude Code 中的网页搜索及 Anthropic 兼容层
Ollama 新增 Claude Code 子代理功能,支持并行任务如文件搜索、代码探索和研究,无需 MCP 服务器或 API 密钥。集成网页搜索,模型如 minimax-m2.5 可自动触发。命令:ollama launch claude --model minimax-m2.5:cloud。网页搜索现内置 Anthropic 兼容层,模型需实时信息时自动搜索并返回结果,支持子代理并行研究,如 PostgreSQL 18 发布笔记审计或竞争对手定价分析。
OpenAI Codex 周活跃用户 1.5 个月增长 3 倍
OpenAI Codex 周活跃用户 1.5 个月内增长 3 倍,内部 95% 工程师用于软件开发,由产品工程负责人 Sherwin Wu 透露。
Kimi K2.5 8 家提供商基准测试
Moonshot AI Kimi K2.5 在 Artificial Analysis 指数得分 47,Baseten 输出速度 344 tokens/s 最快,DeepInfra 输入 $0.45/M 输出 $2.25/M 最便宜,支持 256k 上下文。
通义千问 Qwen3.5 Plus 登 Vals Index 开源权重榜第 3
Alibaba 发布的 Qwen3.5 Plus 在 Vals Index 开源权重榜排名第 3,整体前十。评估显示模型有严格内容防护,常因输入或输出不适而拒绝回答。全评估结果即将发布。
Qwen3.5-Plus 上线 Poe,支持 100 万 token 上下文
通义千问发布 Qwen3.5-Plus,采用混合线性注意力与稀疏 MoE 架构,支持 1M token 上下文窗口,提升长上下文多模态推理和 Agent 工作流能力,与 GPT-4o 等领先模型相当。现已在 Poe 平台可用,支持多模态处理。
阿里 Qwen Qwen3.5-397B-A17B 在 OpenRouter 正式上线
Alibaba_Qwen 官方宣布 Qwen3.5-397B-A17B 在 OpenRouterAI 上线,支持生产级工作负载,已集成 GLM-5、MiniMax M2.5 和 Kimi K2.5 等前沿模型。
港大数据实验室 发布 ClawWork:AI 模拟经济赚钱测试平台
ClawWork 通过模拟经济环境测试 OpenClaw 和 Nanobot 等 AI 代理,7 小时内完成 44+ 行业任务赚取 1 万美元,基于 GDPVal 数据集包含 220 个跨职业任务。
CogRouter:动态调整 LLM 代理推理深度框架
CogRouter 框架基于 ACT-R 认知理论,在每个决策步骤动态调整 4 级认知深度。7B 参数模型在代理基准上成功率达 82.3%,优于 GPT-4o 且令牌消耗减少 62%。
Claude Code 9 个月 AI 编码工作流总结
使用 Claude Code 工作流分 4 阶段:Research 深度阅读代码库写 research.md;Plan 生成 plan.md;Annotate 循环 1-6 次注释迭代;Implement 标准化执行。强调思考与执行分离,注入人类判断。
Arena 上线 Qwen3.5-397B-A17B,支持文本视觉代码
阿里开源 Qwen3.5-397B-A17B,在 Arena 测试文本、视觉、代码能力,用户可投票更新排行榜,支持真实 Web 开发任务。
智谱 GLM-5 上线 4 天算力爆满,全网招算力合伙人
智谱 AI GLM-5 上线 4 天算力耗尽,字节即梦 2.0 排队 8 小时,Claude 极速模式涨价 6 倍,AWS 机器学习容量块服务涨价 15%,多家云商跟进 30-40%。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。