天眼早报
🤖 AI 大模型
𝕏 小米发布 MiMo-V2.5 系列模型,旗舰版面向复杂工程与智能体任务
小米正式发布MiMo-V2.5系列模型,旗舰版MiMo-V2.5-Pro在复杂工程任务与智能体评测中表现突出。综合信息显示,其基准成绩包括 SWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9,并支持100 万 token上下文与原生多模态;另有案例称其可在 4.3 小时内完成原本需数周开发的 Rust 编译器任务,且 token 成本较竞品节省 40%-60%,并确认将于近期全球开源。
𝕏 OpenAI 发布 Workspace Agents,支持 ChatGPT 跨工具执行复杂工作流
OpenAI正式推出Workspace Agents,让ChatGPT能够在 Linear、Slack 等外部工具间自动执行任务,处理跨团队、跨系统的复杂工作流。该功能面向 Business/Enterprise/Edu 用户开放研究预览,支持创建工单、更新文档、回复协作消息以及长时任务自动化,进一步将 ChatGPT 从单轮助手扩展为企业工作区中的可共享智能体。
𝕏 OpenAI GPT-Image-2 在 Image Arena 盲测中取得 93% 胜率并登顶
OpenAI发布的GPT-Image-2在 Image Arena 盲测中拿下93%胜率,并以 +242 分跃升图像榜首。相关信息还指出,它对 Nano-Banana-2 胜率达 86%,对前代 GPT-Image-1.5 胜率为 92%;同时支持原生网格编辑、等距柱状投影全景图等能力,显示其在图像生成与编辑上的显著提升。
𝕏 Qwen3.6-27B 正式开源发布,27B 稠密模型主打高性能代码与多模态推理
阿里 Qwen正式发布开源模型Qwen3.6-27B,采用27B 稠密参数与Apache 2.0许可,支持思考/非思考双模式,并覆盖代码、文本及多模态推理场景。官方称其在多项主流代码基准上超过 Qwen3.5-397B-A17B,同时具备紧凑部署优势,相关表述还提到可在单张高端消费级显卡上高效运行,突出“小参数高性能”的定位。
OpenAI 开源 Privacy Filter,用于多语言 PII 检测与文本脱敏
OpenAI发布开源Privacy Filter,这是一款面向文本PII 检测与脱敏的轻量模型,支持128k 上下文、多语言处理,并提供 Transformers 与 ONNX 权重,采用 Apache 2.0 许可。多条信息显示其可识别姓名、邮箱、地址、电话、账号、密钥等多类敏感信息,并支持本地运行与定制微调,适合隐私过滤、日志清洗和端侧脱敏等场景。
𝕏 Google 正式发布 Gemini Embedding 2,支持原生多模态统一嵌入
Google宣布Gemini Embedding 2正式发布并商用,已接入Gemini API和Vertex AI。该模型被描述为首个原生多模态嵌入模型,支持文本、图像、视频、音频及 PDF 等多种输入形态;单次请求可处理8,192 tokens,并可原生理解120 秒视频与6 页 PDF,用于提升检索、推荐和上下文理解能力。
𝕏 GPT Image 2 已在 OpenRouter 上线,生成能力与速度继续升级
GPT Image 2已在OpenRouter上线,结合更强的提示词优化与图像生成工具链,被认为在应用图标设计和视频生成相关任务上表现突出。该条信息更侧重模型分发渠道与可用性更新,与竞技场成绩属于不同维度。
𝕏 Kimi K2.6 在 Hermes Agent 提供 24 小时免费体验
Kimi K2.6已通过Hermes Agent平台提供24 小时免费试用,开发者可通过更新Nous Portal直接调用。相关描述称,其实测表现介于Gemini 3 Flash与GPT 5.1之间,方便用户快速体验其代码与推理能力。
𝕏 Kimi K2.6 在重度代理任务中实测优于 Opus 4.7
实测显示Kimi K2.6在三个重度代理任务中全部完成,而Opus 4.7未能完成。测试还指出,Kimi 虽然耗时更长,但成本仅为对手的约十分之一,体现出其在复杂代理执行场景中的性价比优势。
𝕏 Google 披露 AI 使用规模:客户 API 调用已达每分钟 160 亿 token
Google Cloud披露其 AI 业务使用数据:约75%客户已使用其 AI 产品,过去 12 个月有330 家客户各自处理超 1 万亿 token,其中35 家达到 10 万亿 token 里程碑。与此同时,Sundar Pichai表示 Google 第一方模型经客户直接 API 调用已达160 亿 token/分钟,较上季度的 100 亿 token/分钟明显增长。
𝕏 Google 推出 Gemini Enterprise Agent Platform,用于企业级智能体构建与治理
Google Cloud发布Gemini Enterprise Agent Platform,整合 Vertex AI、Agent Studio、Model Garden 及安全治理能力,面向企业构建、扩展、治理和优化大规模智能体。该平台强调企业级部署与运维能力,目标是帮助组织在统一框架下管理成千上万个代理。
𝕏 ModelScope 上线 Qwen3.6-27B,并同步开放 Day-0 训练服务
ModelScope已上线Qwen3.6-27B,除提供模型权重下载外,还在发布当日同步开放SFT/DPO/GRPO等训练服务,方便开发者和企业快速进行微调、对齐与实验。这条信息聚焦的是模型生态接入与训练支持,而非模型本体发布。
𝕏 Google 更新 Gemini Enterprise,新增 Canvas、智能体收件箱与可复用 Skills
Google更新Gemini Enterprise,新增智能体活动收件箱、Canvas 文档与幻灯片编辑,以及可复用 skills,进一步强化企业办公自动化与知识协作体验。这是一项产品功能增强,和企业级智能体平台发布应分开看待。
𝕏 vLLM 宣布对 Qwen3.6-27B 提供首日支持
vLLM宣布对Qwen3.6-27B提供Day-0 支持,并给出相应推理配方,帮助开发者在模型发布后第一时间完成部署与推理接入。这一进展体现的是基础设施生态对新模型的快速兼容,利于本地和服务端推理落地。
𝕏 DeepSeek App 升级至 2.0 版本,或为后续新功能铺路
DeepSeek应用版本从1.8.6跃升至2.0。现有信息主要聚焦版本号变化,市场猜测这可能是在为后续 V4 相关能力或更大功能更新预作准备,但尚无更完整的官方功能细节披露。
𝕏 Kimi-K2.6 在 PencilPuzzleBench 上较 K2.5 有明显提升
Kimi-K2.6在PencilPuzzleBench上相比 K2.5 出现明显改进,显示其在推理、解谜与结构化思考类评测上的持续增强。这是一条偏基准进展的信息,说明模型版本迭代带来的能力提升。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。