天眼早报
🤖 AI 大模型
𝕏 Qwen 发布 CoPaw 1.0 个人智能助手,支持本地或云端部署
Qwen 发布个人智能助手 CoPaw 1.0,支持本地与云端两种部署方式,重点升级了专用小模型定制、安全机制、多智能体协作与记忆管理能力,定位为可长期陪伴用户工作的个人 AI 助手。合并报道显示,其核心卖点集中在更强的 Agent 协同与更可控的个性化能力。
𝕏 Anthropic 的 Claude Code 因 source map 意外泄露 51.2 万行源码
Anthropic 闭源工具 Claude Code 因 npm 包中包含 source map 文件,导致约 51.2 万行源码被意外公开。尽管官方随后下架相关包,但社区已迅速进行分析、复刻,甚至尝试以 Python 重写以规避版权风险。事件引发了围绕闭源 AI 工具分发安全、源码保护、版权边界与开源伦理的广泛讨论,也暴露出 AI 开发工具链在打包与发布环节的安全隐患。
𝕏 Qwen3.5-Omni 新增音频视觉“氛围编码”,可将草图或视频直接转成网站代码
通义千问推出 Qwen3.5-Omni 的 Audio-Visual Vibe Coding 能力,可将白板手绘、草图视频或游戏录屏直接转化为可运行的网站代码,强调无需特定训练即可完成从视觉输入到前端产出的流程。该功能展示了多模态模型在“看懂场景—理解意图—直接生成代码”方向的进一步演进,降低了非专业用户进行网页原型开发的门槛。
阿里 Qwen3.5-Omni 转向 API 优先,未开放模型权重
阿里巴巴发布 Qwen3.5-Omni 后,未延续此前部分 Qwen 系列开放权重的做法,而是选择通过云平台提供 API 服务。该模型支持文本、音频、图像和视频等多模态处理,显示阿里在顶级多模态模型上更强调商业化交付与平台化运营。相关报道普遍将其视为从“开放权重优先”转向“API 优先”的策略变化,反映头部厂商在高端模型上的闭源趋势。
Google 推出 Veo 3.1 Lite 视频生成模型,价格最低降至 0.05 美元/秒
Google 发布 Veo 3.1 Lite,并已接入 Gemini API 与 Google AI Studio。该模型支持文生视频、图生视频,可生成 4、6、8 秒片段,涵盖 16:9、9:16 等画幅,支持 720p/1080p 输出,部分报道还提到音频生成能力。其 720p 起步价格低至 0.05 美元/秒,约为 Veo 3.1 Fast 的一半;Google 同时宣布自 4 月 7 日起下调 Veo 3.1 Fast 定价,进一步加剧视频模型的价格竞争。
🔶 微软为 Microsoft 365 Copilot Researcher 引入 GPT 起草、Claude 审校的双模型架构
微软升级 Microsoft 365 Copilot Researcher,采用“OpenAI/GPT 起草、Anthropic/Claude 审校”的双模型流程,以提升研究与长文任务的可靠性。多篇报道提到,该系统在 DRACO 百任务基准上得分约 57.4,较论文中的最佳系统提升约 13.88%。这一变化反映出企业级 AI 产品正从单模型调用转向多模型协同,以兼顾生成质量、事实性和审校能力。
𝕏 IBM 发布 Granite 4.0-3B-Vision,主打文档、表格与图表理解
IBM 推出 Granite 4.0-3B-Vision,面向文档视觉理解场景,重点覆盖表格、图表与复杂文档内容解析。报道显示,该模型支持 Transformers 与 vLLM 部署,并采用较为开放、免费的许可方式,便于企业在本地或私有环境中集成。其定位突出轻量视觉语言模型在文档处理、办公自动化和企业知识抽取中的实用价值。
𝕏 Ollama 切换至 Apple MLX,在 Apple Silicon 上提升本地模型运行速度
Ollama 更新后改为基于 Apple 的 MLX 框架,在 Apple Silicon 设备上进一步提升本地大模型运行效率。相关信息显示,这一变化尤其适合个人助手、编码代理等高频本地推理场景,有助于改善 Mac 端模型加载与执行性能。该更新反映出本地 AI 生态正持续围绕苹果芯片做深度优化。
🔵 OpenAI 完成 1220 亿美元融资,估值升至 8520 亿美元
多家媒体报道称,OpenAI 完成新一轮总额 1220 亿美元融资,投后估值达到 8520 亿美元,刷新公司历史纪录。报道普遍提到,亚马逊承诺 500 亿美元,英伟达与软银各投 300 亿美元;公司同时披露月营收约 20 亿美元、ChatGPT 周活跃用户超过 9 亿、订阅用户超 5000 万,部分报道还提到 API 吞吐达到每分钟 150 亿 token。资金预计将继续投入芯片、数据中心与高端人才,进一步加码 AI 基础设施竞争。
𝕏 PrismML 发布 1-bit Bonsai 模型,主打边缘端与低成本推理
PrismML 推出 1-bit Bonsai 方案,覆盖约 1.7B 至 8B 参数规模,基于 Qwen 3,并以 Apache 2.0 许可开放。多篇报道提到,该模型相较 bf16 可实现约 14 倍压缩、边缘端推理约 8 倍提速,8B 版本体积可压缩到约 1.2GB,瞄准低成本部署、端侧运行与商用可行性。该产品代表了 1 比特权重量化模型向实际应用进一步推进。
𝕏 微软据报新设高层岗位推进 OpenClaw 相关工作
有消息称,微软任命一位企业副总裁级别负责人专门推进 OpenClaw 相关工作,显示公司正在继续加码 AI 代理平台与相关基础能力建设。尽管公开细节有限,但该人事安排被解读为微软在代理式 AI、自动执行与平台级编排方向上的进一步组织投入。
𝕏 MiniMax 推出全模态 API 订阅方案,一个密钥覆盖多类生成能力
MiniMax 上线 All-Modality API Subscription,允许开发者通过单一 API 密钥访问代码、视频、语音、音乐与图像生成等多种能力。该方案意在降低多模态产品接入门槛,减少企业在多供应商、多接口管理上的复杂度,也表明平台型模型服务正向“一站式全模态调用”演进。
𝕏 Holo3 开源发布电脑操作模型,OSWorld-Verified 得分 78.9%
Holo3 发布新一代电脑操作模型,并同步开放权重与 API。官方称其在 OSWorld-Verified 基准上取得 78.9% 的成绩,高于 GPT-5.4 与 Claude Opus 4.6,同时成本仅约为后者的十分之一。相关报道将其视为开源计算机操作模型的重要进展,显示桌面任务执行、UI 操作与通用代理能力的竞争正在从闭源大厂扩展到开源生态。
𝕏 Text Arena 月榜更新:Claude Opus 4.6 继续排名第一
Text Arena 最新榜单显示,Claude Opus 4.6 继续位居首位。与此同时,Gemini-3.1 Pro、GPT-5.4 High 与 Grok-4.20 系列模型进入前十或取得靠前名次。榜单变化反映出头部通用模型在文本对话与综合推理能力上的竞争仍十分激烈,且不同厂商模型在 Arena 类公开评测中的位置持续变化。
𝕏 Grok 4.20 Multi-Agent Beta 进入多项 Arena 榜单
Grok 4.20 Multi-Agent Beta 进入多项 Arena 榜单,在 Search Arena 排名第 7、Text Arena 排名第 11、Vision Arena 排名第 22。相关信息还提到,该模型在医疗、数学、法律等更高难度任务中的相对排名更突出。该结果显示,多智能体结构正在帮助模型提升复杂任务表现,并逐渐进入主流公开评测视野。
𝕏 Shopify 据称将部分推理任务从 GPT-5 切换至 Qwen 3.5,称成本可节省 99%
有转述消息称,Shopify 已将部分推理任务从 GPT-5 切换到 Qwen 3.5,并声称可节省约 99% 成本。尽管信息细节有限,但这一案例被广泛解读为企业在实际部署中开始更强烈地权衡性能与成本,并可能将部分非核心或结构化任务迁移到更具性价比的模型上。
Google Research 发布 AI 基准复现与评测设计方法,聚焦主观任务的可靠性
Google Research 发布新的 AI 基准评测设计方法与框架,重点讨论主观任务评测中题目数量、标注者人数以及人工评分配置对结果稳定性的影响。相关文章强调,应在成本、方差和结论可靠性之间取得平衡,以提升 AI 基准的可复现性与统计有效性。这类工作有助于缓解当前模型评测中“榜单波动大、重复实验难一致”的问题。
💹 澳大利亚与 Anthropic 签署国家 AI 计划下首份谅解备忘录
澳大利亚政府依据国家 AI 计划与 Anthropic 签署首份高层谅解备忘录,合作重点包括能力建设、负责任创新、吸引投资以及安全治理。该协议被视为政府与前沿模型公司建立制度化合作的重要案例,反映出国家层面对 AI 产业发展与安全监管并行推进的趋势。
𝕏 Google 为 Gmail 推出 AI Inbox 测试版,提供邮件优先级与每日摘要
Google 在 Gmail 中推出 AI Inbox 测试版,功能包括智能邮件优先级排序和个性化每日简报,首批向美国 Google AI Ultra 订阅用户开放。该功能旨在减少用户处理邮件的认知负担,将生成式 AI 进一步嵌入日常办公流。其定位并非单纯写邮件,而是对收件箱进行主动整理与信息提炼。
💹 苹果测试新版 Siri,可在一次请求中处理多项指令
据报道,苹果正在测试新版 Siri,使其能够在单次查询中处理多个请求,计划作为 iOS 27、iPadOS 27 和 macOS 27 的一部分推出。该升级意味着 Siri 正从单轮、单意图响应走向更接近复合任务执行的交互模式,也是苹果补强语音助手实用性的关键一步。
𝕏 Anthropic 新模型 Capybara/Mythos 引发模型人格化讨论
开发者社区围绕 Anthropic 新模型 Capybara/Mythos 的拟人化表现展开讨论,关注点包括角色一致性、语言风格稳定性以及用户对“人格感”的主观感知。该话题并非正式产品发布,而是对前沿模型交互特征的观察,折射出模型在情感表达与身份投射层面的新趋势。
𝕏 GPT-OSS 20B 在对比测试中超过 Qwen3 30B,说明参数规模并非表现保证
一项对比结果显示,gpt-oss:20b 在相关测试中优于 qwen3:30b。该观察再次说明,模型参数规模并不必然决定任务表现强弱,训练数据、架构设计、推理策略与任务匹配度都可能显著影响最终成绩。此类案例对企业和开发者的模型选型具有现实参考价值。
𝕏 Perplexity 发布 4B 嵌入模型,在 ConTEB 检索基准上超过 Voyage 与 Anthropic
Perplexity 表示,其 pplx-embed-context-v1-4B 在 ConTEB 检索基准上取得 79.45% 成绩,超过 Voyage 与 Anthropic 的相关模型。该结果显示 Perplexity 正持续扩展从搜索到底层检索组件的能力版图,并试图在高质量嵌入与长上下文检索场景中建立竞争力。
𝕏 Perplexity 此前发布两款嵌入模型,主打大规模文档检索
Perplexity 此前推出两款 Embedding 模型,宣称面向 3000 万以上文档的大规模检索场景,并在多项基准中取得领先。与其后续 4B 嵌入模型进展相互呼应,这表明 Perplexity 正持续强化检索基础层能力,而不只停留在面向终端用户的搜索产品。
JetBrains 推出 AI 代理治理平台 Central,强调企业需提前应对 ROI 风险
JetBrains 发布 AI 代理治理平台 Central,旨在解决企业在引入 AI 代理后面临的治理、监控与执行问题。报道指出,JetBrains 高管将当前企业 AI 部署阶段类比为早期云计算时代,认为行业正面临 ROI 危机,若缺乏监控与治理机制,成本可能迅速失控。该平台聚焦的不是单一模型能力,而是企业级 AI 代理的可管理性。
Cohere 发布 Transcribe,进入企业级语音识别与转写市场
Cohere 发布 Transcribe 服务,将其多模态能力扩展到企业级语音识别和转写场景。此举意味着 Cohere 不再局限于文本生成与企业大模型服务,而是进一步补齐语音入口,服务会议记录、客服质检、内容归档等实际业务需求。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。