天眼日报

🤖 AI 大模型
Anthropic CEO 拒绝五角大楼要求,坚守拒绝大规模监控和自主武器
Anthropic CEO Dario Amodei 发布声明,拒绝 Department of War 要求移除 Claude 模型对大规模国内监控和完全自主武器的防护措施。公司广泛部署于国防任务,但强调这些用途超出技术安全边界,并面临供应链风险标签和国防生产法强制威胁。
Anthropic Claude 聊天机器人日注册量自 11 月以来增长 3 倍
Anthropic 报告 Claude 聊天机器人日注册量自 11 月增长 3 倍,付费用户自 10 月增长 2 倍以上,免费用户自 1 月增长 60%,旨在加强消费者业务。
Together 开源 CoderForge-Preview 数据集,提升 SWE-bench 23.0%→59.4%
Togethercompute 开源 CoderForge-Preview 数据集,含 25.8 万编码代理轨迹(15.5 万通过、10.3 万失败)。用通过子集微调 Qwen3-32B,SWE-bench Verified 从 23.0%升至 59.4% pass@1,在≤32B 开源模型中排名第一。该数据集为最大公开编码代理数据集,用于验证编码能力,对 Qwen-3 32B 微调后在 SWE-Bench 得分提升 23%,达到同级别第一。
Anthropic 为开源维护者提供 6 个月免费 Claude Max 20x
Anthropic 宣布为开源项目维护者和核心贡献者提供 6 个月免费 Claude Max 20x 使用权,申请链接已开放。
Perplexity 推出 Nano Banana 2 图像生成模型
Perplexity 在 Perplexity Computer 上发布 Nano Banana 2,文本渲染领先 Nano Banana Pro 60+分,支持精确排版和品牌视觉生成。
Martian 发布最大规模编码基准,评估 AI 代理代码审查
Martian 推出史上最大编码基准,评估 20 万+代码变更,使用双层评估系统(离线+在线)防止作弊,已开源。
Claude 新增自动记忆功能
Anthropic 为 Claude 推出自动记忆特性,支持跨会话记住项目上下文、调试模式和偏好方法,无需手动记录。文档详见 https://t.co/c7PyGaukNQ。
Arena 推出多文件 React 应用排行榜
Code Arena 新增多文件 React 应用排行榜,测试跨文件协调、组件架构、状态管理和构建可靠性,与单文件 HTML 测试区分。
Perplexity 发布 pplx-embed 嵌入模型系列
Perplexity 推出 pplx-embed-v1 和 pplx-embed-context-v1,基于 Qwen3,参数 0.6B 和 4B,支持 INT8 量化,MIT 许可,在 Hugging Face Hub 可用,优于 Google 和 Alibaba,针对 RAG 和搜索场景验证。
Claude Opus 4.6 登顶 Search Arena 榜首
Anthropic 的 Claude Opus 4.6 得分 1255,领先 Grok-4.20-beta1 和 GPT-5.2 达 30 分,Sonnet 4.6 排名第 7,在文本、代码和搜索领域全面第一。
Claude 免费计划新增 150+连接器
Anthropic 的 Claude 免费计划现支持 150+连接器,覆盖编码、数据、设计、金融、销售等领域,即刻可用。
Qwen3.5 系列支持 4 位量化及超长上下文
Alibaba Qwen 的 Qwen3.5-27B 支持 800K+上下文,Qwen3.5-35B-A3B 在 32GB VRAM 消费级 GPU 上超 1M 上下文,Qwen3.5-122B-A10B 在 80GB VRAM 服务器上超 1M 上下文,已开源 Base 模型。
Google 发布 Nano Banana 2 图像模型,登顶 Image Arena 榜首
Jeff Dean 宣布 Nano Banana 2 上线,图像生成能力更强,Image Arena 排名第一,支持实时生成,用户可在 Gemini 和 Google AI Studio 立即体验。
Figma 集成 OpenAI Codex,实现代码与设计无缝转换
Figma 与 OpenAI 合作,支持 Codex 生成设计文件,并在 Figma 中协作后回传代码,实现代码-设计-代码闭环流程。
Claude 消费者用户过去 6 周增长 2.2 倍
Claude 周活跃用户达 7900 万,较 6 周前增长 2.2 倍,增速为 Gemini 和 ChatGPT 的 3-6 倍。
Inception Labs 发布 Mercury 2 推理扩散模型
Inception Labs 推出 Mercury 2,首个推理语言和代码扩散模型,速度 10 倍更快、性价比最高。
SkyReels-V4 多模态视频生成模型发布
SkyReels-V4 支持视频-音频生成、内绘画和编辑,基于多模态架构,提供完整功能演示。今日开源,适用于视频内容创作。
PrunaAI 推出 P-Video 视频模型,10 美分 10 秒视频
PrunaAI 的 P-Video 生成 10 秒视频仅需 10 美分,首 24 小时免费,Text-to-Video 得分 1178,Image-to-Video1199,跻身 Video Arena 前 26。
Sakana AI Labs 与 Datadog 宣布战略合作
Sakana AI Labs 与 Datadog 合作,聚焦高效、可扩展 AI 模型研究,共同推进企业级 AI 系统部署,包括联合研究、开源贡献和新市场策略。
Google 今日发布 Gemini 3.1 Flash Image Preview
Google 将于今日发布 Gemini 3.1 Flash Image Preview,支持图像预览功能。
MiniMax 发布 MaxClaw 平台结合 OpenClaw 与 M2.5 模型
MiniMax 推出 MaxClaw,集成 OpenClaw 代理框架、M2.5 模型,支持 Telegram 等 24/7 运行,内置 Expert 生态和 1w+公开模板。
Claude Sonnet 4.6 发布,支持 100 万 token 上下文与计算机使用升级
Anthropic 推出 Claude Sonnet 4.6,性能接近 Opus 4.6,定价更低;beta 版支持 100 万 token 上下文。提升代理工具、代码分析、金融文档处理,用户偏好其上下文感知与少幻觉。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。