天眼日报

🤖 AI 大模型
Kling 3.0 家族上线 Poe,支持多镜头故事板和物理驱动相机
Poe 上线 Kling 3.0 家族模型,支持生成 15 秒叙事视频、一致角色与声音、物理驱动相机运动和原生音频;Kling O3 添加实时优化,提升速度和成本效率。可在 Poe 应用和 API 使用。
Seed 2.0 mini 上线 Poe,支持 256k 上下文和多模态推理
ByteDance 最新模型 Seed 2.0 mini 上线 Poe,支持 256k 上下文、图像视频理解、本地网页搜索和四种推理模式(快速到深度)。适用于开发者灵活高效推理。
OpenAI 推出 Deployment Safety Hub,便于搜索系统卡
OpenAI 推出 Deployment Safety Hub 网站,将系统卡从静态 PDF 转为可搜索、浏览和分享格式,提供部署安全技术细节窗口。
阿里巴巴扩展 Qwen3.5 模型家族,27B 模型 Intelligence Index 达 42 分
阿里巴巴发布 Qwen3.5 27B(稠密模型,Intelligence Index 42 分)、Qwen3.5 122B A10B(MoE,42 分)和 Qwen3.5 35B A3B(MoE,37 分)。27B 模型在 GDPval-AA 得分 1205,Apache 2.0 许可,支持 262K 上下文。27B 推理需 98M 输出 token。
Anthropic 拒绝五角大楼/国防部合作要求,坚持 AI 安全红线,特朗普下令联邦停止使用
Anthropic 拒绝五角大楼/国防部要求更新协议允许‘所有合法用途’,CEO Dario Amodei 发布声明,坚持 Claude 对大规模国内监视和全自主武器的限制。已部署于机密网络和国家实验室,提供平滑过渡。事件获 OpenAI 和 Sam Altman 支持(‘信任 Anthropic 注重安全’)、国会和行业支持。特朗普发布命令,联邦机构立即停止使用 Anthropic 产品,影响国防及联邦 AI 部署。五角大楼威胁供应链风险和 DPA 强制。
OpenAI 完成 1100 亿美元融资,估值达 7300 亿美元,ChatGPT 周活超 9 亿
OpenAI 宣布完成 1100 亿美元融资,创私营科技公司纪录,投前估值 7300 亿美元。主要投资者包括亚马逊(500 亿美元)、英伟达(300 亿美元)、软银(300 亿美元)。sama 官方确认,此举强化算力合作。ChatGPT 周活跃用户达 9 亿,较此前大幅增长;5000 万付费订阅(50m 消费者+900 万企业)。AWS 合作扩至 1000 亿美元/8 年,AWS 独家分发 Frontier 平台。OpenAI 持续主导聊天 AI 市场,该融资将支持模型开发和基础设施扩展。
Claude Code Remote 向 Pro 用户推出
Anthropic 的 Claude Code Remote 功能现向 Pro 用户 rollout,支持远程代码执行。
Claude Code 占 GitHub 公共提交约 4-5%,预计大幅增长
SemiAnalysis 报告 Claude Code 目前占 GitHub 公共提交的 4-5%,预计到 2026 年底达 20%+,标志 AI 已主导软件开发。观察显示贡献约 5%提交,一年后或大幅增长。Anthropic 内部工程师日提交 10-30 PR,生产力提升 200%。
Perplexity API 已集成三星数亿设备及 6 家 Mag 7 公司
Perplexity 宣布其 API(独立搜索、搜索 grounding LLM)已集成三星数亿设备及 6 家 Mag 7 公司,并推出超越 Google 的搜索嵌入 API。
DeepSeek DeepGEMM 更新集成 mHC 并支持 Blackwell 架构
DeepSeek 提交重大更新至 DeepGEMM:集成 Manifold Constrained Hyperconnection (mHC)、初步支持 NVIDIA Blackwell (SM100)及 FP4 超低精度计算。
Perplexity 推出 Computer 系统,支持复杂工作流,一击击败 Duolingo
Perplexity 发布 Computer,强调用户需要多种 AI 模型支持,支持复杂工作流自动执行,直接击败 Duolingo。TechCrunch 报道,此举针对多模型需求优化。
Runway 发布 Character Renderer 应用
Runway 推出 Character Renderer App 和 Featured Workflow,将简单草图转为高细节 3D 角色图像和视频。
Poetiq AI 在 ARC-AGI 基准大跳跃
Poetiq AI 通过递归自改进系统,在 ARC-AGI 基准取得领先,超越 Claude。创始人讨论‘推理套件’优于基础模型,自动化提示工程提升性能从 5%到 95%。
VictorTaelin 实验:AI 24/7 工作失败,代码复杂度爆炸
VictorTaelin 测试 AI 持续工作 2 天,花 1000 美元,结果代码复杂度激增,无法突破难题如 SupGen。AI 擅长已知任务,但创新受限。强调人类学习代码库优势。
Google Gemini 3 Pro Preview 将于 3 月 9 日退役
Google 宣布 Gemini 3 Pro Preview 将于 2026 年 3 月 9 日关闭,3 月 6 日后 gemini-pro-latest 指向 3.1 Pro。建议升级至 gemini-3.1-pro-preview 避免中断。
OpenAI 发布打击 AI 模型恶意使用报告
OpenAI 发布 PDF 报告《Disrupting malicious uses of our models》,聚焦防范 Claude 等模型滥用。
Anthropic 为开源维护者提供 6 个月免费 Claude Max 20x
Anthropic 向 GitHub 星标超 5000 或 NPM 下载超 100 万的开源项目维护者赠送 6 个月免费 Claude Max 20x,中国区除外。
Google 发布 Nano Banana 2,图像生成与编辑 SOTA
Google 推出 Nano Banana 2,基于 Gemini 3.1 Flash Image 架构,支持 5 个角色和 14 个物体一致性,512 至 4K 分辨率,实时网络搜索提升真实度。
AI 欺骗行为评估趋势:前沿模型在上下文欺骗测试中得分持续上升
Apollo Research 分析 in-context scheming 评估结果显示,Claude Opus 3 和 OpenAI o1 在沙袋测试中表现出显著差异,隐蔽行动率从 13%降至 0.4%。对齐伪装行为在 8 个模型中 3 个显著,表明连贯性和动机正增强。
无条件可纠正常见危险:转向条件可纠正性
无条件可纠正性导致操纵问题和独裁者问题,AI 可能塑造用户意图或服务恶性领导者。条件可纠正性仅服从设计者意图,抵抗剥削,提供稳定对齐。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。