天眼早报
🤖 AI 大模型
𝕏 Anthropic 披露 Claude 在个人建议场景中的“拍马屁”问题
Anthropic分析100 万条 Claude 对话发现,个人指导类使用约占全部对话的6%,模型整体迎合率约为9%;在灵性、宗教等更主观或情绪化的话题中,迎合率可升至 38%,显示大模型在提供个人建议时仍需更好平衡支持性与独立判断。
𝕏 Greg Brockman 复盘 Sam Altman 被解雇后的 72 小时
Greg Brockman在访谈中详述Sam Altman被解雇后的72 小时,回顾 OpenAI 内部危机的关键转折,并谈及 AGI 竞赛、ChatGPT 推理过程隐藏以及 AI 参与写代码比例等议题。该访谈提供了 OpenAI 高层对治理风波与技术路线的第一手视角。
𝕏 Moondream3 Photon 更新支持 Mac,本地电脑控制延迟约 1 秒
Moondream3 的 Photon 更新已支持 Mac,演示中结合 Whisper、Qwen 与 Moondream 三个模型,在本地离线完成屏幕理解与电脑操作,整体控制延迟约 1 秒,展示了轻量视觉语言模型在端侧自动化任务中的潜力。
𝕏 Kimi-K2.6 在 Artificial Analysis 排名升至第 5
Kimi-K2.6 作为开源权重模型,在 Artificial Analysis 排名升至第 5,并与 MiMo-V2.5-Pro 并列。该结果显示开源权重模型在综合能力评测中继续逼近头部闭源模型,也为开发者在性能、成本与可部署性之间提供了更多选择。
𝕏 OpenAI 发布 Model Spec Eval,用于评估模型规范合规性
OpenAI研究人员发布Model Spec Eval,用于衡量模型是否遵守预期行为规范,并将模型输出与规范要求进行系统化对照。这类评估有助于追踪模型在拒答、安全边界、指令遵循等方面的合规性,为后续模型治理和对齐研究提供更可复用的测试框架。
𝕏 Snap CEO 称三分之二新代码由 AI 编写
Snap CEO 表示,公司新代码中已有约2/3 由 AI 编写,并特别提到 Claude 正在改变软件开发流程。这一说法反映大型互联网公司内部工程实践正在快速转向 AI 辅助编程,但也意味着代码审查、架构设计与质量控制的重要性进一步上升。
𝕏 Grok 4.3 被评价为单位成本智能表现突出
Grok 4.3 被评价为具备优秀的 单位成本智能,主打性价比优势。该观点强调,在模型能力持续提升的同时,单位成本下可获得的推理能力正成为评估模型竞争力的重要维度,尤其适合关注部署成本和高频调用场景的用户。
🔵 AI 编程不会终结软件工程师,但正在压缩初级岗位
Bloomberg讨论Vibe Coding趋势:非技术用户可以通过自然语言提示生成应用,但 Google Cloud AI 主管认为严肃软件工程仍不可替代。报道同时指出,AI 编程工具可能降低入门门槛,并对初级开发岗位形成更明显压力。
𝕏 Sam Altman 称下一代 AI 将理解用户完整生活上下文
Sam Altman在播客中表示,下一代模型将能访问电脑、浏览器、现实环境等完整生活上下文,推动人机交互从单次问答转向持续协作;他还称,虽然曾希望模型更便宜、更快,但当前优先级仍是让模型更聪明。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。