天眼晚报
🤖 AI 大模型
𝕏 Anthropic 发布 Claude 提示词工作坊,揭露 6 大核心要素
Anthropic 应用 AI 团队公开 24 分钟工作坊,指出正确 Claude 提示词需包含 6 个要素,而多数人仅用 1-2 个。掌握这些要素可让模型从搜索引擎式回答转变为专家级深度价值输出。
𝕏 美国国防部与七家 AI 公司达成机密网络使用协议
美国国防部与Google、Microsoft、AWS、NVIDIA、OpenAI、Reflection、SpaceX达成机密网络 AI 协议;GenAI.mil 5 个月已有130 万人员使用。此举标志着政府机构对生成式 AI 的大规模整合。
𝕏 OpenClaw v2026.5.2 发布:集成 Grok 4.3 并修复超 200 个 Issue
开源助手 OpenClaw 更新至 v2026.5.2,默认接入 xAI Grok 4.3 模型。插件系统迁移至自建 ClawHub 平台,修复心跳调度器反馈回路问题,优化 Gateway 启动流程及多模态功能。
𝕏 CAISI 评估 DeepSeek V4 Pro 落后美国前沿模型约 8 个月
CAISI/NIST评估称DeepSeek V4 Pro综合能力落后美国前沿约8 个月,Elo 为800,成本在 7 项基准中 5 项低于 GPT-5.4 mini。尽管存在性能差距,其在成本效益上仍具优势。
𝕏 xAI 推出自定义语音克隆功能,120 秒音频即可生成
xAI上线Custom Voices,用户用最长120 秒音频创建语音克隆,支持80 多种预置声音和28 种语言。该功能大幅降低了个性化语音生成的门槛,丰富了多模态交互体验。
𝕏 OpenAI 未达新增用户和营收目标,算力合同付款压力浮现
OpenAI近期未达新增用户和营收目标,CFO 警告营收增速不足可能影响未来算力合同付款。这一财务压力凸显了大模型商业化面临的严峻挑战。
𝕏 中文语音转文字模型新测试:Qwen3-ASR-1.7B 位列开源第三
Qwen3-ASR-1.7B 排名开源第三、总榜第七,接近 4o-transcribe-mini;GLM-ASR-Nano 位列第八。这表明国产小参数模型在特定场景下已具备较强竞争力。
𝕏 小米 MiMo-V2.5-ASR 在中文语音转文字私测中排名第一
MiMo-V2.5-ASR在中文 ASR 私有测试中超过ElevenLabs Scribe v2与Qwen3-ASR-Flash。小米在语音识别领域的技术积累再次得到验证。
𝕏 医生使用最新 AI 模型被视为医疗能力的一部分
o1-preview 于 2024 年 9 月 发布,医学场景讨论已延伸到 o3 等最新模型。AI 工具正逐渐从辅助手段转变为医疗专业能力的必要组成部分。
𝕏 Gemini V4-Flash 长对话约 40 轮后能力下降的实测观察
V4-Flash在约300K token或40 轮后变笨,问题更像训练覆盖不足而非上下文处理。这一现象揭示了当前长上下文模型在复杂多轮对话中的潜在局限性。
𝕏 Claude 被展示可观看并分析视频内容
Claude被展示具备视频观看与内容分析能力,适合多模态素材理解场景。这标志着其多模态处理能力迈上了新的台阶。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。