06月04日 · 科技早报

天眼早报

科技|2026年06月04日|28 分钟阅读
来源:1450 条推文 + 223 篇 RSS 文章·Lanyun·BatchV2 生成·2026-06-03 — 2026-06-04
分享
AI 速读38 条精选

🤖 AI 大模型

𝕏 Google 发布 Gemma 4 12B:无编码器多模态模型支持本地运行

Google正式发布开源模型 Gemma 4 12B,这是首个采用无编码器架构的中规模多模态模型,能直接将文本、图像、音频和视频映射至 LLM 嵌入空间。该模型支持 256K 上下文窗口和原生工具调用,可在仅 16GB VRAM 的笔记本电脑上高效运行复杂工作流。作为首个支持原生音频输入的模型,它填补了边缘端与专家混合模型的空白,并基于 Apache 2.0 协议免费开源。此外,模型已在 Ollama 平台上线,支持 MLX 加速,AIME 2026 得分达 77.5%,LiveCodeBench v6 得分为 72.0%

𝕏 Microsoft 推出 MAI-Thinking-1:35B 激活参数推理模型

Microsoft发布内部研发的 MAI-Thinking-1 推理模型,该模型基于 30T 人类生成数据训练,采用混合专家架构。尽管仅拥有 35B 激活参数,其在 AIME 2025 数学推理任务中达到了惊人的 97.0% 准确率,展现了小参数大能力的特性,为高效推理提供了新的技术路径。

𝕏 Microsoft SkillOpt 实现智能体技能自进化

Microsoft发布 SkillOpt 论文,展示了智能体技能可自我测试与进化的新范式。实验数据显示,在图表提取任务中,智能体的质量从 0.73 提升至 0.93(提升 20 分),证明了智能体在不依赖人工干预的情况下,能够通过自我迭代显著优化特定技能,为通用人工智能的发展提供了新思路。

𝕏 Ideogram 4.0 开源:全球最佳开源图像模型上线

Ideogram宣布其 Ideogram 4.0 图像生成模型正式开源,提供权重下载与微调支持。该模型在文本生成图像任务上达到 SOTA 水平,特别擅长精准文字渲染,支持 2K 分辨率输出,并可部署于本地硬件。这一发布标志着开源图像生成领域迈上了新台阶,为开发者提供了强大的本地化创作工具。

𝕏 NVIDIA Cosmos 3 登顶 7 项物理 AI 榜单

NVIDIA推出 Cosmos 3,作为物理 AI 的开放全能模型,在世界生成机器人策略工业视觉理解三大关键领域均排名第一,成功登顶 7 项相关榜单。该模型现已在 Hugging Face 上线,覆盖了物理 AI 的全领域应用,为构建具身智能和数字孪生系统提供了坚实基础。

𝕏 Anthropic 扩展 Claude Mythos 预览:已发现超 1 万漏洞

AnthropicClaude Mythos 安全防御模型的预览计划从最初的 50 家机构大幅扩展至 200。该模型专注于 AI 辅助的漏洞挖掘,合作伙伴在测试期间已发现超过 10,000 个高危或严重漏洞。这一举措旨在建立 AI 在网络安全领域的防御先发优势,通过大规模协作提升系统安全性。

𝕏 Google Gemini Omni 引入物理逻辑理解能力

Google发布 Gemini Omni 模型,该模型具备对重力、动能和流体动力学等物理规律的直观理解能力。不同于仅预测像素的传统视频生成模型,Gemini Omni 能生成符合现实世界逻辑的视频,显著提升了视频生成的真实感与连贯性,为物理世界的模拟与交互打开了新大门。

𝕏 百度文心发布 NAVA:6.3B 参数原生同步音视频生成模型

百度文心团队正式发布开源模型 NAVA,该模型仅用 6.3B 参数即实现音视频原生同步生成。其核心架构采用 Align-then-Fuse 策略,让音视频在生成过程中自然对齐,支持多说话人音色保持(Timbre-in-Context)。在 Verse-Bench 基准测试中,NAVA 超越了 Ovi 1.1、MOVA 及 DaVinci 等更大规模的模型。目前 GitHub 仓库与论文已公开,为轻量级音视频生成提供了新范式。

𝕏 DeepSeek 论文提出自剪枝 KV 注意力机制

新论文《Self-Pruned Key-Value Attention》由 DeepSeek 团队提出一种学习式剪枝方法。该方法使 LLM 仅需保留 10%-33.7% 的旧 KV 条目即可匹配完整性能,解码速度提升 2.1-4.6 倍,且无需额外规则干预。这一突破为降低大模型推理成本、提升响应效率提供了重要的理论依据和技术方案。

𝕏 Claude Code 物理反馈装置:用机械臂吸引注意

Anthropic工程师 Ben James 为解决长代码会话中的注意力分散问题,设计了微型 Clawd 物理反馈装置。当 Claude Code 需要用户输入时,电磁铁会推动铝制外壳上下跳动,提供直观的物理反馈。这一创意硬件设计巧妙地将软件交互延伸至物理世界,提升了人机协作的体验。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。