天眼早报
🤖 AI 大模型
𝕏 蚂蚁集团发布全球首个开源 100B 医疗大模型 AntAngelMed
蚂蚁集团联合浙江省卫健委推出 AntAngelMed,称其为全球首个开源 100B 参数医疗大模型。该模型在 HealthBench、MedAIBench 等医疗评测榜单排名第一,采用 6.1B 激活参数,推理速度超过 200 tokens/s,并通过 GRPO 强化学习优化临床推理能力与医疗场景中的同理心表达。
𝕏 Hugging Face 公开数据集突破 100 万,AI 构建门槛继续降低
Hugging Face 宣布平台公开数据集数量正式突破 100 万。官方数据显示,自 AI Agent 能力成熟以来,数据集数量在 8 个月 内实现翻倍,而此前达到前 50 万耗时约 4 年。这意味着 Petabytes 级数据已可供数百万开发者使用,本地模型训练和垂直模型构建的数据瓶颈进一步降低。
𝕏 Google DeepMind 发布 AI Co-Mathematician,刷新数学研究基准纪录
Google DeepMind 推出面向数学家的智能体工作台 AI Co-Mathematician,在 FrontierMath Tier 4 基准测试中取得 48% 的高分,刷新 AI 系统纪录。该系统支持异步状态管理、文献发现与定理验证,已解决部分开放性问题,并能为数学研究提供新的推理路径和研究视角。
𝕏 Thinking Machines 发布 276B 实时交互模型 TML-Interaction-Small
Thinking Machines 发布 TML-Interaction-Small,这是一款 276B MoE 模型,采用 12B 激活参数,主打实时自然交互。模型支持 200ms 微轮次 与约 0.40 秒交互延迟,面向更低延迟、更高频反馈的对话式 AI 场景。
🔵 Anthropic 洽谈至少 300 亿美元融资,估值或超过 9000 亿美元
Anthropic 正洽谈以超过 9000 亿美元估值 融资至少 300 亿美元,若完成将成为该公司迄今最大融资轮之一。报道称协议尚未最终敲定,最快可能在本月底完成,显示头部大模型公司在算力、研发与商业化竞争中的资本需求仍在快速上升。
𝕏 LangChain 重新开源 Chat LangChain,展示生产级问答智能体架构
LangChain 团队宣布重新开源 Chat LangChain 项目,用于展示如何构建生产级问答智能体。该实例每周处理近 2T tokens,并包含多项面向稳定性、检索、对话体验和部署实践的改进,为开发者提供企业级 Agent 架构 的参考范本。
𝕏 GPT-5.5 高分版首次解决 ProgramBench 任务,表现优于 Opus 4.7
GPT-5.5 high/xhigh 版本成功解决首个 ProgramBench 任务,并在多项指标上显著优于 Opus 4.7。测试显示,该模型能根据任务需求自动选择 C 或 Python 语言,体现出更强的代码生成、问题分解与逻辑推理能力。
🐙 Needle 将 Gemini 工具调用能力蒸馏到 2600 万参数模型
Needle 项目将 Gemini 的工具调用能力蒸馏到 2600 万参数 模型中,展示了小模型复现大模型工具使用能力的可行路径。该 GitHub 项目在 Hacker News 获得 229 分与 79 条评论,受到开发者社区关注。
𝕏 语音交互模型基准发布:xAI Grok Voice 在客服场景领先
Artificial Analysis 发布语音转语音模型的代理性能基准测试,覆盖航空、零售和电信等真实客服场景。结果显示,xAI 的 Grok Voice Think Fast 1.0 以 52.1% 的任务解决率领先,平均对话时长 5.6 分钟;OpenAI 的 GPT-Realtime-2 (High) 以 39.8% 解决率位居其后。
𝕏 Perplexity 公开 Qwen3 235B 在 GB200 NVL72 上的推理服务研究
Perplexity 发布研究,介绍如何在 NVIDIA GB200 NVL72 机架上服务后训练版 Qwen3 235B。研究重点强调大规模 MoE 推理 在高吞吐场景中的优势,对部署超大参数开源模型、优化多卡并行与提升推理效率具有参考价值。
𝕏 姚顺宇长访谈谈 Claude Code、Gemini 与 AI 编程实践
姚顺宇 在 4 小时访谈中谈及 Claude Code、Gemini、Anthropic 文化与 AI 编程实践,并表示自己的 90% 代码 由 AI 生成。访谈内容聚焦前沿模型在真实研发流程中的使用方式,以及 AI 编程对工程师工作习惯的改变。
𝕏 Meta 发布 Sapiens2 高分辨率人体视觉模型家族
Meta Sapiens2 是 Meta 发布的高分辨率人体视觉模型家族,基于 10 亿张人体图像 训练,覆盖姿态估计、人体分割、法线估计和点云预测等任务。模型规模从 0.1B 至 5B 不等,面向更精细的人体理解与生成式视觉应用。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。