天眼早报
🤖 AI 大模型
🔶 MiniMax M2.7 正式开源:SWE-Pro 性能达 56.22% 并完成多款国产芯片适配
MiniMax 宣布开源 M2.7 模型,在 SWE-Pro 测试中取得 56.22% 的优异成绩。该模型主打自我进化技术,已完成对 华为昇腾、摩尔线程 MTT S5000(支持 80GB 显存)及沐曦等国产芯片的 Day-0 适配,并同步上线 Together AI 和魔搭社区,在 Token 效率和性能平衡上达到行业领先水平。
🔶 Anthropic 秘密模型 Mythos 曝光:具备极强零日漏洞挖掘能力引发多国监管关注
特朗普政府官员鼓励银行测试 Anthropic 的 Mythos 模型,该模型在发现和利用零日漏洞方面表现极强,目前通过 Project Glasswing 限制访问。与此同时,英国金融监管机构与政府网络安全机构举行紧急会议,评估 Claude Mythos Preview 对银行、保险公司及交易所带来的潜在网络安全风险。
𝕏 xAI 发布 Grok 4.20:幻觉控制登顶行业首位并支持 200 万上下文
xAI 正式发布 Grok 4.20 版本,该模型在 BridgeBench 幻觉基准测试中超越了 Claude Opus 4.6 跃居行业首位。新版本不仅推理速度大幅提升,还拥有 200 万 上下文窗口,在处理复杂长文本任务时表现出色。
𝕏 2026 年 4 月大模型报告:GLM-5.1 登顶 SWE-Pro 榜单
最新大模型评测报告显示,GLM-5.1 在 SWE-Pro 排名全球第一,展示了强大的工程代码能力。此外,GPT-5.4 计划引入每月 100 美元 的高级订阅计划,标志着顶尖模型商业化进入新阶段。
𝕏 OpenAI 秘密测试新模型 Spud:性能对标 Mythos 且易用性极高
投资人 Brad Gerstner 透露 OpenAI 正在闭门测试代号为 Spud 的新模型(预计为 GPT-5.5)。早期反馈显示,该模型在性能上与 Anthropic 的 Mythos 相当,但在易用性方面表现极佳,被视为 OpenAI 的下一代主力产品。
𝕏 Claude Opus 4.6 性能疑遭“降智”:幻觉率激增且代码编辑强度被暗中调低
BridgeBench 最新数据显示,Claude Opus 4.6 的幻觉基准评分从 83.3% 骤降至 68.3%。遥测数据显示 Anthropic 将其默认代码编辑努力程度从“高”降至“中”,导致质量下降,用户需手动输入 /effort max 恢复。分析认为性能下滑可能源于 推理栈 变更或量化优化。
𝕏 日本组建 AI 冠军联盟:软银、索尼等巨头联手提升国家竞争力
软银、索尼、NEC 和 本田 宣布达成战略合作,组建日本本土的 AI 冠军联盟。该联盟旨在通过整合各方算力、数据和研发资源,打造具有国际竞争力的 AI 企业,应对全球人工智能竞赛。
𝕏 Grok Computer Beta 版即将扩大开放:强化 AI 计算机操作能力
Elon Musk 确认 Grok Computer 的 Beta 测试将在 3 天内向更多用户开放。该功能旨在显著提升 AI 的计算机操作能力(LAM),允许模型更直接地与操作系统和应用程序交互。
𝕏 Meta AI 推出 Muse Spark:支持视觉定位与物体计数功能
Meta AI 发布 Muse Spark 模型,新增“视觉定位”功能。该模型能够识别图像中的特定物体,并进行精准的边界框标注和物体计数。目前该功能已对用户免费开放,提升了多模态交互的实用性。
𝕏 马斯克透露 Grok 路线图:预计 6 月追平 Claude Opus 4.6
Elon Musk 表示,Grok 模型的迭代正在按计划快速推进,预计在今年 6 月 即可达到 Claude Opus 4.6 的同等性能水平,进一步缩小与行业顶尖闭源模型的差距。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。