天眼日报

🤖 AI 大模型
阿里通义千问 Qwen 核心团队多人离职,引发组织拆分与调整
阿里云通义千问 Qwen 团队核心成员集体离职,包括 Qwen 负责人林俊旸(基模/技术负责人)、后训练负责人郁博文、Qwen Code 负责人惠彬原(已加入 Meta)、前技术负责人周畅(已加入字节跳动豆包团队)、李凯欣(Qwen3.5 贡献者)、JustinLin610、huybery、kxli_2000 等。周畅 93 年生北大计算机+语言学背景,曾主导 OFA 和 Chinese CLIP,2022 年底掌舵 Qwen,成为阿里最年轻 P10。离职原因包括组织拆分、KPI 分歧、产模分离导致产品团队协调困难、高管调整,以及千问 App DAU 落后豆包。团队计划分拆为预训练、后训练等水平分工,由前 DeepMind 研究员周浩接任后训练负责人。阿里调整评估框架强调日活用户规模,用 Google Gemini 非核心成员替换林俊旸,社区担忧 Qwen 系列开源模型开发和创新放缓,暴露阿里 AI 布局问题。
谷歌发布 Gemini 3.1 Flash Lite 预览版
Gemini API 推出 Gemini 3.1 Flash Lite,输入 0.25 美元/百万 token、输出 1.50 美元/百万 token,支持动态推理,高吞吐开发工作负载,优于 2.5 Flash。
埃隆:特斯拉将率先实现人形 AGI
Tesla 将成为实现 AGI 的公司之一,可能率先以人形/原子塑造形式实现。
Meta 推出代码审查清单,提升 AI 准确率至 93%
Meta 研究人员开发强制清单,要求 AI 逐行追踪代码路径,避免盲目猜测。应用于真实软件更新检查,准确率达 93%,可节省数百万行代码的执行成本。论文链接:arxiv.org/abs/2603.01896。
Dify v1.13 上线 Human Input 节点,支持人工审批
Dify 发布 v1.13.0 版本,新增 Human Input Node,支持网页/邮件表单审批、动态字段、决策路由和超时处理。适用于内容审核、敏感数据签发等场景。
Agent Orchestrator:30 个 AI 智能体并行开发,支持独立 Git 分支
Agent Orchestrator 工具让 30 个 AI Agent 并行运行,每个有独立 git worktree、分支和 PR。自动化修复 CI 失败、代码审查,适用于修 bug、多语言翻译等零依赖任务。
OpenAI CEO Sam Altman 内部大会回应五角大楼协议争议
Sam Altman 在周二大会承认与五角大楼协议发布时机草率,承诺修订禁止用于美国公民监控。60 名员工签署公开信声援 Anthropic,Claude App Store 下载超 ChatGPT。
OpenAI 推理核心研究员 Max Schwarzer 离职加入 Anthropic
Max Schwarzer 主导 o1 和 o3 后训练,领导交付 GPT-5/5.1/5.2/5.3-Codex,离职回归一线强化学习研究;感谢 Sam Altman 等高层。
Qwen 3.5 在 iPhone 17 Pro 上完全本地运行
Qwen 3.5 2B 参数 6-bit 量化版通过 MLX 在 iPhone 17 Pro 飞行模式下运行,无需订阅,数据不离设备。
GPT-5.3 Instant 更新减少爹味
OpenAI 推出 GPT-5.3 Instant 更新,优化输出风格减少多余说教。
GPT-5.3-Codex-Spark 在 Poe 上线,支持 128k 上下文
OpenAI 轻量编码模型 GPT-5.3-Codex-Spark 由 Cerebras 芯片支持,1000 tok/s 生成速度,128k 上下文,在 Poe 限量研究预览,10 积分/消息。
Anthropic 年化营收达 190 亿美元,提前完成全年指引
Anthropic 2026 年 3 月年化营收 190 亿美元,指引为全年 180 亿美元。按月增长 50 亿美元线性外推,年底或达 600 亿美元年率,Claude 在编码和代理技术领先。
Claude Code 新增状态栏功能
Claude Code 支持自定义状态栏脚本,使用 jq 解析 JSON 显示模型名、输入/输出 token 数、上下文进度条和 Git 状态。脚本支持颜色编码进度条(绿色<50%、黄色<80%、红色)和 Git 分支/变更计数。
GAR:生成对抗强化学习用于形式化定理证明
GAR 框架通过对抗循环联合训练问题生成器和求解器,在 MiniF2F-Test 上 Goedel-Prover-V2-8B 和 DeepSeek-Prover-V2-7B 的 pass@32 相对提升 4.20%,ProofNet-Test 从 22.58%升至 25.81%。
SwiReasoning:潜在与显式推理切换以提升 LLM 推理
SwiReasoning 动态在显式和潜在推理间切换,在数学、STEM、编码和通用基准上平均准确率提升 1.8%-3.1%,在预算约束下令牌效率提升 57%-79%。
RLP:强化学习作为预训练目标
RLP 将强化学习作为预训练目标,在 Qwen3-1.7B-Base 上八个数学科学基准平均提升 19%,Nemotron-Nano-12B-v2 从 42.81%升至 61.32%。
ExGRPO:从经验中学习推理
ExGRPO 组织优先经验,在 1.5B-8B 模型上数学/通用基准平均提升 3.5/7.6 分。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。