03月09日 · 科技日报

天眼日报

科技|2026年03月09日|38 分钟阅读
来源:1558 条推文 + 500 篇 RSS 文章·Lanyun·DeepSeek 生成·2026-03-08 — 2026-03-09
分享
科技 日报封面
AI 速读25 条精选

🤖 AI 大模型

AI 代理 8 小时内完成 37 次实验,提升 0.8B 模型分数 19%

tobi 的 AI 代理基于 qmd 查询扩展模型,从 tobi/qmd GitHub 获取训练数据,8 小时内运行 37 次实验,使 0.8B 模型分数提升+19%(高于此前 1.6B 模型),并优化 reranker 性能。

Claude 代理自主优化模型并加速 Apple Silicon GPU

Dunetsk 使用 Claude 从零构建 hydrocode 求解器,实现 Apple Silicon 原生 GPU 加速,性能优秀,预计节省 2 万美元供应商费用。

Codex + GPT-5.4 一键构建完整游戏

minchoi 分享用户使用 Codex 和 GPT-5.4 一次性构建游戏 Demo,支持实时交互和复杂逻辑。链接:https://t.co/X1rdU1E0Lm。

LisanBench 基准测试获免费 API 积分

scaling01 学生开发者申请 LisanBench 测试免费积分,独立基准 Anthropic 等模型,结果客观无干预。强调非现金,仅 API 使用。

GPT-5.4 代理自主使用废弃素材创作视频

repligate 转发 tessera_antra 测试,GPT-5.4 代理首次自主利用旧素材合成视频,超越从零生成能力。

Perplexity Computer 新增 Skills 功能

Perplexity 推出 Computer Skills,支持可复用动作自动应用,用户可自定义重复任务技能,Computer 永久记忆。

GPT-5.4 在写作任务中优于 Opus

Perplexity 创始人 Arav Srinivas 推荐 GPT-5.4 用于写作,作为 Computer 子代理,优于 Opus 在营销和内容生成。

GAIA 基准测试 Level 3 AI 代理得分 88.9%超人类 87%

GAIA 基准由 Meta 和 Hugging Face 于 2023 年 11 月创建,测试通用 AI 助手能力。Level 3 难度人类平均 87%,领先系统<3%。O1-preview 达 30%,2026 年最佳代理系统 88.9%,人类基线被超越。

SkillNet 构建 20 万 AI 技能库,提升奖励 40%

SkillNet 为 AI 代理提供技能创建、评估和组织基础设施,统一本体结构 20 万技能,支持相似性、组合和依赖关系。多维评估在 ALFWorld、WebShop、ScienceWorld 基准提升平均奖励 40%,减少执行步骤 30%。

GPT-5.4 Pro 在生物医学科学推理上超越 GPT-5.2 Pro

GPT-5.4 Pro 在研究级科学领域实现重大飞跃,与去年 8 月 GPT-5 Pro 发布时相当。DeryaTR_分享生物医学科学示例,推理优于 GPT-5.2 Pro 及其他前沿模型。

Gemini 3.1 Pro 与 OpenClaw 配合出色

Gemini 3.1 Pro 与 OpenClaw 结合表现出色:频繁提交代码、良好消息记录、无新手错误;主动使用测试工具、自评估和迭代;计划执行主动;响应更人性化。

OpenClaw 技能精选库 awesome-openclaw-skills

awesome-openclaw-skills 项目从 ClawHub 的 13,729 个技能中筛选 5,494 个可用技能,按 30+场景分类,包括 coding agents、多代理协同、DevOps 等;安装命令 npx clawhub@latest install。

OpenClaw 36 个真实用例分类分享

OpenClaw 开源项目汇总 6 大分类、36 个场景,包括社交媒体自动化、Multi-Agent 内容工厂、自愈服务器、自治项目管理等,每个案例提供完整复制方案文件,已获 20K+星。

MiniMax-M2.1 和 Kimi K2.5 养虾模型测试全球前三

PinchBench 测试 OpenClaw 养虾成功率:Gemini 3 Flash 95.1%、MiniMax-M2.1 93.6%、Kimi K2.5 93.4%;速度 MiniMax-M2.5 105.96s,成本 GPT-5-Nano $0.03。

Claude Code 开启 LSP 工具实现 600x 速度提升

ENABLE_LSP_TOOL 设置替换 grep 为 LSP 协议,支持 JSON-RPC 语义理解,实现 30-60s 降至 50ms、100%准确。

Lossless Claw:OpenClaw 的无损上下文管理开源插件

Lossless Claw 基于 Voltropy 团队 LCM 论文,取代 OpenClaw 默认滑动窗口压缩,使用 DAG 层次化摘要系统实现无损长时记忆。支持 SQLite 持久化、深度感知提示、lcm_grep 全文搜索等 4 个 Agent 工具。开源地址:https://t.co/ZoJjDferrn。

Claude 2 月网站访问量增长最快 GenAI 工具

Similarweb 数据显示,Claude 是 2 月增长最快的 GenAI 工具,网站访问量领先。

腾讯 QQ 开放 OpenClaw 官方接入,最多创建 5 个机器人

腾讯 QQ 3 月 7 日面向个人用户开放 OpenClaw 机器人创建,一键生成账号,1 分钟完成配置绑定,支持扫码登录。

OpenClaw 开源智能体登顶 GitHub

OpenClaw 开源 AI 智能体项目在 GitHub 趋势榜夺冠,24 小时内 Star 超 10 万,支持 Python 本地部署和多模态工具调用。

Kimi 1 月付费用户订单暴涨 80 倍,跻身 Stripe 全球支付榜单前 10

Kimi 1 月个人用户支付订单环比增长 8280%,2 月再涨 123.8%,Stripe 全球榜单从百名外升至第 9 位。K2.5 模型及 Kimi Claw 带动,20 天收入超 2025 年全年。

深圳福田发布 AI 数智员工 2.0,首批“政务龙虾”智能体上线

福田区 3 月 6 日发布 AI 数智员工 2.0,部署“政务龙虾”智能体,支持任务拆解、自主决策、错误纠正。在 e 站通服务中心实现公共场所卫生许可变更自动预审,审核 7 种材料,数分钟生成报告。


EVENT-DRIVEN INTELLIGENCE

免费先跟踪重点,再决定是否升级

每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。

分享

NEXT STEP · 留下邮箱

获取下一次重大事件提醒

每天一封精选情报,先用邮件建立复访,再决定是否升级到更深的追踪能力。