SAG 细读：用 SQL join 替图数据库的 RAG 实现

RAG 这个领域过去两年的主流方向是”补结构”。GraphRAG、HyperGraphRAG 都在解决一个问题——纯向量检索没法处理多跳推理，得给文档之间补上关系图。代价是要预先把整张知识图谱建好，存进图数据库，增量更新麻烦，运维成本不低。

最近一个叫 SAG 的项目想换条路：不预建图，查询的时候用 SQL join 现凑。代码是 TypeScript 全栈，数据层就一个 PostgreSQL，连图数据库都不要。论文 arXiv:2606.15971 是五天前刚挂出的预印本，GitHub 仓库 Zleap-AI/SAG 这个时间点 1273 颗星。

我把论文、主仓库、benchmark 仓库都读了一遍，再去对了一下相关 prior art。结论是这个项目的工程取舍很有 taste，但论文层面的”打破不可能三角”是营销话术。要拿去用，得先把几个细账算清楚。

SAG 的数据模型：一个 Event，N 个 Entity

SAG 把每个文档 chunk 拆成两份并行的结构化输出：

1 个 Event：这段文字描述的”事情”，保留完整语义
N 个 Entity：这段文字里出现的实体，分 11 个固定类型——time / location / person / organization / group / topic / work / product / action / metric / label

注意是”并行”，不是”先抽 Event 再抽 Entity”的流水线。一次 LLM 调用同时吐出两份结构化产物，分别写进 SQL 关系表、pgvector 向量索引、PG 原生 tsvector 全文索引。

11 类 entity 是 close set。GraphRAG 那一派的常见做法是让 LLM 自由抽实体，结果 entity 表里充满”the company””this approach””a new method”这种垃圾。SAG 强制必须归到 11 类之一，否则丢弃。Ontology 上的克制比”开放”有 taste 得多——尤其在 RAG 这种场景，召回准比召回多重要。

数据层是单个 PostgreSQL 16，跑在 pgvector/pgvector:pg16 镜像里。我先确认一下，因为社区里有传言说 SAG 要 MySQL + Elasticsearch——查源码不是这样。docker-compose.yml 里只有一个 sag_lite_postgres 容器，migration 文件 005_enforce_embedding_dimensions.sql 管 pgvector 维度约束，006_entities_text_search.sql 管 tsvector 全文索引。一个库三个引擎，部署成本就一个 docker compose up。

检索流程：反向 SQL join + 1 跳

查询时分两步。

Seed 召回。LLM 从 query 抽实体作种子，同时向量召回 events（相似度阈值 τ=0.4）。这两路结果合并成 seed event 集合。

反向 join 扩展。从 seed events 出发，join 到关联 entities 拿到”实体前沿”，再从前沿实体反查到新的 events。默认多跳深度 H=1，扩展一次就停。

论文用自然语言描述这个过程，没贴 SQL 模板。按我对它 schema 的还原，核心扩展 SQL 大概长这样：

-- 从 seed events 出发，找共享至少一个 entity 的 events
SELECT DISTINCT e.event_id
FROM events e
JOIN event_entity ee ON e.event_id = ee.event_id
WHERE ee.entity_id IN (
  SELECT entity_id FROM event_entity
  WHERE event_id = ANY($seed_event_ids)
)
AND e.event_id != ALL($seed_event_ids);

这就是论文里说的”动态局部超边”——一个 entity 联通的所有 events 就是一条 hyperedge，但它不预先存在表里，是查询时 join 出来的。

H=1 是个很务实的选择。多跳推理理论上能无限扩，但每多一跳，召回 entity 集合就爆炸式增长，长尾高频实体（比如”中国””Apple”）会牵出大量无关 events。Paper 没明说为什么默认 1 跳，我猜是实测下来 H=2 的召回提升不抵延迟和噪声的恶化。

自报 benchmark：数字漂亮，但要看怎么读

SAG 在论文 Table 2 里贴了一组 Recall@K 对比，对手是 HippoRAG 2。Recall@K 指的是”检索回来的前 K 个 chunk 里包含 ground-truth 支撑文档的比例”——多跳 QA 评测的标准指标，越高越好，60% 算能用，80% 算很强。

数据集	指标	HippoRAG 2	SAG	Δ
HotpotQA	R@2	78.35%	91.55%	+13.20
MuSiQue	R@2	49.5%	64.1%	+14.6
MuSiQue	R@5	65.13%	80.04%	+14.91
2WikiMultiHop	R@5	90.4%	88.0%	-2.4
9 项平均	R@2	68.14%	79.30%	+11.16

测试 setup 是 bge-large-en-v1.5 做 embedding，Qwen3.6-Flash 做 LLM。

数字本身不难看。MuSiQue 上 +14.6pp 意味着原本 100 个 query 召不回的有 50 个，现在只有 36 个——对下游 QA 准确率的传导效应是真实的。问题是几个细节得知道：

数字全是 SAG 作者自报，paper 5 天前刚挂出，没有第三方复现。

Qwen3.6-Flash 是 2026-04-27 才发布的新模型，社区里根本没有同 config 的 baseline，没法横向对照。换个 LLM 跑出来可能完全是另一个结果。

“9 项里 8 项最优”听起来很猛，但 2WikiMultiHop Recall@5 实际是输的——88.0 vs 90.4。营销话术把这个数据点抹了。

平均涨 11.16pp 主要靠 MuSiQue 一个数据集贡献（+14.6pp），剔除掉看，2Wiki 上的优势很薄。

读 retrieval 指标要警惕的是它和下游 QA 准确率不是 1:1 传导——召回多了，进 LLM context 的噪声也多了。SAG 没有给 QA EM/F1 的对比，只给了 retrieval recall。

真问题：这套思路不新

SAG 论文的核心 positioning 是”无需预建全局图谱，查询时动态构建结构”。这句话单独看没问题。问题是别人比它早 6 到 12 个月提了一样的东西。

工作	arXiv	提交时间	与 SAG 的重叠
E²RAG	2506.05939	2025-06	Entity-Event 双子图，Alibaba + NUS
DyG-RAG	2507.13396	2025-07	事件中心的查询时动态图，Beihang + Philip S. Yu，有代码
LogicRAG	2508.06105	2025-08（AAAI’26）	论文标题直接叫 You Don’t Need Pre-built Graphs for RAG
SAG	2606.15971	2026-06	查询时 SQL join 反向扩展

LogicRAG 的标题我特地贴原文，因为它一句话占了”不需要预建图”这条 positioning。SAG 比它晚十个月。

SAG 真正的工程增量收窄到三件事：用 SQL 当底座（不是图数据库）、11 类固定 entity 的 ontology、H=1 的默认上限。这都是好工程，但不是新范式。

时间线有点意思

我顺手查了三个东西的创建时间。

主仓库 Zleap-AI/SAG：2025-11-07 创建，第一次 commit 2025-11-17（v0.1.0）。
benchmark 仓库 Zleap-AI/SAG-Benchmark：2026-05-28 创建。
paper arXiv:2606.15971：2026-06-14 提交。

主仓库比 paper 早七个月，benchmark 仓库比 paper 早 17 天。这是典型的”产品先行，论文后补”节奏——东西已经上线、有用户、有 star，paper 是为产品背书用的，不是反过来。这本身不算原罪，但读 paper 的时候得知道这个语境，别把它当成科学突破。

补一句，arXiv 编号 2606.15971 是合法格式（YYMM.NNNNN，2026 年 6 月 = 2606），不是伪造。但只有 v1，没同行评审，DOI 标 “pending registration”。

没被写进 paper 的索引成本

SAG 的索引阶段每个 chunk 调一次 LLM，吐 Event + 11 类 Entity 的合并 JSON。查询阶段每个 query 再调一次 LLM 抽实体。HippoRAG 2 走的是纯向量召回，索引时只要 embedding，没有 LLM 调用。

Paper 没有给索引成本对比，也没有 cost / latency benchmark。”亿级数据秒级检索”是 README 上的话，正文里没有支撑数据。

按 Qwen3.6-Flash 当前价格粗算，一亿 chunk 的索引 LLM 调用成本和纯向量索引能差一到两个数量级。这不是说 SAG 错了，是说要拿它做生产决策，得自己跑一遍小规模成本测试，别只看 Recall 数字做决定。

工程上做对的几件事

批判完了，得说说 SAG 真的值得参考的地方。

单库三合一。关系表、向量索引、全文索引都进同一个 PostgreSQL 16。对小团队来说这一点比 Recall 高几个点重要得多——不用学 Milvus，不用维护 Elasticsearch，不用部署 Neo4j。生产环境少一个组件，意味着少一组监控、少一份 backup 策略、少一次跨服务故障排查。

SQL join 当 hyperedge expansion。图数据库的优势在多跳遍历，但代价是另一套数据栈。SAG 用 entity 作 bridge，反向 join 一次就能拿到”和 seed event 共享至少一个 entity 的所有 events”——这就是个超边，只是不存在表里。一跳够用的话，PG 完全扛得住。

Close-set ontology。前面提过一次值得再强调。11 类 entity 是个可被复用的资产——你完全可以拿 SAG 的 schema 去配自己的 RAG 系统，哪怕不用它的代码。比从零设计 ontology 省一周的来回。

什么时候用 SAG，什么时候别用

适合：
– 团队规模小，不想维护图数据库
– 文档量在百万到千万 chunk 级别，需要多跳但不深
– 已经在用 PostgreSQL，想复用现有运维能力
– 业务实体能落到 11 类里（新闻、金融报告、企业知识库这类公司/产品/事件/人物为主的领域）

别用：
– 文档量上亿，每个 chunk 一次 LLM 调用的索引成本扛不住
– 需要深度多跳（3 跳以上），SQL join 在长尾高频 entity 上会爆炸
– entity 类型超出 11 类太多（医疗、法律、化学这类专业领域，强行套会丢信息）
– 对召回延迟敏感（query 时还要等一次 LLM 抽实体）

我会怎么做

如果团队里有人问”要不要上 SAG”，我会建议先做两件事。

把自己最难的 50 条多跳 query 拿出来，分别跑 HippoRAG 2 和 SAG，自己测 Recall 和下游 QA 准确率。别信 paper 上的数字，那是别人在别人的数据上跑出来的。Retrieval recall 高不等于业务效果好。

估算索引成本。总 chunk 数 × Qwen3.6-Flash 单次调用价格 × 1.2（query 时的实体抽取），看预算扛不扛得住。再算一遍如果未来文档量翻 10 倍，这个数字会变成什么样。

paper 自己说不能信、benchmark 自己跑、成本自己算。这套流程跑完发现 SAG 真合适，那它就是合适的。论文是不是新范式不重要，工具能不能解决你的问题才重要。

参考资料：

Paper：arXiv:2606.15971
主仓库：github.com/Zleap-AI/SAG
Benchmark 仓库：github.com/Zleap-AI/SAG-Benchmark
Prior art：DyG-RAG / LogicRAG / E²RAG

作者：toy

事件分析

该技术突破在于成功将声学工程应用于食品化学萃取过程，利用物理能量（声波）替代传统热能来加速分子扩散。从技术原理看，声空化效应产生的局部极端环境极大地提升了传质效率，解决了传统冷萃耗时过长且难以达到意式浓缩浓度的痛点。在产业层面，这项创新具有极高的应用价值。对于工业化量产即饮咖啡的企业而言，75%的能耗降低意味着显著的成本削减和碳足迹减少，且缩短的生产周期能提升产线效率。此外，无需加热的特性使得生产过程更易于与冷链物流或冷加工工艺集成。作为食品科学与声学工程的交叉成果，这预示着未来超声波技术可能在更多植物提取或饮料精制领域替代高能耗的热处理工艺。

💡 核心观点：用物理声波能量替代热能进行物质萃取，这项技术为食品工业的低碳化生产与工艺创新提供了新范式。

事件分析

本案例展示了AI编程从“代码补全”向“全生命周期自动化”的演进趋势，标志着低代码开发进入以AI Agent为核心的新阶段。尽管核心业务逻辑代码已由AI（通过Rules配置）生成，但该教程深刻揭示了现代软件开发中剩余的两大壁垒：复杂的基础设施配置与地域性合规流程。开发者仍需掌握Docker容器化、Nginx反向代理及数据库管理等运维知识，这表明当前AI主要替代的是逻辑层的语法编写，而非底层的工程化构建能力。此外，教程特别强调了在中国互联网环境下，软件上线涉及的ICP备案、小程序认证及公安备案等行政流程，是AI无法通过算法自动绕过的“硬编码”门槛。这种“AI生成代码+人工处理运维”的混合模式，正在催生“公民开发者”这一新群体的崛起，同时也推动了开发工具链向更智能化的方向进化。

💡 核心观点：AI编程已实现从代码片段生成向全栈开发的跨越，降低编码门槛的同时，更凸显了运维配置与合规流程在软件工程中的刚性价值。

事件分析

这项研究触及了人机协作模式中的核心矛盾——认知外包的风险。从技术角度看，AI工具在提高特定任务检出率（如息肉识别或代码生成）的同时，降低了人类对该任务的持续关注度和认知负荷，类似于“用进废退”的神经生物学原理。在产业层面，如果软件开发和诊断技能过度依赖AI，可能导致新一代专业人员缺乏应对复杂、非标准化场景的能力，特别是在AI模型出现幻觉或失效时的纠错能力。

未来的技术培训和工具设计可能需要发生根本性转变。教育体系将不再单纯追求操作的自动化程度，而是转向“人在回路”的强化训练，确保专业人员具备在无辅助环境下的独立生存能力。同时，AI工具的开发思路可能会从“全自动化”转向“可逆辅助”或“解释性辅助”，旨在增强人类技能而非替代技能，以防止专业人才库的整体退化。

💡 核心观点：AI在提升短期效率的同时正在不可逆地“剥夺”人类的专业技能，如何防止去技能化将是技术落地的最大隐患。

事件分析

从技术架构来看，Pagecast 采用了边缘优先的设计理念，利用 Cloudflare Pages 的分布式特性，规避了传统文件上传服务的中心化瓶颈与隐私风险。这种“本地生成 + 边缘发布”的模式，精准契合了当前 AI 原生开发的需求，即代码与文档的产出频率呈指数级增长，开发者需要比 FTP 或 CI/CD 更轻量级的交付手段。产业层面上，这标志着开发者工具正在从单纯的“辅助生成”向“自动化交付”演进。未来的 IDE 和 AI 编程助手将不再局限于代码补全，而是会像 Pagecast 这样，内置将生成的产物直接转化为可访问链接的能力。此类工具的普及可能会重塑团队协作模式，使得基于 AI 生成的代码片段和文档分享变得像发送聊天记录一样即时和常态化。

💡 核心观点：Pagecast 通过打通本地 AI 生成内容与云端部署的自动化链路，预示着开发者工具正从代码编辑向全流程交付演变。

事件分析

该项目反映了当前 AI 开发领域对降本增效的极致追求，以及开发者对混合模型架构的探索。通过复用 Claude 订阅额度调用 API，本质上是一种利用厂商定价规则差异进行的成本套利，这揭示了主流大模型厂商高昂的 API 价格与个人开发者支付能力之间的矛盾。技术上，将 Claude 的智能体规划能力与 DeepSeek 等国产高性价比模型结合，标志着“架构与模型解耦”趋势的成型：开发者不再迷信单一模型的全能性，而是倾向于用最强的模型做调度，用最便宜的模型做执行。这种“缝合”模式可能成为未来 AI Agent 开发的主流范式，倒逼大模型厂商在定价策略和开放性上做出更多让步。

💡 核心观点：混合模型架构与成本套利工具的兴起，预示着AI开发正从“模型崇拜”转向“效率至上”，单一厂商的定价垄断将被生态融合打破。

事件分析

该事件的技术价值在于对多源异构数据的标准化集成与“数字孪生”应用探索。将 AIS（船舶）、ADS-B（航空）、TLE（卫星轨道）以及网络威胁情报等格式迥异的实时数据流，清洗并映射到统一的时空坐标系中，涉及复杂的 ETL（抽取、转换、加载）工程处理。这种全域态势感知的可视化尝试，超越了单纯的美学展示，为自动驾驶（环境感知）、智慧物流（全球运力监控）及国防安全（多域威胁监测）提供了直观的数据底座参考。它展示了利用开源公共数据构建低成本全球监控系统的可行性，未来的技术演进将取决于其在处理高并发数据流时的渲染性能以及数据清洗的自动化程度。

💡 核心观点：Metiq 体现了从单一地图向全维“数字孪生”演进的趋势，通过多源数据融合打破信息孤岛，为构建全景式的全球态势感知系统提供了低成本开源范式。

SAG 细读：用 SQL join 替图数据库的 RAG 实现

SAG 的数据模型：一个 Event，N 个 Entity

检索流程：反向 SQL join + 1 跳

自报 benchmark：数字漂亮，但要看怎么读

真问题：这套思路不新

时间线有点意思

没被写进 paper 的索引成本

工程上做对的几件事

什么时候用 SAG，什么时候别用

我会怎么做

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

利用声波萃取意式浓缩咖啡：新技术室温制作且能耗降低75%

事件分析

零代码全栈实战：普通人利用AI从开发到上架微信小程序的完整教程

事件分析

Nature发文警示：过度依赖AI工具正在侵蚀医生与工程师的核心技能

事件分析

AI 编程新伴侣 Pagecast：一键部署 Claude 生成的报告至 Cloudflare

事件分析

开源项目 muselab：复用 Claude 订阅额度并接入 DeepSeek 等国产大模型

事件分析

Metiq：集成100个公共数据集的3D实时地球，可视化海陆空天全维度数据

事件分析

最新文章

热门专题

热门标签

网站统计

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。