标签: RAG

传统 RAG

RAG 架构本质上是一种压缩，为了解决大模型上下文有限做出的一种方法，将文章和文本进行切段、做筛选、建索引、召回，以达到将上下文给到上下文有限的大模型的目的。

一个简单的问题，我们可以直接作为 prompt 交给到大模型，但毕竟大模型的上下文空间是有限的，即便是现在最新的 GPT5，上下文达到了 400k，即 40w 这么大了，还是有可能不够用，我们自然会想到，那我们将这么大的文章中一部分相关的内容给到大模型，结合问题就能得出想要的结果，这就是向量化的思路。

embedding 就是做这个事情的，它将一段话转换成多维数组坐标系，相似的文本在坐标系中的落点就会相接近，因此可以通过这种方式来找到相似的内容，就能实现在庞大文本中找出相似内容的目标。平时我们接触的数学中的二维坐标系、三维坐标系，自然是比较简单，但很容易就会将维度中的落点空间用完，所以先进的 embedding 模型转换成的是 3000 多维，甚至更多，来解决空间不够的问题。

CrabSAMA2025/8/12大约 8 分钟