传统 RAG
RAG 架构本质上是一种压缩,为了解决大模型上下文有限做出的一种方法,将文章和文本进行切段、做筛选、建索引、召回,以达到将上下文给到上下文有限的大模型的目的。
一个简单的问题,我们可以直接作为 prompt 交给到大模型,但毕竟大模型的上下文空间是有限的,即便是现在最新的 GPT5,上下文达到了 400k,即 40w 这么大了,还是有可能不够用,我们自然会想到,那我们将这么大的文章中一部分相关的内容给到大模型,结合问题就能得出想要的结果,这就是向量化的思路。
embedding 就是做这个事情的,它将一段话转换成多维数组坐标系,相似的文本在坐标系中的落点就会相接近,因此可以通过这种方式来找到相似的内容,就能实现在庞大文本中找出相似内容的目标。平时我们接触的数学中的二维坐标系、三维坐标系,自然是比较简单,但很容易就会将维度中的落点空间用完,所以先进的 embedding 模型转换成的是 3000 多维,甚至更多,来解决空间不够的问题。
2025/8/12大约 8 分钟