如何选择既相关又多样的文档
想象一下,你在图书馆找书。你希望找到的书既要和你的问题相关, 又要彼此不同(不要都是同一类型的书)。
MMR 算法就是帮你做这件事的!它会:
下面演示MMR 算法是如何工作的:
这个公式告诉我们如何计算每个文档的"分数":
计算每个文档与查询的相关性分数
选择相关性最高的文档作为第一个结果
对于剩余的每个文档,计算 MMR 分数,选择分数最高的
重复步骤 3,直到选出足够数量的文档
候选文档:
如果只看相关性:会选择 A, B, C(但 A 和 B 内容可能很相似)
使用 MMR:会选择 A(最相关),然后选择 C 或 D(与 A 不同但相关),而不是 B(因为 B 和 A 太相似)
✅ 优点:选出的文档都很相关
❌ 缺点:可能选出的文档内容重复
适用场景:需要最相关的文档,不关心多样性
✅ 优点:选出的文档各不相同
❌ 缺点:可能选出的文档不够相关
适用场景:需要覆盖不同方面,不关心相关性
MMR 算法是一个聪明的选择策略,它帮助我们在相关性和多样性之间找到平衡。
就像在图书馆选书一样,我们既希望书和我们的问题相关,又希望选出的书能覆盖不同的角度,这样我们就能获得更全面、更有价值的信息!