什么是长度归一化？

1. 基础定义

长度归一化，就是把不同长度的数据"拉到同一标准"，让它们可以公平比较。在BM25等文本检索算法中，长度归一化常用于消除文档长短对分数的影响。

就像跑步比赛，大家跑的距离不一样，直接比成绩不公平。归一化后，大家都按"每米用时"来比，才公平！

BM25对文档长度的归一化：

\[ \text{分母} = f(q, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{\text{avgdl}}) \]

其中：

文档长度 |D|：平均长度 avgdl： b：

归一化因子 = 1.00

小结： 长度归一化让不同长度的数据"站在同一起跑线"，是文本检索、机器学习等领域常用的公平比较方法。