为什么词出现100次和101次差别很小?
吃第1个汉堡:超级满足! 😋
吃第2个汉堡:还是很满足! 😊
吃第3个汉堡:有点饱了... 😐
吃第10个汉堡:完全不想吃了! 😫
每多吃一个汉堡,满足感增加得越来越少,最后几乎不增加了!
这就是"饱和"——增长会逐渐变慢,最后几乎停止!
在文档检索中,一个词出现的次数越多,它对相关性的贡献会逐渐"饱和":
学习新知识:
第1遍学习:收获巨大! 📚
第2遍复习:加深理解! 📖
第10遍复习:几乎没新收获... 📝
重复出现的东西,重要性会逐渐降低!
词频饱和度公式:
$$\text{TF-Sat} = \frac{\text{TF} \times (k_1 + 1)}{\text{TF} + k_1}$$横轴是词频(出现次数),纵轴是分数:
| 词频 (TF) | 计算公式 | TF-IDF (线性) |
BM25 (饱和) |
说明 |
|---|
小值 = 饱和快,大值 = 饱和慢
在BM25公式中,词频饱和度替换了原来的简单词频:
✅ 词频饱和度的目的: 让词频增长更合理,不会无限增长
✅ 饱和度公式: $\frac{\text{TF} \times (k_1 + 1)}{\text{TF} + k_1}$
✅ 核心特点: 词频低时增长快,词频高时增长慢(饱和)
✅ 参数k₁: 控制饱和速度,默认1.5效果最好
✅ 优势: 比线性增长更符合实际情况
记住:词出现1次和2次差别很大,但出现100次和101次差别很小!📈