什么是逆文档频率(IDF)?

1. 基础定义

IDF(Inverse Document Frequency,逆文档频率)是信息检索和BM25等算法中用来衡量"关键词稀有程度"的指标。IDF越高,说明关键词越稀有、越重要。

通俗理解: 如果一个词在所有文章里都出现,它就没什么区分度;如果只在少数文章里出现,它就很有"辨识度"。

2. 生活类比

3. 公式与计算

IDF的常见公式(BM25中):

\[ IDF(q) = \log\left( \frac{N - df + 0.5}{df + 0.5} + 1 \right) \]

其中:

4. 为什么要用Math.log?

总结: log让IDF分数既能区分稀有词,又不会过度夸大,非常科学!

5.

输入关键词,系统会动态计算IDF值,并展示log的作用:

请输入关键词
小结: IDF 让我们能用数学方法衡量"关键词的稀有性",log让分数更平滑,是现代搜索和AI检索的基础。