什么是逆文档频率（IDF）？

1. 基础定义

IDF（Inverse Document Frequency，逆文档频率）是信息检索和BM25等算法中用来衡量"关键词稀有程度"的指标。IDF越高，说明关键词越稀有、越重要。

通俗理解： 如果一个词在所有文章里都出现，它就没什么区分度；如果只在少数文章里出现，它就很有"辨识度"。

IDF的常见公式（BM25中）：

\[ IDF(q) = \log\left( \frac{N - df + 0.5}{df + 0.5} + 1 \right) \]

其中：

总结： log让IDF分数既能区分稀有词，又不会过度夸大，非常科学！

输入关键词，系统会动态计算IDF值，并展示log的作用：

请输入关键词

小结： IDF 让我们能用数学方法衡量"关键词的稀有性"，log让分数更平滑，是现代搜索和AI检索的基础。