什么是逆文档频率(IDF)?
1. 基础定义
IDF(Inverse Document Frequency,逆文档频率)是信息检索和BM25等算法中用来衡量"关键词稀有程度"的指标。IDF越高,说明关键词越稀有、越重要。
通俗理解: 如果一个词在所有文章里都出现,它就没什么区分度;如果只在少数文章里出现,它就很有"辨识度"。
2. 生活类比
- "篮球"在体育新闻里很常见,IDF低;"量子纠缠"在大多数文章里很少见,IDF高。
- 在班级里,"张三"这个名字很常见,区分不了谁;"爱因斯坦"很少见,一提就知道是谁。
3. 公式与计算
4. 为什么要用Math.log?
- 对数能让"稀有词"分数提升更明显,但又不会让分数无限大。
- 如果不用log,稀有词的分数会线性增长,容易被极端值影响。
- 用log后,分数增长变得平滑,更适合实际检索排序。
总结: log让IDF分数既能区分稀有词,又不会过度夸大,非常科学!
5.
输入关键词,系统会动态计算IDF值,并展示log的作用:
- 人工智能正在改变世界。
- 机器学习和深度学习是人工智能的重要分支。
- 猫和狗是常见的宠物。
- AI可以帮助医生诊断疾病。
- 篮球是一项受欢迎的运动。
小结: IDF 让我们能用数学方法衡量"关键词的稀有性",log让分数更平滑,是现代搜索和AI检索的基础。