🔍 TF-IDF算法通俗讲解

让计算机自动找出文章关键词的魔法公式!

什么是TF-IDF?

TF-IDF是一种用来衡量一个词在一篇文章中有多重要的算法。它常用于搜索引擎、文本分析和关键词提取。

生活类比:如果你在看一本书,出现频率高不是每本书都有的词,往往就是这本书的关键词。TF-IDF就是用数学方法帮你自动找出这些词!

TF-IDF的专业公式

词频(Term Frequency, TF)
$$TF(t, d) = \frac{f_{t,d}}{\sum_{k} f_{k,d}}$$
其中:
t:词项(term)
d:文档(document)
ft,d:词t在文档d中出现的次数
k fk,d:文档d中所有词出现的总次数

逆文档频率(Inverse Document Frequency, IDF)
$$IDF(t) = \log \frac{N}{n_t + 1}$$
其中:
N:语料库中文档总数
nt:包含词t的文档数
+1:防止分母为0的平滑项

TF-IDF综合公式
$$TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t)$$
其中:
TF(t, d):词t在文档d中的词频
IDF(t):词t的逆文档频率

算法步骤

  1. 把文档分词(比如按空格、标点分开)
  2. 统计每个词在文档中的出现次数(TF)
  3. 统计每个词在所有文档中出现的文档数(IDF)
  4. 计算每个词的TF-IDF值
  5. 按TF-IDF值排序,得分高的就是关键词

🎮 互动演示

📝 输入你的文档

📈 可视化结果

实际应用场景