TF-IDF算法

什么是TF-IDF？

TF-IDF是一种用来衡量一个词在一篇文章中有多重要的算法。它常用于搜索引擎、文本分析和关键词提取。

生活类比：如果你在看一本书，出现频率高且不是每本书都有的词，往往就是这本书的关键词。TF-IDF就是用数学方法帮你自动找出这些词！

TF-IDF的专业公式

词频（Term Frequency, TF） $$TF(t, d) = \frac{f_{t,d}}{\sum_{k} f_{k,d}}$$ 其中： t：词项（term） d：文档（document） ft,d：词t在文档d中出现的次数 ∑k fk,d：文档d中所有词出现的总次数 逆文档频率（Inverse Document Frequency, IDF） $$IDF(t) = \log \frac{N}{n_t + 1}$$ 其中： N：语料库中文档总数 nt：包含词t的文档数 +1：防止分母为0的平滑项 TF-IDF综合公式 $$TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t)$$ 其中： TF(t, d)：词t在文档d中的词频 IDF(t)：词t的逆文档频率

算法步骤

把文档分词（比如按空格、标点分开）
统计每个词在文档中的出现次数（TF）
统计每个词在所有文档中出现的文档数（IDF）
计算每个词的TF-IDF值
按TF-IDF值排序，得分高的就是关键词

🎮 互动演示

📝 输入你的文档

文档内容:

📈 可视化结果

实际应用场景

搜索引擎：找出和查询最相关的网页
自动摘要：提取文章核心内容
文本分类：判断文章属于哪个主题
推荐系统：根据关键词推荐内容