词频(Term Frequency, TF)
$$TF(t, d) = \frac{f_{t,d}}{\sum_{k} f_{k,d}}$$
其中:
t:词项(term)
d:文档(document)
ft,d:词t在文档d中出现的次数
∑k fk,d:文档d中所有词出现的总次数
逆文档频率(Inverse Document Frequency, IDF)
$$IDF(t) = \log \frac{N}{n_t + 1}$$
其中:
N:语料库中文档总数
nt:包含词t的文档数
+1:防止分母为0的平滑项
TF-IDF综合公式
$$TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t)$$
其中:
TF(t, d):词t在文档d中的词频
IDF(t):词t的逆文档频率