余弦相似度是一种计算两个向量相似程度的方法。它通过测量两个向量之间的夹角来确定它们的相似性。 夹角越小,相似度越高;夹角越大,相似度越低。
向量是同时具有大小和方向的量。在数学中,我们可以用一组数字来表示向量,比如 (2, 3) 或 (1, 4, 2)。
在日常生活中,向量可以用来表示:
我们可以用向量来表示水果的特征。例如,我们可以用三个数字来描述水果:
苹果
\(\vec{A} = (1, 1, 1)\)
红色、圆形、甜的
香蕉
\(\vec{B} = (2, 2, 1)\)
黄色、弯曲、甜的
柠檬
\(\vec{C} = (2, 3, 2)\)
黄色、椭圆形、酸的
现在,我们想知道:哪两种水果更相似?
其中:
两个向量的点积是将对应位置的数字相乘后相加:
向量的长度是各个分量平方和的平方根:
步骤 1: 确定向量
苹果 = \(\vec{A} = (1, 1, 1)\)
香蕉 = \(\vec{B} = (2, 2, 1)\)
步骤 2: 计算点积
苹果 · 香蕉 = \(1 \times 2 + 1 \times 2 + 1 \times 1 = 2 + 2 + 1 = 5\)
步骤 3: 计算向量长度
|苹果| = \(\sqrt{1^2 + 1^2 + 1^2} = \sqrt{3} \approx 1.732\)
|香蕉| = \(\sqrt{2^2 + 2^2 + 1^2} = \sqrt{9} = 3\)
步骤 4: 计算余弦相似度
相似度 = \(\frac{\text{点积}}{|\text{苹果}| \times |\text{香蕉}|} = \frac{5}{1.732 \times 3} \approx \frac{5}{5.196} \approx 0.962\)
结果解释: 0.962 非常接近 1,表示苹果和香蕉非常相似。
| 水果对比 | 余弦相似度 | 相似程度 |
|---|---|---|
| 苹果 vs 香蕉 | \(0.962\) | 非常相似 |
| 苹果 vs 柠檬 | \(0.802\) | 比较相似 |
| 香蕉 vs 柠檬 | \(0.926\) | 非常相似 |
余弦相似度只关注向量的方向,不关注大小。这在很多应用中非常有用,比如: