在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
首页
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
你好
游客,
登录
注册
在线学习
高中数学
第十二章:排列组合与概率统计
阅读:夹角余弦与文本分类
最后
更新:
2025-04-12 09:20
查看:
48
次
反馈
刷题
阅读:夹角余弦与文本分类
## 夹角余弦与文本分类 在这个信息爆炸的大数据时代,我们每天都会接收到大量信息。传统的新闻报道,受众只是单纯地了解世界上新近发生的事情,而现在新闻网络平台则会根据读者的兴趣爱好,进行个性化的信息推送.这就涉及如何判断文章相似性的问题. 为了找出相似的文章,需要用到"余弦相似性"。下面,我们以一个简单的例子加以说明. 句子 $A$ :我喜欢看电视,不喜欢看电影. 句子 $B$ :我不喜欢看电视,也不喜欢看电影. 如何评判上面两句话的相似程度? 第一步,分词。 句子 $A$ :我/喜欢/看/电视,不/喜欢/看/电影. 句子 $B$ :我/不/喜欢/看/电视,也/不/喜欢/看/电影. 第二步,列出所有的词. 我,喜欢,看,电视,电影,不,也. 第三步,计算词频. 句子 $A$ :我 1 ,喜欢 2 ,看 2 ,电视 1 ,电影 1 ,不 1 ,也 0 . 句子 $B$ :我 1 ,喜欢 2 ,看 2 ,电视 1 ,电影 1 ,不 2 ,也 1 . 第四步,写出词频向量. 句子 $A:(1,2,2,1,1,1,0)$ . 句子 $B$ :$(1,2,2,1,1,2,1)$ . 至此,问题转化为计算这两个向量的相似程度. 设两个向量夹角为$\alpha$ $$ \cos \alpha=\frac{1 \times 1+2 \times 2+\cdots+0 \times 1}{\sqrt{1^2+2^2+\cdots+0^2} \times \sqrt{1^2+2^2+\cdots+1^2}}=\frac{13}{\sqrt{12 \times 16}} \approx 0.938 $$ 向量夹角的余弦值越接近 1 ,就表明夹角越接近 $0^{\circ}$ ,也就是两个向量越相似,这就叫 "余弦相似性"。所以,上面的句子 $A$ 和句子 $B$ 是很相似的,事实上它们的夹角大约为 $20.3^{\circ}$ 。 如果是人工编辑来判断,也会把句子 $A$ 和句子 $B$ 归为相似,因为这两句话虽然意思有差别,但讨论的都是对电视,电影的喜好。计算机来判断,可不管什么"喜好",它不是"读"新闻,而是"算"新闻。由于计算机能不知疲倦地快速计算,在文本匹配,海量数据处理这些事情上,比人工更有优势。 数学家们在研究夹角的余弦时,恐怕想不到它还有这样的妙用!目前,文本相似度计算在信息检索,数据挖掘,机器翻译,文档复制检测等领域有着广泛的应用,给我们的工作,生活带来了很大的方便.
开VIP会员
非会员每天6篇,会员每天16篇,VIP会员无限制访问
题库训练
自我测评
投稿
上一篇:
阅读:相关系数的几何意义
下一篇:
附录:杨辉三角
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。