科数网
首页
题库
试卷
学习
VIP
你好
游客,
登录
注册
在线学习
高中数学
第十二章:概率与统计
阅读:夹角余弦与文本分类
最后
更新:
2025-04-12 09:20
查看:
90
次
反馈
同步训练
阅读:夹角余弦与文本分类
## 夹角余弦与文本分类 在这个信息爆炸的大数据时代,我们每天都会接收到大量信息。传统的新闻报道,受众只是单纯地了解世界上新近发生的事情,而现在新闻网络平台则会根据读者的兴趣爱好,进行个性化的信息推送.这就涉及如何判断文章相似性的问题. 为了找出相似的文章,需要用到"余弦相似性"。下面,我们以一个简单的例子加以说明. 句子 $A$ :我喜欢看电视,不喜欢看电影. 句子 $B$ :我不喜欢看电视,也不喜欢看电影. 如何评判上面两句话的相似程度? 第一步,分词。 句子 $A$ :我/喜欢/看/电视,不/喜欢/看/电影. 句子 $B$ :我/不/喜欢/看/电视,也/不/喜欢/看/电影. 第二步,列出所有的词. 我,喜欢,看,电视,电影,不,也. 第三步,计算词频. 句子 $A$ :我 1 ,喜欢 2 ,看 2 ,电视 1 ,电影 1 ,不 1 ,也 0 . 句子 $B$ :我 1 ,喜欢 2 ,看 2 ,电视 1 ,电影 1 ,不 2 ,也 1 . 第四步,写出词频向量. 句子 $A:(1,2,2,1,1,1,0)$ . 句子 $B$ :$(1,2,2,1,1,2,1)$ . 至此,问题转化为计算这两个向量的相似程度. 设两个向量夹角为$\alpha$ $$ \cos \alpha=\frac{1 \times 1+2 \times 2+\
免费注册看余下 50%
非VIP会员每天15篇文章,开通VIP 无限制查看
上一篇:
阅读:敏感问题的统计
下一篇:
高考研究:数学期望综合练习
本文对您是否有用?
有用
(
0
)
无用
(
0
)
更多
学习首页
数学试卷
同步训练
投稿
题库下载
会议预约系统
数学公式
关于
科数网是专业专业的数学网站 版权所有 本站部分教程采用AI辅助生成,请学习时自行鉴别
如果页面无法显示请联系 18155261033 或 983506039@qq.com