微信号:mdyc919293
当前位置:网站首页 > 搜索优化词汇 > 神马词汇 > 正文

权重20得分80怎么算_权重算分怎么算(权重20分是什么意思)

作者:猫某人 发布时间:2025-06-03 18:31 分类:神马词汇 浏览:12 评论:0


导读:  原文作者:新浪微博@王小科科科本文由36大数据翻译组-大海翻译,转载必须得到本站、原作者、译者的同意,拒绝任何不表明译者及泉源的转载...

  原文作者:新浪微博@王小科科科本文由36大数据翻译组-大海翻译 ,转载必须得到 本站 、原作者、译者的同意,拒绝任何不表明译者及泉源 的转载!

  怎样 进步 保举 算法的有效 性?重要 的方法是特性 转化,模子 选取 ,数据处理 惩罚 等等。降维是特性 加工中的一个紧张 部分 。

  这篇博文重要 报告 怎样 利用 降维方法来进步 以用户为底子 的协同过滤方式,协同过滤依靠 丈量 用户的相似性举行 物品保举 。我会在接下来章节里叙述 所用到的每一种方法。

  1、基准值

  这个数值的有效 性来自R(均方根偏差 )的盘算 。我通过三种均匀 值盘算 方法设定体系 基准值。第一,项目j的评分是全部 用户对于项目j的评分均值。

  Nu是用户数量 ,Rateing(ij)是用户i对于项目j的评分。

  第二 ,用户i的评分是该用户对于全部 项目评分的均值 。

  Nm是项目标 数量 (影片);Rateing(ij)是用户i对于项目j的评分。

  第三,用户i对于项目j的评分是“用户i对于全部 项目标 评分均值 ”+“全部 用户对于项目j的评分均值”-“总体评分均值”

  三种方法的评分如下:

  

  可以看到,第三种方法既思量 了项目又思量 了用户的偏好 ,比其他两种方法更好。

  2 、“浅显 方法 ”:用户为底子 的协同过滤

  这种“浅显 方法”利用 皮尔逊相干 的相似度丈量 (pcs)来发现相似用户,同时利用 它们的评分均值作为这个项目标 得分 。

  第一种方法,就利用 和我想猜测 的用户最相似的用户 ,并对这些最相似的用户对项目标 评分求均匀 值。

  但是最好的结果 不会优于最佳基准值。因此我改变第一种方法,仅仅盘算 相干 系数大于0的用户,这是第二种方法 。

  Sim(Ui)是U用户的相似用户组 ,这里我们没有利用 聚类方法,但是count(Sim(Ui)),即相似用户的数量 ,将会影响评分。

  第三种方法,我也利用 与我想猜测 的用户最相似的用户,但是我利用 用户给予产物 评分权重的相似度。

  第四种方法,我们利用 标准 化的方法 ,“用户i给项目j的评分”-“项目标 均匀 得分”-“用户的均匀 给分 ”+“总体评分的均值” 。然后利用 标准 化矩阵来盘算 用户的相似度,其他做法同第二种方法,从标准 化矩阵盘算 得分 ,“用户i给项目j的标准 化评分”+“项目标 均匀 得分 ”+“用户的均匀 给分”-“总体评分的均值”。(这种方法摘自(大数据发掘 ))。四种方法的盘算 结果 如下:

  

  总体来说,这四种方法表现 越来越好,第四种方法表现 是最优 ,它比最佳基准值方法更好 。看一下“评分VS前N项 ”的图表,我们看到从高毛病 到高方差的变革 过程,只管 高方差看起来不是个很严峻 的题目 。

  

  3、Kmeans项目聚类

  我们利用 “浅显 方法”中的第四种方法作为基准值 ,利用 Kmeans来对项目举行 聚类,然后利用 聚类信息盘算 用户相似度。这里有两种方法,第一种方法我们利用 原始数据用户 ,项目,评分来盘算 猜测 分值,第二种方法我们利用 聚类用户,聚类 ,评分均值(评分均值是聚类的评分均值)盘算 猜测 得分。

  聚类的数值,相似用户的数值,练习 次数的数值和很多 其他实行 细节将会影响结果 。我只思量 聚类的数值和相似用户的数值 ,评分信息的图表如下,每一个分图的标题上的数值是聚类数值,X轴是相似用户大概 聚类的数值 ,Y轴是均方偏差 的数值。

  

  我们能看到,从topN越变越大,方法的正确 性越来越高 ,接着变得安稳 并有点变差;方法2比方法1更安稳 ,但是最好的结果 还是 方法1。大多数不会比最优浅显 协同过滤方法,但是最好的结果 比它好 ,比如 方法1的参数TopN=50和ClusterNumber =150,RMSE(均方根偏差 )是0.932186048 。

  4、我们用浅显 方法的第四种方法作为基准值,利用 EM方法举行 项目聚类,然后利用 聚类信息盘算 用户相似度 ,这里我们能选择很多 种方法:

  (1)仅利用 最大概率的类作为猜测 聚类大概 利用 聚类信息的初始概率;

权重20得分80怎么算_权重算分怎么算 权重20得分80怎么算_权重算分怎么算(权重20分是什么意思) 神马词汇

  (2)利用 用户,项目,评分矩阵来盘算 猜测 分数大概 利用 聚类信息用户 ,聚类,评分均值来盘算 预算分数。

  (3)EM算法中有很多 种差别 的参数可供选择,比方 方差范例 ,大概 是球形、带形 、矩形大概 完备 形。

  这里由于时间有限,我们只先容 两种方法 。起首 ,我们利用 最高概率的聚类作为猜测 聚类 ,利用 初始用户,项目,评分矩阵来盘算 猜测 分数。第二种方法 ,我们利用 聚类概率信息找出最高的n个相似用户,并利用 用户,聚类,评分均值(均值评分是聚类的评分均值)矩阵来盘算 猜测 分数。结果 如下:

  

  我们也看到 ,从topN越变越大,两种方法的正确 性越来越高,接着变得安稳 并有点变差;方法1已经充足 好了 ,它们的最佳得分比浅显 方法的基准值得分还要好,比方 :topN=50/ ClusterNumber =80(RMSE:0.925359902),topN=50/ ClusterNumber =150(RMSE:0.926167057) 。第二种方法更加安稳 ,一些结果 也很好,如topN=100/ ClusterNumber =150(RMSE:0.931907),随着聚类数值越来越大 ,正确 性越来越高,但是时间本钱 也越来越高。

  5、相似性盘算

  在上一章节,我刚利用 了皮尔逊相干 的相似度丈量 (pcs)找到相似用户 ,但是有很多 其他方法可以实行 ,比方 :

  (1)余弦相似度(cosine similarity),是丈量 一个内积空间中两个向量间相似度的一种丈量 ,丈量 两者之间的夹角余弦。我们可以将一个用户的评分看做一个向量 。

  (2)欧式间隔 (Euclidean distance) ,将数据看做点,数据x和数据x的间隔 是毗连 x和y的连线部分 的长度。

  操纵 第一步,我们先做标准 化(同浅显 方法的第四种方法雷同 ) ,用户i对项目j的标准 化评分是用户i给项目j的初始分值-项目标 均匀 分值-用户的均匀 分值+全部 分值的总体均匀 。

  第二步,我们也能选择差别 评价权重的盘算 方法,这里我们用雷同 评分作为雷同 用户的权庞大 概 将它视为1。上面的谁人 我们叫做SWM (同权重方法), ,下面的谁人 我们叫OWM(“1”权重方法) 。具体 如下:

  

  我比力 皮尔逊相干 系数相似性战略 (pcs)/余弦相似度(cosine similarity)/ 欧式间隔 (Euclidean distance)相似方法, 将每个雷同 的用户的权重看做1 (OWM method)。下面是评分VS前n(盘算 相似用户)的图表,我们看出余弦相似度方法是最好的,欧式间隔 方法是最差的。

  接下来 ,我利用 余弦相似度方法来比力 两种差别 的权重盘算 方法 。

  

  我们看到,SWM更加稳固 ,但是最高的得分是OWM ,参数topN=100 (数值是0.924696436)。

  

  6、降维方法

  这一章,我来讲授 更深条理 的降维方法:

权重20得分80怎么算_权重算分怎么算 权重20得分80怎么算_权重算分怎么算(权重20分是什么意思) 神马词汇

  (1)主因素 分析法(Principal component analysis),它是利用 数据的奇特 值分解一种线性降维方法,只保持最明显 的特性 向量将向量投影到低维的空间。

  (2) 独立品 分 分析(Independent component analysis) ,是将一个多变量符号分别 为具有最大独立性的附加子因素 。

  我利用 余弦作为相似度的盘算 方法,实行 了连合 SWM和OWM的两种方法。结果 会更好。我们看到两种方法都实用 于SWM,PCA的最好得分是0.917368073(topN==5/SWM), ,ICA最好的得分是0.916354841(ton==5/SWM),这是我陈诉 中全部 方法中最好的 。

  

  7 、结论

  从以上章节,我们可以看出 ,聚类和直接的降维方法在协同过滤保举 的小型盘算 体系 中是行之有效 的。它可以或许 资助 我们处理 惩罚 大方差题目 。同时也有很多 差别 的技能 影响保举 引擎的正确 性,比方 LDA主题模子 ,利用 组合算法和逻辑回归将很多 方法组合起来 。我将更进一步做这些先容 。

  代码托管:https://github.com/wangkobe88/Mercury/tree/master/ubcf

  原文地点 :https://www.wangke.me/?p=142非常感谢原作者@王小科科科给我们巨大的支持。

  End.

标签:


相关推荐


热门推荐

您最想看到的:

取消回复欢迎 发表评论

  • 请填写验证码
  • 神马词汇排行
    相关词汇
    标签列表
    相关推荐
  • 店肆 评分多久可以规复 _店肆 的评分怎么样才华 规复
  • 球乐乐比分怎样的外链才算是好外链?-乐乐-学习网-比分-好外链-外链才
  • 投资回报率怎么算?-学习网-投资回报率-SEO
  • 百度指数搜刮 热度_百度指数搜刮 热度怎么算
  • 网站权重百度权重怎么看_网站权重百度权重怎么看的
  • 拼多多权重掉了要怎么刷上去_拼多多权重是什么意思?拼多多权重有什么用?
  • 百度权重值是什么意思-如何提高百度权重-seo书架-权重-学习网-书架-seo-SEO
  • 百度权重(BR)2_百度权重是百度官方发布的网站权重数值
  • 网站权重1升权重2多久_一个新网站权重0多久到1
  • 百度权重1的网站值多钱_百度权重是百度官方发布的网站权重数值
  • 网站权重对应的品级 _网站权重是什么意思,怎样 进步 百度权重
  • 网址权重查询在线查询_网站权重是什么意思,怎样 进步 百度权重
  • 百度权重4-7的财经网站有哪些_百度权重是百度官方发布的网站权重数值
  • seo搜狗有权重怎么回事_seo搜狗有权重怎么回事啊
  • 网站怎么提拔 到权重1_网站怎么提拔 到权重15
  • 随机列表

    关灯