基于个性化混合推荐算法的网络推荐系统

日期：2018-06-15 20:02:51 浏览次数：

　　提要：在最近的工作中，提出个性化推荐算法，它在准确性和多样性两个方面有很高的绩效。该方法是基于两个单算法概率扩散和热传导的杂交，它们分别是倾向于推荐受欢迎和不受欢迎的产品。凭着可调参数，可以在系统层面实现这两种算法之间的最佳平衡。该文中，在个人层面应用这种混合方法，即每个用户都可以调整他/她自己的个性化的混合参数。有趣的是，笔者发现用户在个性化混合参数和推荐绩效方面相当的不同。如果给每个用户分配最佳的个性化混合参数，那幺推荐绩效就会有显着的提高。此外，在收集的项目中笔者发现用户的个性化参数与用户个人等级呈负相关，但是与用户的平均等级呈正相关。根据对这些的理解，该文提出了一个分配给用户合适的个性化参数的策略，它使原来的混合方法得到进一步的改善。最后，该工作突出考虑推荐用户多样

基于个性化混合推荐算法的网络推荐系统

性的重要性。
　　关键词：个性化推荐算法；个性化混合参数
　　中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2016）10-0192-02
　　最近几年我们见证了信息爆炸的严重问题。信息的数量，尤其是网络信息，增长量远远超过了我们处理信息的能力。随着网络资源的快速膨胀，极大地增加了对大量信息进行有效过滤的必要性。在这种情况下，推荐系统应运而生。推荐系统根据用户在互联网上活动的历史记录发现他们的潜在兴趣而不是根据用户所提供的指定关键字。到目前为止，基于不同的想法和概念，大量的推荐算法已经被提出，包括：协同过滤算法，基于内容的方法，频谱分析，潜在语义模型和狄利克雷分配，迭代自洽细化以及拓扑适配方法等。而本文我们所研究的内容是基于个性化混合推荐方法（HHP）的进一步改善。
　　1 个性化混合推荐概述
　　最近，一些基于扩散推荐算法，如热传导和概率扩散，已经应用于个性化推荐。概率扩散方法倾向于为个性化目标用户推荐受欢迎的产品，然而热传导方法倾向于推荐冷门的产品。不久之后，提出用混合方法（HHP）与热传导算法和概率扩散算法相结合获得更高的推荐绩效。凭借着可调整的混合参数，为HHP方法提供了流畅的从一个方法到另一个方法的过渡。每个真实系统被视为具有其最佳混合参数，同时，通过最近提出的优先选择扩散过程，偏热传导和网络操作，基于扩散推荐算法的性能已经得到增强。
　　原HHP最优的混合参数具有普遍价值，系统实现了对冷门项目和受欢迎项目的推荐的最佳平衡。那就是说，系统中的所有用户都采用相同的混合参数。然而，HHP方法不考虑实际用户的多样性。事实上，混合算法可以在各体级别上应用，可以调整每个用户他/她自己的个性化混合参数。明确地说，如果用户喜欢收集受欢迎的产品，混合方法应该给予扩散算法更多的权重，因为扩散算法擅长推荐受欢迎的产品，反之亦然。
　　在这种动机下，在这一篇文章中我们对关于用户的最佳个性化混合参数做了仔细的研究。我们设置两个参照数据（电影推荐和美食推荐），并发现如果分配给所有用户最佳的混合参数，那幺，推荐后的绩效就会显着增强。我们也发现每个用户都会有各自不同的最佳个性化混合参数。同时，我们发现用户的个性化参数与用户个人等级呈负相关，但是与用户的平均等级呈正相关。最后，我们提出一个面向用户的HHP（UHHP）算法，在这个算法中，根据每个用户的水平，分配给他们个性化混合参数。模型表明UHHP能进一步提高原HHP算法的绩效。最后，我们的工作突出考虑推荐用户多样性的重要性。
　　2 数据和指标
　　我们设置电影推荐和美食推荐两个参数来进行分析。电影推荐数据包含10万条真实的评级数据，这些数据来自于943个用户、1682部电影。然后，用一个粗粒化进程将这些评级转化为一元形式：只有评级为3及3以上才被认为是通过用户收集的，其中，5是最高评级。粗粒化进程之后，仍存在943个用户和1574项与85250边缘（稀疏度是5.20·10-2）。美食推荐数据本质上是一元的，表明用户是否已经收集到任何的网页链接。它包含9998个用户和232657项与1，233，995边缘（稀疏度是5.30·10-4）。为了检测推荐算法，数据被分为两部分：训练集Et和探针集Ep，比例为9：1。训练集被视为已知的信息，而探针集用于预测未知的信息。
　　该推荐算法可以为每个用户提供属于他/她自己的未收集项目的有序列表。好的算法是能给出准确的推荐，即在探针集中在推荐列表的顶部放置更多的项目。我们先用秩得分衡量推荐算法产生与用户喜好相匹配的良好有序项目的能力。因此真实用户通常只考虑推荐列表顶部的物品，也可以使用两种比较实用的方法，即精确度和召回率。
　　秩得分：该推荐算法可以为每个用户提供属于他/她自己的未收集项目的有序列表。对于目标用户i，我们计算他/她在探针集中的链接位置。例如，如果i有1000个未收集的项目，α项是有序列表的前30，我们说α的位置是30/1000，因此秩得分RSiα = 0.03。平均秩得分超过所有的探头对，从整个系统中我们获得了最终的秩得分RS。好的算法，预计将会得到一个小的RS。除了整个系统的整体RS，我们只考虑局部秩得分，该秩得分仅考虑冷门项目（i.e.items with small degree）。由于它们的信息很少，难以准确地推荐是正常的。这就是众所周知的冷启动问题。我们用RSk<=x代表程度小于x的项目平均秩得分。根据之前的研究，在我们的工作中将x赋值为10。
　　精确度：对于一个目标用户i，推荐的精度Pi（L）被定义为Pi（L）=hi（L）/L，其中hi（L）代表热门项目的数量（即相同的项目存在于探针集和推荐列表的前L的位置）。求所有用户准确性的平均数，我们得到整个系统的平均准确性P（L）。在本文中L=20。
　　召回率：用相同的方法，用户i的召回率为Ri（L），它被定义为Ri（L）=Hi（l）/Li，其中hi（L）表示热门项目的数量，Li是用户i在探针集中收集到的项目的数量。求所有用户召回率的平均值，我们得到整个系统中的平均召回率R（L），再次设置L=20。

上一篇：“转型与提升——新信息、新成果、新途径”座谈会发言摘要

下一篇：做合格党员,促企业发展