首页 > 技术,让世界更美好。 > 【推荐算法】基于内容的推荐的实践

【推荐算法】基于内容的推荐的实践

2017年12月19日

1.首先是主要算法逻辑

 

step1:评分矩阵建模

 

​ 对用户有过历史行为的物品进行建模评分,生成<user_id, item_id, score>三元组(注意这里的三元组只是针对用户历史上发生过行为的物品)

 

step2:物品特征生成

 

​ 通过特征工程抽取物品表的keywords,description,properties特征(分别是物品的关键词、描述、特征三个字段)。完成特征合并,特征变换得到物品的特征。

 

step3:推荐候选集生成

 

​ 对step2得到的物品特征,做笛卡尔积运算,相似度算法相似度算法决定,这里的笛卡尔积的运算,不会产出所有结果,只会产出每个物品-物品topn的候选集,避免占用过多存储,物品的相关列表(OFFLINE_ITEM_ITEM_REC)。然后结合用户评分,通过近邻推荐,得到用户对物品的推荐集合(OFFLINE_USER_ITEM_REC)。如果<多分类推荐> 选择为true,还会生成另外两个多类目的候选集OFFLINE_MULTICLASS_USER_ITEM_REC,OFFLINE_MULTICLASS_ITEM_ITEM_REC ​

 

step4:数据合并汇总

 

​ 将计算结果进行汇总,导入到在线存储。

 

2.物品/物品相似度计算方法

 

  • 向量内积

  • L1规范化的向量内积

先对特征做L1规范化,再做向量内积。L1规范化:

L1正则化是指权值向量w中各个元素的绝对值之和,通常表示为||w||1
L2正则化是指权值向量w中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号),通常表示为||w||2

  • 向量余弦夹角

 

本文的评论功能被关闭了.