0%

推荐系统学习笔记

基于个性化广告推荐系统的需求,学习相关推荐系统知识

1 个性化广告的概念

​ 广告是互联网公司生存的根本,目前,很多广告都是随机投放的,即每次用户来了,随机选择一个广告投放给他。 个性化广告投放目前已经成为了一门独立的学科——计算广告学——但该学科和推荐系统在很多基础理论和方法上是相通的,比如它们的目的都是联系用户和物品,只是在个性化广告中,物品就是广告

​ 广告投放技术分为3类:

  • 上下文广告 通过分析用户正在浏览的网页内容,投放和网页内容相关的广告。代表系统是谷歌的Adsense。
  • 搜索广告 通过分析用户在当前会话中的搜索记录,判断用户的搜索目的,投放和用户目的相关的广告。
  • 个性化展示广告 我们经常在很多网站看到大量展示广告(就是那些大的横幅图片),它们是根据用户的兴趣,对不同用户投放不同的展示广告。雅虎是这方面研究的代表

2 推荐系统的优点和好处

​ 可帮助用户在大信息中找到自己喜欢的内容。如淘宝的猜你喜欢,抖音个性化视频推荐。

3 推荐系统的术语

  • (1) 条目: 推荐系统实体,淘宝的实体为用户购买的商品,抖音的实体就是视频
  • (2) 查询:推荐系统给出推荐内容的来源,可以是以下三种的组合
    • 用户信息:用户的ID,用户先前与之产生交互的条目
    • 上下文信息:一天中的时间,用户的设备
    • 条目信息:商品名称,商品类别
  • (3) 嵌入(Embedding): 离散集合(查询集或推荐条目)==>嵌入空间的映射。

4 **推荐系统架构

​ 推荐系统体系架构分成三部分: 召回、打分、重排

4.1 召回(笼统排序)

​ 即从众多信息中生成候选集合。如抖音从几十亿视频选出一千个。此过程需要快速查询。

​ 方法:给定模型可有多个召回队列,每个队列都筛选不同类型的候选子集。

4.1.1 召回方法:

  • ​ 基于内容的过滤:
  • ​ 协同过滤:
  • ​ 基于神经网络方法:

4.2 计分(精细排序)

​ 另一个模型对候选集进行评分和排序,以选择要显示给用户的集合(大约10个)。由于此模型评估的是商品的相对较小子集,因此系统可以依靠其他信息来使用更精确的模型。

4.3 重排

​ 最后,系统必须考虑最终排名的其他限制。例如,系统删除用户明确不喜欢的项目或提高时效内容的得分。重新排序还可以帮助确保多样性,时效性和公平性。

5 推荐系统实验方法

​ 推荐系统主要有3种评测推荐效果的实验方法,即离线实验( offline experiment)、用户调查( user study)和在线实验( online experiment)

5.1 离线试验

      离线实验的方法一般由如下几个步骤构成:
    (1) 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集
    (2) 将数据集按照一定的规则分成训练集和测试集;
    (3) 在训练集上训练用户兴趣模型,在测试集上进行预测;
    (4) 通过事先定义的离线指标评测算法在测试集上的预测结果。  

表1 离线实验的优缺点

| 优点 | 缺点 |
| :—————————————————————: | :———————————————: |
| 不需要有对实际系统的控制权 | 无法计算商业上关心的指标 |
| 不需要用户参与实验、速度快,可以测试大量算法 | 离线实验的指标和商业指标存在差距 |

5.2 用户调查

​ 用户调查需要有一些真实用户,让他们在需要测试的推荐系统上完成一些任务。在他们完成任务时,我们需要观察和记录他们的行为,并让他们回答一些问题。最后,我们需要通过分析他们的行为和答案了解测试系统的性能。

​ 用户调查的优缺点也很明显。它的优点是可以获得很多体现用户主观感受的指标,相对在线实验风险很低,出现错误后很容易弥补。缺点是招募测试用户代价较大,很难组织大规模的测试用户,因此会使测试结果的统计意义不足。此外,在很多时候设计双盲实验非常困难,而且用户在测试环境下的行为和真实环境下的行为可能有所不同,因而在测试环境下收集的测试指标可能在真实环境下无法重现。

5.3 在线实验

将推荐系统上线做AB测试,将它和旧的算法进行比较 。

本文参考以下内容:https://zhuanlan.zhihu.com/p/87578318

-------------未完待续-------------