推荐系统学习笔记

基于个性化广告推荐系统的需求，学习相关推荐系统知识

1 个性化广告的概念

广告是互联网公司生存的根本，目前，很多广告都是随机投放的，即每次用户来了，随机选择一个广告投放给他。个性化广告投放目前已经成为了一门独立的学科——计算广告学——但该学科和推荐系统在很多基础理论和方法上是相通的，比如它们的目的都是联系用户和物品，只是在个性化广告中，物品就是广告。

广告投放技术分为3类：

上下文广告 通过分析用户正在浏览的网页内容，投放和网页内容相关的广告。代表系统是谷歌的Adsense。
搜索广告 通过分析用户在当前会话中的搜索记录，判断用户的搜索目的，投放和用户目的相关的广告。
个性化展示广告 我们经常在很多网站看到大量展示广告（就是那些大的横幅图片），它们是根据用户的兴趣，对不同用户投放不同的展示广告。雅虎是这方面研究的代表

2 推荐系统的优点和好处

可帮助用户在大信息中找到自己喜欢的内容。如淘宝的猜你喜欢，抖音个性化视频推荐。

3 推荐系统的术语

(1) 条目：推荐系统实体，淘宝的实体为用户购买的商品，抖音的实体就是视频
(2) 查询：推荐系统给出推荐内容的来源，可以是以下三种的组合
- 用户信息：用户的ID，用户先前与之产生交互的条目
- 上下文信息：一天中的时间，用户的设备
- 条目信息：商品名称，商品类别
(3) 嵌入(Embedding): 离散集合(查询集或推荐条目)==>嵌入空间的映射。

4 **推荐系统架构

推荐系统体系架构分成三部分: 召回、打分、重排

4.1 召回(笼统排序)

即从众多信息中生成候选集合。如抖音从几十亿视频选出一千个。此过程需要快速查询。

方法：给定模型可有多个召回队列，每个队列都筛选不同类型的候选子集。

4.1.1 召回方法：

基于内容的过滤：
协同过滤：
基于神经网络方法：

4.2 计分(精细排序)

另一个模型对候选集进行评分和排序，以选择要显示给用户的集合（大约10个）。由于此模型评估的是商品的相对较小子集，因此系统可以依靠其他信息来使用更精确的模型。

4.3 重排

最后，系统必须考虑最终排名的其他限制。例如，系统删除用户明确不喜欢的项目或提高时效内容的得分。重新排序还可以帮助确保多样性，时效性和公平性。

5 推荐系统实验方法

推荐系统主要有3种评测推荐效果的实验方法，即离线实验（ offline experiment）、用户调查（ user study）和在线实验（ online experiment）

5.1 离线试验

      离线实验的方法一般由如下几个步骤构成：
    (1) 通过日志系统获得用户行为数据，并按照一定格式生成一个标准的数据集
    (2) 将数据集按照一定的规则分成训练集和测试集；
    (3) 在训练集上训练用户兴趣模型，在测试集上进行预测；
    (4) 通过事先定义的离线指标评测算法在测试集上的预测结果。

表1 离线实验的优缺点
| 优点 | 缺点 |
| :—————————————————————: | :———————————————: |
| 不需要有对实际系统的控制权 | 无法计算商业上关心的指标 |
| 不需要用户参与实验、速度快，可以测试大量算法 | 离线实验的指标和商业指标存在差距 |

5.2 用户调查

用户调查需要有一些真实用户，让他们在需要测试的推荐系统上完成一些任务。在他们完成任务时，我们需要观察和记录他们的行为，并让他们回答一些问题。最后，我们需要通过分析他们的行为和答案了解测试系统的性能。

用户调查的优缺点也很明显。它的优点是可以获得很多体现用户主观感受的指标，相对在线实验风险很低，出现错误后很容易弥补。缺点是招募测试用户代价较大，很难组织大规模的测试用户，因此会使测试结果的统计意义不足。此外，在很多时候设计双盲实验非常困难，而且用户在测试环境下的行为和真实环境下的行为可能有所不同，因而在测试环境下收集的测试指标可能在真实环境下无法重现。

5.3 在线实验

将推荐系统上线做AB测试，将它和旧的算法进行比较。

本文参考以下内容：https://zhuanlan.zhihu.com/p/87578318