信息流产品和内容推荐算法笔记

 

推荐理论上简化框架

  • UI界面:展示内容并和用户交互
  • 用户行为上报系统:记录用户行为,并上报到日志存储系统
  • 用户行为日志储存系统: 分析用户行为,生成推荐数据列表

影响推荐效果实际框架案例

Partner:合作伙伴

Crawler:爬虫

DB:每天库中更新的文章(20w)

Content Parser:分词提取器

     语义分析,文章分析,形成标签,类型;

Filter:过滤

Feeder:过滤后放入feeder数据库

Feature Server:特征

Index:用户数据索引

  • Session sever:根据会话行为做记录及上报,同步更新到用户索引
  • Log:用户行为日志

Recall:召回↓

  • CF ( Collaborative Filtering):协同过滤
  • User CF 基于用户相似度,计算,向量空间举证,计算另一个人感兴趣的推荐给我
  • Item CF 基于物品协同过滤,之前看过一篇文章,基于文章相似度推荐

步骤:

  • 收集用户偏好
  • 找到相似的用户或物品
  • 计算推荐
  •  CB(Content Base) :基于内容本身做提取,类别带有该类/关键词/搜索的用户
  • NH:NewsHot热门的文章
  •    Action:用户行为被用户点赞阅读评论
  •    User Profile:用户属性(性别,定位等)
  • Time:时间衰减性

Rank:排序模块  2k筛选200

  • CTR(Click-Through Rate): 点击率
  • Time:阅读时长预估

基于机器训练,有各自权重排序打分

只关注CTR会造成标题党泛滥

Rerank:200选15

  • Bayes:为了增加文章多样性,同类推荐文章进行打散,例: 1.热门2.基于userCF 3.itemCF 4.content base
  • Fix:增加10%-15%探索性内容,不希望马太效应,给用户打上固定标签,就看不到其他类型内容

 

 

***
CF ( Collaborative Filtering):协同过滤
步骤:
      • 收集用户偏好
        • 减噪
        • 归一化( 最简单的归一化处理,就是将各类数据除以此类中的最大值,以保证归一化后的数据取值在 [0,1] 范围中)
      • 找到相似的用户或物品
      • 计算推荐
user based& item based
***

算法模型评测指标

  • 准确率:推荐列表里,多少比例的文章是用户读过的;
  • 召回率:用户读过的推荐列表中的文章占阅读记录的比例;
  • 覆盖率:推荐列表里的文章占总文章的比例;

核心业务指标:(真正算法效果)

  • UV:阅读UV/曝光UV 反映曝光用户转化为阅读用户比例
  • PV:阅读PV/曝光PV 反映文章转化情况
  • 人均篇数:阅读PV/阅读UV 反映内容消费深度
  • 人均阅读时长:阅读总时长/阅读UV 反映内容消费深度

文章库支撑四个维度:

  • 多样性
  • 数量
  • 质量
  • 时效性

影响推荐效果的因素

  • 交互视觉影响用户对内容的预期

风格和内容相匹配

例:今日头条 腾讯新闻 淘新闻

留白对于UV的影响

对于layout排版,留白减少10% UV转化率提升5%

刷新速度对UV的影响

用户从开始下拉刷新,到看到内容更新的时间间隔

间隔越小,用户越愿意下拉刷新,uv转化率会提升

由2700ms减少至2200ms后,uv转化率上升5%

  • 参数调优 Parameter tuning is an art more than science

           例:

频道排序对用户留存影响

基于各频道消费时长/总时长进行排序调整,发现主动次日留存短时间内上升

*主动次日留存:桌面icon进入应用

 被动次日留存:点击push进入应用

 

下拉刷新更新条数

今日头条做法(UC已做实验),首次下拉刷新15条-19条,第二次及以后8条

对算法效果比较好

 

新闻条目小字信息

来源 评论数 下发时间(暗示不断能刷出新内容)

  • 数据上报

全面性

数据量大

上报准确

会极大影响推荐的准确度和策略的选择

 上报规范

 上报时机

上报阈值

上报去重(很短时间内再次点击)

 

上报内容

内容条目曝光上报

内容条目点击上报

内容条目详情页时长上报

列表/专题页时长上报

详情页/视频/专题完成度上报

 

  • 冷启动策略

对于新用户可获取的数据:

地点,设备,热点,其他

 

  • 探索与发现

推荐效果上产生瓶颈效应,解决马太效应

 

解决办法:

当用户有新行为,用户画像实时更新

增加时间衰减性,用户过去的特征逐渐降权

在推荐结果列表中,增加探索性内容

  • 算法模型(LR逻辑回归,GDBT)

通过已有的算法模型通过调整应用于自身

算法模型的来源:

大公司交流,比如百度、头条、腾讯等

学术界论文

自建模型

调整

编码实现

性能问题

实验效果

参数调优

维护成本

模型迭代

其他问题

 

用户画像如何建设

用户主动行为和推送刺激进行数据挖掘生成画像

标签产生规则,内容偏好:过去七天看过3篇某标签

具体结构

信息流:人口属性 内容偏好

其他维度:应用偏好 活跃时间

具体结构示例

 

其他经验 

  • 一级类目的制定,且不能轻易改变,否则对算法效果影响很大。
  • 用推送来验证画像准确性。如果画像较为准确,推送的点击率一般在20%以上。(对比3%-5%)
  • 一级类目一般每周更新,二级类目、标签几乎实时更新。
  • 负反馈、搜索这两种行为数据较少,但对画像的准确性影响较大。

 

相关领域

内容库

内容接入
内容下发
后台管理
自媒体
过滤与去重
文本分析
内容分级

用户画像

标签创建
标签测试
标签分级
(来自)数据上报(分析)
数据处理
数据挖掘

短视频

内容接入
内容下发
数据分析
运营策略
算法策略
视频广告

搜索行为数据

运用到算法频道,信息流变现方向

数据挖掘,舆情监控

召回策略
排序策略
搜索界面
搜索热词
数据分析
搜索广告

信息流广告

收入分成
流量分配
筛选策略
界面优化
性能优化
eCPM优化

总结

  • 模型本身带来的差异很小,更重要的是算法人员对业务的理解以及如何使用用户数据。
  • 从算法模型去调整效果比较困难
  • 下拉刷新更新条数:今日头条做法(UC已做实验),首次下拉刷新15条-19条,第二次及以后8条,对算法效果比较好

发表评论

电子邮件地址不会被公开。 必填项已用*标注