用户每次刷新,推荐算法启动的第一步是召回,即从候选内容池中快速捞取可能感兴趣的内容。然后,深度学习算法基于用户的历史行为,给每个用户形成一套专属的价值模型,模型会预测用户对候选视频的行为,结合用户行为和视频本身的价值权重,推算出视频推荐的价值分数,并将综合得出的价值最高的视频推送给用户。
这个估算价值的模型,随着算法的进步,已近乎即时调整,用户每次动作,算法都会根据用户实际动作调整自己的参数,对各类价值重新加权,以更好满足用户需求。
算法是工具,是为解决用户需求,打分的最终目标是用户长期价值。在那场交流中,刘畅提到,长期价值是抖音算法的“北极星指标”,而不是短期数据,“如果我们比较关注短期数据,那就会强化像点赞、完播这些短期好收集的信号,但如果我们关注用户的长期价值,我们就会看他对某些作者长期的一些互动,比如会不会经常去收藏某些内容,这些内容才是用户对平台长期认可的方式。”抖音平台上有一条长达450分钟的红楼梦解析视频,播放量超过3亿。在短视频平台,这条视频实在是太长了,长视频有一个特点,完播率大幅低于短视频。但从播放量看,这条视频的播放量是很好的。过去,不少人认为,完播率是算法推荐的核心权重,如果很少用户能够看完这条视频,算法可能会判定为低质量内容,不会推荐。这是片面的观点,这条450分钟的长视频的分享量、评论量和收藏量都很高,在多维度的打分标准下,得到了平台算法推荐。
短视频分享平台有优化算法的迫切动力——推荐内容越丰富,越多元,用户长期留存率越大。“信息茧房”很多时候是要求算法足够精准,只推荐用户明确感兴趣的内容,这样能够在短期内获得高流量,但长期来看,用户也会因为内容单调而流失。
抖音需要平衡算法的精准度和多样性。一方面,在一个日均更新为亿数量级的超级视频平台上,如果完全采用用户探索模式,获取信息的效率会非常低,需要算法主动做出推荐。另一方面,也需要基于用户的基本兴趣做多样性处理。
为了更好地推荐内容,抖音还加大了对小众内容的扶持,对内容做“打散”,如果用户连续刷到类似的内容,算法会介入,控制相似内容出现的频次。
不管推荐算法如何复杂,其工作的核心都是学习用户产生的行为反馈数据,并通过概率计算,将模型中推荐价值最高的视频推送给用户。但如果单纯依靠算法预判行为而不加约束,可能会带来不当内容泛滥等新问题。因此,还需要人工为其构筑多层“护栏”,避免算法对内容价值的“认知盲区”引发的问题。