广东快乐10分预测

当前位置:广东快乐10分预测 > 广东快乐10分预测 > YouTube 视频推荐算法解读广东快乐10分预测

YouTube 视频推荐算法解读广东快乐10分预测

来源:http://www.btxygg.com 作者:广东快乐10分预测 时间:2019-11-08 13:48

在线部分负责响应用户的搜索请求,完成内容的筛选和排序,并最终把结果返回给用户。

在召回的候选集之上,会进行排序的步骤,通过进一步计算获得最终结果反馈给用户,如图中的文章10和文章1。

图5.YouTube推荐备选生成阶段架构

如果用户输入了“NB2S”,系统认为输入有误,就会将其纠正为“NBA2S”,并首先返回相应结果。

离线部分,同样需要通过各种方式来获取待推荐的内容(用户提交、协议同步、数据库导入等)。并依据推荐引擎处理的不同维度对这些内容进行索引处理,如话题、类目、实体词等。在上图中展示了两个维度:分类维度和实体词维度。

对于YouTube产品层来讲,鼓励内容产生毫无疑问是至关重要的,所以推荐系统也希望对用户上传的新内容的有所偏好。然而幸运的是,即使损失一部分相关性,视频的消费者也偏好新内容。也就是说,新内容的价值可以良好的通过其带来的吸引力呈现出来,并不需要平台刻意而为之。本文讲到了机器学习系统对于处理这实效性特征所犯的惯常的错误,由于训练行为往往发生在行为之后,但视频信息在这个阶段中并非保持不变,尤其是实效性信息,所以应该将数据的上传时间在动作发生时候的瞬时值作为训练特征。这样的处理方式偏好了新内容,并明显的提升了效果。

在V1.0版本,我们会集中分享四个典型的场景,横向为创新型金融产品“续期宝” 、创新型增值服务“在线智能问诊”两个非常经典的场景;纵深方面,会集中分享创新型服务“智能分发”、创新型服务“场景智能串接”两个场景。场景的分享无法穷尽,更无法解决所有企业所有的问题,仅做引子。

想象一下,站在推荐引擎面前的你被抽离出一个数字的躯体。你找到一面镜子,却惊诧的发现自己的身体被无数数据所填充,许是:科技10%、篮球4%、热火队2.3%、历史1%、自然0.3%。你仔细观察,甚至发现了很多连你自己都没有注意到的细节:虽然热爱旅游,但你喜欢博物馆远多过自然景观。当然,你也会发现自己的身体上仍然有一团团的迷雾,那是尚未被系统所发掘的兴趣点。

总结

像电商的场景,典型的权重依次为:购买的权重>下单不支付的权重>购物车的权重>查看的权重。隐式行为包括在页面停留的时长、某屏内容停留的时长、用户操作行为轨迹、手指按压滑动的频率和力度等等。通常,显式行为的权重要高于隐式行为,但还是要依赖不同场景决定。由于显式行为更为稀疏,所以需要隐式行为来补充验证。

专门为你适配的内容如一群萤火虫般朝你涌来,你伸手点击了一条内容将它点亮。就在点击的那一瞬间、你身上的迷雾有一丝散去了,同时显示出了新的兴趣点:“极限运动:0.01%”,那些原本就存在的密密麻麻的数字也有一些发生了变化:有的权重上升、有的权重下降。每一次选择与反馈,你都在进化着自己的数字躯体。

图2.视频主题描述示意图

最后,简单的总结就是:YouTube使用三个主要的观看因素来推荐视频,它们是用户的观看历史、搜索记录以及相关的用户统计信息。推荐视频是通过候选生成器与排名过滤器的筛选出来的,这两大过滤器决定了YouTube如何读取、筛选视频,如何生成推荐列表。排名过滤器主要是基于用户输入的因素,其他因素还包括视频的”新鲜程度“和点击率。推荐算法的设计初衷是持续增加用户在YouTube网站的观看时长,其方法是持续把视频A/B测试的实时结果不断反馈给神经网络,从而使YouTube能不断为用户推荐它大体上就是一个用于预测用户观看时长的简单函数。

图片制作:

YouTube转用深度学习做推荐系统,也许有跟风的意味,希望跟随谷歌“using deep

综述

离线部分,专注在内容的搜集和处理上。

<img src="" data-rawwidth="515" data-rawheight="95" class="origin_image zh-lightbox-thumb" width="515" data-original=";

接上篇:服务核心所需的能力规划| 保险公司互联网平台建设系列,每一个版本的演化都离不开横向支撑体系的场景创新和纵向深度拓展体系的场景创新。

广东快乐10分预测 1

备选生成的下一个阶段是排序,排序模块更多的是面向“场景”的,说的简单一点,就是界面。用户可能在某一地方愿意点击某一条数据,但是在别的地方则不会愿意,可能在某一时间愿意点击某一条数据,但在另一个时间不会。用户观看了一个推荐界面,但是并未在这个界面上进行操作,那么随之应该进行对应内容的降级,所以对上一个推荐界面的浏览信息也可以进入到本模型中。排序的另一个职能是将各种备选联合起来。此处,需要纳入到模型中的信息更多,例如,用户最近的一次搜索词,用户最近观看的同一个主题下的视频数量,用户上一次观看同主题视频的时间,用户所使用的语言等。其架构跟备选生成阶段类似,将所有排序模型中的信息输入后,进入多层ReLU,最终进行优化的是一个加权逻辑回归层,阳性样本的权重是其观看时间。在这一层,也可以看到其推荐“代理问题”的转化,由点击行为转为了点击与观看行为结合。

  1. 动静态数据

现在,你生出了双翅、原地飞翔了起来,能够从高处俯瞰整个推荐系统。你看到了一个又一个数字拟态的人,在不同的信息流中畅游。每个人身边围绕着许许多多的信息光点、又同其他人之间有着若隐若现的连接。一个个信息被阅读的点亮、被忽略的变暗。每一个被点亮的光点就像被延续了生命一样,得以被分裂成更多光点、顺着人和人之间的连接,飞舞到更多的人身边。此起彼伏的光点明灭,共同照亮了整座系统,让它仿佛有生命一般慢慢扩张。

如上这几种选择,信息的有效性逐渐更好,但数据则逐渐稀疏,YouTube更加偏好第二种方式。相似视频的形式化定义如下:

最后,值得一提的是,标签是怎么产出的?答案就是PGC和UGC,即专家系统产出和用户产出。很多金融公司的产品App,到目前为止都没有开放UGC的功能,从某种意义上说,用户、内容的画像都不可能有机会完备。

作为一个工程问题,推荐系统的架构与搜索系统的架构具有一定的相似度:都做的是信息与用户意图之间的匹配。

第四阶段,基于深度神经网络,2016年[4]。

所谓智能分发,即利用人工智能进行个性化推荐的技术,也称之为智能推荐,推荐系统。

大致了解推荐系统的架构,能够帮助我们认知到:信息是如何匹配给用户的,而用户的选择又是如何影响后续的信息分发的。

<img src="" data-rawwidth="405" data-rawheight="53" class="content_image" width="405">

根据Netflix官方2016年的数据,个性化推荐系统每年为它的业务节省费用超过10亿美金。

在线部分,其理亦然:量化用户的请求,完成文章的筛选和排序。
推荐与搜索最大的差异,在于用户表意的不明确性,故而,需要尽可能的完善用户的长期画像(对哪些类目、实体词、话题感兴趣)和短期场景(时间、地点),以此获得用户的意图,从而进行意图和内容的匹配。

广东快乐10分预测 2

推荐与搜索最大的差异在于用户表意是否明确。因此,推荐系统需要尽可能地完善用户的长期画像(对哪些类目、实体词、话题感兴趣)和短期场景,这样才能够在用户每一次请求时更好地揣摩用户当下的意图,以进行后续的内容匹配。

经历完搜索词处理后,进入召回环节。系统会通过多种召回方式,从索引数据里获得候选集合。在图中,就分别查询了全量的索引数据和时效性索引数据,获得了8篇文章的集合。

<img src="" data-rawwidth="315" data-rawheight="218" class="content_image" width="315">

中性的技术,在不同人手里可能就有不同的用户,某些人利用系统中,用户无法区分真假货,从而针对性的进行真假货混发。特别是根据用户收货地址、过往评价可以轻松推断出用户的认知水平,从而决定发送真货、高仿还是其它假货。

用户输入一个搜索词“NBA”,这个词汇会首先经过搜索词的处理(会经过分词、搜索词变换等步骤),例如“NBA”和“美职篮”是同义词,那么在两个词都可以应用在索引的查询。

实验阶段,YouTube主要采用在线实验的方式验证效果优劣。指标包括观看时长,观看完成率(度量有多少视频被从头到位看完),以及丢弃率,即没有任何相关视频被观看的比例(在这种情况下,用户行为终止)。从这三个指标来看,本文的方法与协同过滤联合后,效果有明显提升,并且,基于主题权重重新训练的方法要好于借鉴搜索理论的人工拟合排序公式方法。

以下是正文:

那么,一个简化的搜索架构是什么?

<img src="" data-rawwidth="270" data-rawheight="60" class="content_image" width="270">

03 推荐算法

用户的点击反馈也会影响排序环节的模型。在上图中,用户在展示给他的两篇文章中只点击了文章10,这一特征会被模型记录以统计文章10和文章1在搜索词 “NBA”下的表现情况。

为了确认本方法的有效性,YouTube选择了在线A/B测试的方法,主要指标包括CTR,Long

一个人在某个场景下怎么决策,我们首先要把他抽象成一个模型,然后要找到一套数学的方法,让它能够收敛,用模型去优化他的决策。通过该收敛的结构去匹配内容的过程,就是智能推荐系统连接人和内容的过程。

  • 对于内容而言,每一个用户既是消费者又是决策者,被认可的内容得以进一步扩散,不被认可的内容被纠偏、不至于影响更多的人。
  • 对于用户而言,每一次行为反馈都在不断完善自己的用户画像;而系统的兴趣探索行为,也在进一步给这幅画像补充了更多维度。

图6.YouTube推荐排序阶段架构

召回得到的候选集合会继续进入排序环节,通过更精细的计算模型对每一篇候选内容进行分值计算,从而获得最终结果(如上图中的文章10和文章1)。

广东快乐10分预测 3

learning as a general-purpose solution for nearly all learning problems”也就是将深度学习作为几乎所有机器学习问题通用解决方案。所幸这样的方法是成功的,带来了推荐系统的“Dramatic Improvement”。

广东快乐10分预测 4

值得注意的是:对于推荐系统而言,用户的行为不仅具有针对内容价值评估的群体投票意义(如:某篇关于NBA的文章,偏好NBA的用户都不点击,那么其在“NBA”这个实体词下应该权重降低)同样具有针对自身画像的个体进化意义(如:用户总是点击有关于热火队的NBA文章,那么这个用户的画像中会补充“热火”这个实体词,影响后续他自己的推荐内容流。)

<img src="" data-rawwidth="492" data-rawheight="174" class="origin_image zh-lightbox-thumb" width="492" data-original=";

国外,各大视频网站都堪称推荐系统的佼佼者,典型的代表就是YouTube和Netflix,这两家公司依靠推荐系统,侵占了全球4/7的流量。研究推荐系统,这两家公司肯定是绕不过去的。

搜索系统是将海量内容与用户表意明确的查询相关联,推荐系统则是将海量内容与用户没有明确表达的偏好相关联。

<img src="" data-rawwidth="249" data-rawheight="295" class="content_image" width="249">

动态用户画像数据:用户在产品场景中所产生的显式或隐式行为的数据。显式行为包括对某篇文章、某个服务、某段视频的点赞、评论、转发、分享,关注了某个领域的作者等等。在众多显式行为中,由于产品场景的不同,不同行为的权重也不尽相同。

广东快乐10分预测 5

广东快乐10分预测 6

索引是一个基于关键词的序列,每一个关键词对应一长串提及该关键词的内容。比如:“教育”这个词命中内容1、2、3,“NBA”命中了另外一批内容1、2、4。

这个过程听起来或许科幻,但用来描绘推荐系统,怕是再恰当不过了。
推荐是一个协作与进化的过程:

广东快乐10分预测 7

国内智能推荐做的比较好的企业目前只有两个,而且这两家企业从一开始,几乎所有的业务都是建立在智能推荐这一基础条件下的,一家是信息分发领域的字节跳动公司,代表产品有今日头条、抖音,另一家企业就是老牌互联网公司阿里,代表产品是淘宝、天猫、聚划算等等。

  • 当用户打开内容推荐软件时,提交给系统的信息如:时间、地理位置、网络环境、手机设备型号、登陆用户ID等。
  • 基于用户ID,推荐系统会取出用户的画像数据(User Profile)。在分类维度,用户对体育和科技的内容感兴趣;在实体词维度,对于NBA感兴趣。
  • 根据用户的画像信息,发起不同的召回过程(类目查询和实体词查询),获取各种类型的内容构成候选集合。
  • 按照特定预估目标(如点击导向、互动导向)对候选集统一排序,并反馈给用户。

广东快乐10分预测 8

  1. 内容画像:要更好的理解待推荐的内容

在线部分,负责响应用户的搜索,完成文章的筛选、排序并最终返回给用户。

本文陈述了YouTube推荐系统的三大难点:一是规模太大,简单的推荐算法在如此大规模数据量上可能是失效的;二是实效性,即新数据不断产生,需要将其良好的呈现给用户,以平衡旧有的好内容以及新内容;三是噪音问题,用户行为与视频描述均有噪音,并且只能获得充满噪音的用户隐含反馈,而不能直接获取用户满意度。

在人机效率、精准性的较量中,人只会越来越失败,差距只会越来越大。

如果我们将推荐问题极度简化:用户只有一个爱好“NBA”时,那么推荐引擎给用户的结果就可以近似搜索引擎在“NBA”这个搜索词下的结果。

首先获取视频的Embedding描述,将视频的文本放入Embedding工具即可(例如Word2Vec,但TensorFlow自带)即可。构建用户的Embedding,则是通过训练而来。以SoftMax分类为最终优化对象,将用户观看视频的Embedding整合值,搜索记录,其它信息如年龄性别等作为特征。中间为数层ReLU。能利用除了用户行为外的其它信息,也是神经网络相对于普通MF类算法的优势。

从工程师的角度来看,推荐系统的底层架构,即推荐系统架构,与搜索系统架构具有一定的相似度:二者实现的都是信息与用户意图之间的匹配。搜索系统是将海量内容与用户表达的意思通过关键词查询关联,推荐系统则是将海量内容与用户没有明确表达的偏好相互关联。前者需要用户交付确定性内容,后者需要通过规则判断用户确定性需要。

搜索引擎的爬虫系统会从海量网站上抓取原始内容,针对搜索体系的不同要求建立索引体系。在上图中,为了新内容能够更好的被用户看到,就专门建立了时效性索引数据用于存储几个小时之内的新内容。这是一个基于关键词的倒排索引,每一个关键词对应一长串提及该关键字的文章。比如,“教育”这个词命中文章1、2、3;“NBA”命中了另外一批文章1、2、4。

<img src="" data-rawwidth="527" data-rawheight="363" class="origin_image zh-lightbox-thumb" width="527" data-original=";

其中,离线部分专注于内容的搜集和处理。搜索引擎的爬虫系统会从海量网站上抓取原始内容,并针对搜索系统的不同要求建立不同的索引体系。比如:我们假设新内容是有时效性消费价值的,那么,为了让新内容能够被更好地检索,就可以建立专门的时效性索引用于存储几小时之内发布的内容。

借由搜索系统为参考,可以更好的理解推荐系统。

<img src="" data-rawwidth="230" data-rawheight="63" class="content_image" width="230">

召回和排序操作与搜索系统比较相似,系统基于类目查询和实体词查询分别获得候选内容集合。排序模块按照特定预估目标(如点击导向、互动导向、停留时长导向等)对候选集统一排序,并经过规则层的处理后最终反馈给用户。

第一阶段,基于User-Video图游历算法,2008年[1]。

广东快乐10分预测 9

广东快乐10分预测 10

基于险企传统资源优势的“一核三环”规划 | 互联网平台建设

其中,c(t, V) 表示视频V与包含主题t的视频集合被“共同观看”的次数,也就意味着t与V之间的接近程度。而df(t)则是t出现的文档频率,log(1 df(t))用来对流行度太高的主题进行惩罚,与著名的IDF类似。Ts(t)是一个阀门,如果t出现在文档中的次数超过阀值,则本值为0,也就是不考虑此t的影响,反之为1,将其纳入考虑。q(VR) 则代表视频VR的质量,通过上传时间,上传者,点赞与差评的数量进行构建。

也就是说,只要了解了搜索系统的架构,基本上就很容易理解推荐系统的架构。通常,工程师把搜索系统划分为离线和在线两部分。

广东快乐10分预测 11

用户的请求,经由多种召回方式,从离线索引中获取结果后,经过在线的模型排序计算,将最终结果返回给用户。

视频的共同观看关系构建的图,可以从两个角度观察,一是视频构成的图,一是视频-用户构成的图,“视频”图可以看成由“视频用户”图(图1)抽取出。而视频之间的边,可以是同时观看过两个视频的用户个数,或者是在同一个Session中被同时观看的次数,甚至可以将顺序也考虑于其中。

如下图所示的推荐系统支持分类和实体词两个维度的用户画像:在分类维度,用户对体育和科技内容感兴趣;在实体词维度,用户对NBA感兴趣。基于体育、科技、NBA,推荐系统会进行下一步的内容召回和排序操作。

广东快乐10分预测 12

广东快乐10分预测 13

广东快乐10分预测 14

在了解了推荐系统的架构后,我们做的还有三个步骤:要更好的理解待推荐的内容。这个内容可能是一篇文章,也可能是一个服务,或者一款产品,甚至只是一堆待加工的原材料。要更好的了解要推荐给的人。这是一个动态理解的过程,基础是对用户进行画像,也就是我们前面讲的360°用户视图。匹配,即推荐算法,即高效、精准的完成内容与人之间的对接。

主题权重训练算法借鉴PairWise排序方法。基本思想如下,被推荐的视频分为两类,一类被用户点击与观看,一类并未被点击与观看。在排序时,将后者放在了前者的前面,则生成了一个错误的排序对,对应着一条训练数据X。而X的长度为主题个数,当某一个主题出现在这个Pair对应的两条视频上,则对应的值为0,如果只出现在被消费过的视频上,则为1,如果只出现在没有被消费的视频上,则为-1。被优化的参数W,则是X的对应系数,即主题的权重,优化的目标是在训练集合上错误最小,并加入正则化:

通常,我们把用户画像的数据分为静态数据和动态数据。

广东快乐10分预测 15

相关阅读

第二种方法,主要思想是试图借助用户行为优化主题词的权重。文中以《World War Z》电影为例,其中“World War Z”Topic的权重最高,高于Topic“惊悚片”。但是,基于“World War Z”主题出来的结果,可能将过度的拟合本电影,导致出的结果更多的是本电影相关的内容。但实际上同一类电影可能更好。也就是说“惊悚片”在这个场景下比“World War Z”主题更有用。

应用的分类必须考虑分类权威性和信息完备性问题,避免因为子节点覆盖不全或分类错误导致的认知问题。

我们来看看YouTube是怎么做的。首先,视频通过<主题,权重>集合进行描述。如上图,《World War Z》电影包含了四个主题以及对应权重。主题名从视频的描述信息,上传者定义的关键词,被搜索后的观看记录对应的检索词,播单名字等等抽取而来。

02 推荐起点是人与物的画像

笔者认为,本算法可以划为“用户画像”推荐方法类别。以标签为视频以及用户的描述,通过某种方式挖掘用户与视频的标签信息,作为相互连接的纽带。YouTube对比了本方法与热门结果以及简单的协同,均取得了完胜。其试验方法也较为初步:采用完全离线的方式进行效果评价,无法对新用户进行评测,也无法对新产生内容的价值进行衡量;另外对于视频来讲,以点击作为衡量标准也是不够的,播放时长是必须要考量的因素。

在群体评估意义层面,每一个读者就像是一名陪审团成员,通过自己的行为来决定某篇内容的好坏。比如:某篇关于NBA的内容,如果连偏好NBA的用户都不怎么点击,那么这篇内容在“NBA”这个实体词下的权重自然应该降低,这一部分的应用与搜索场景比较类似。

<img src="" data-rawwidth="475" data-rawheight="400" class="origin_image zh-lightbox-thumb" width="475" data-original=";

相比于传统的千人一面的结构和总编推荐模式,机器推荐的效率、精准度上,都是人类无法比拟的。例如相比如出版业总编推荐模式,今日头条智能分发的效率是其2.4亿倍,这是人工手段下所无法想象的。

在这个阶段,YouTube认为需要将用户观看过的视频的相似视频推荐给用户。而什么是相似视频?主要以用户行为对其进行界定,可以是:

2016年9月18日,在波士顿举办的第10届ACM推荐系统大会(ACM’s RecSys ‘16)上,来自Google的一个研究团队公布了YouTube推荐系统的深度学习论文:Deep Neural Networks for YouTube Recommendations。论文地址:

广东快乐10分预测 16

04 应用场景一,YouTube 内容推荐系统

第二阶段,基于Video-Video图游历算法,2010年[2]。

在结果展示给用户之后,用户的点击反馈会影响到排序环节的模型。在下图中,用户在展示给他的两篇内容中只点击了文章10,这一行为会被模型记录为统计文章10和文章1在搜索词“NBA”下的表现情况。如果在“NBA”的搜索结果中,更多人点击了文章10,那么文章10在后续计算中的权重会升高,从而获得更靠前的展现位置。

Algorithm)。

系统在实时响应用户请求的在线层和负责数据处理、模型训练的离线层之间增加了NearLine层,即所谓的近线层,以实现计算规模和实效性的折中。

<img src="" data-rawwidth="247" data-rawheight="85" class="content_image" width="247">

如果标签是网状的,更强调表达属性关系而非集成关系,只有权重大小之分,不强调包含于被包含关系。这就使得相对于分类而言,标签的灵活性更强。在权威性方面,标签是弱化的,每个用户都可以参与进来为自己的喜好贴标签,也可以为自己喜好的内容贴标签,从而借助规模效应实现对信息表意完备性的覆盖。

其中Cij为所有被共同观看的次数,而F(vi,vj)是一个规整化函数,试图消歧视频的流行度,因为Vi跟Vj中一旦存在比较Popular的结果Cij往往会偏大,一种简单的方案是将两个视频被观看的次数相乘。

通过更系统化的分类方式,可以完整地呈现出一个内容的特点。这涉及到标签和分类的关系。

文章也陈述了具体系统实现方案。因为每个用户的备选结果在一定时间内可以完全保持不变,所以选用了离线计算的方式。但这样做将导致实效性不佳,所以YouTube优化了数据生成的环节,做到了每天数次数据更新。其系统架构主要分为数据收集,备选生成,推荐服务三个部分。用户日志被抽取后,存储入BigTable中,然后基于MapReduce生成备选,最终得到的生成结果存储入提供线上服务的BigTable

思考三个问题:国内外推荐系统最好的产品是什么?什么是用户画像?什么是服务、内容、产品画像?怎么利用机器准确匹配用户与服务、产品和内容?

<img src="" data-rawwidth="482" data-rawheight="312" class="origin_image zh-lightbox-thumb" width="482" data-original=";

题图来自Unsplash,基于CC0协议

  1. 被一定量用户共同观看的视频;

  2. 在同一个Session中经常被同时观看的视频;

  3. 考虑顺序信息的,在同一个Session中经常被同时观看的视频。

颠覆式创新,左右平台经济时代竞争的主要力量 | 互联网平台建设系列

图4.YouTube基于深度学习推荐系统架构图

05 应用场景二,Netflix的推荐和个性化系统架构

总体上讲,YouTube的推荐系统在采用深度学习之前,多数基于用户画像(说的高大上一丢丢其实就是标签)与协同过滤。第一篇本质是基于图的画像挖掘算法,第二篇则是对协同数据的深度利用,即不仅仅将“相似视频”作为备选,也将“相似视频的相似视频”同样纳入备选集合。第三篇,则对用户画像法进一步深化,提出了用户画像法经典的基于搜索架构的实现方式,以及如何通过用户行为进一步克服文本画像所带来的相关性计算偏差。这三篇在不同的地方也提到过,给用户进行结果呈现之前,还需要做最终排序,但是这并未被深入论述。最终,采用深度网络方法,在之前扎实工作基础上,进一步升华。

在YouTube,人工调整算法、人工权衡这些调整并将其部署上世界最大的视频分享网站的机会将越来越少。而是由算法实时来读取数据、为视频排名,然后基于这些排名来推荐视频。该论文以算法的基本架构作为开篇,下面是作者的图示:

<img src="" data-rawwidth="570" data-rawheight="352" class="origin_image zh-lightbox-thumb" width="570" data-original=";

在线部分,其理亦然:量化用户的请求,完成内容的筛选和排序。

那么到底如何给视频扩大标签呢?标签可以看成是一个分类,所谓“近朱者赤,近墨者黑”,在图结构中,一个节点的信息与属性可以通过其周围的节点得到。“标签”也不例外。Adsorption

具体应用场景就不展开详细说明了,智能推荐就属于产品效率优化。其中,应用最具有深度的就是信息匹配,今日头条、抖音、淘宝、Facebook、YouTube和Netflix都是典型的佼佼者。所有这些平台,都是基于用户的画像信息来优化推荐排序的,从而实现人和信息的高效匹配,以提升效益、降低成本,提高用户体验。

广东快乐10分预测 17

以搜索系统为参考基础,我们可以更好地理解推荐系统的工作方式。推荐系统的离线部分同样需要通过各种方式来获取待推荐的内容(如用户提交、协议同步、数据库导入等)。对内容平台来说,其内容的结构化要远胜于推荐引擎爬虫抓取的内容。之后,离线系统依据推荐引擎对信息的不同理解维度对这些内容进行索引化处理,如话题、类目、实体词等。

图1.User-Video Graph

平台建设规划的三种思路 | 互联网平台建设

备选生成后是排序阶段,主要考量两类因素。一是视频的质量,包含视频的播放数量,评分等;二是用户的需求信息,包含用户观看历史中的一些信息,例如视频观看数量,以及观看时间等;用一个线性公式可以对这两类因素进行综合考量(此处并未提及线性公式如何而来,应该不会是拍脑袋吧—_—#)。最终只能呈现比较小数量的备选结果,所以只能从中挑选部分数据,而这个过程,则需要处理多样性问题:将标签类似的数据进行去除,或者将属于同一个频道的数据去掉,进一步的基于聚类与内容分析的方法也可以采用。

与内容画像相对应的,是用户的画像。用户画像是产生动态的超级360°视图,具体可参考这篇文章:企业数字化转型:外部驱动力之客户篇。用户画像也是给目标用户贴标签的过程,通过标签来描述一个用户的特征集合。

其中V为节点集合,E为边集合,W为节点与边之间的权重,L为标签集合,VL为V中拥有标签的节点,每一个视频都对应一个标签的分布概率Lv。每一轮迭代,将重新为所有节点计算标签分布。节点对应的标签分布由其连接的相邻节点关系强度,以及标签在相邻节点的分布概率乘积后累加得到。

在数据流上,用户的所有动作,包括选择、播放、暂停、评分、浏览等行为,共同构成了在线层的输入。根据业务需要,Netflix将用户行为拆分为数据和事件。其中,数据的时间敏感度更低,事件的时间敏感度更高。比如,在用户观看一部电影之后,如果希望及时更新用户的推荐列表,那么这次观看动作就会被是做事件型进入近线层,以更快地更新用户画像数据。

CTR(观看超过一定时长的有效点击),Session的平均观看时间,第一次观看时间,以及推荐的覆盖率。

由于网状结构包含树状结构,故而标签可以被应用于分类的场景,在设计系统时,可以先基于产品场景快速覆盖主要标签,在结合标签集合的使用频次、专家建议等因素逐步将部分入口收敛到树状的分类体系中来。

在这个阶段,YouTube认为应该给用户推荐曾经观看过视频的同类视频,或者说拥有同一标签的视频。然而此时,YouTube的视频已是数千万量级,拥有标签的部分却非常小,所以如何有效的扩大视频标签,被其认为是推荐的核心问题。解决方案的核心有两块,一是基于用户共同观看记录构建的图结构(Video Co-View Graph); 二是基于此数据结构的算法,被称为吸附算法(Adsorption

在展示给用户之前,搜索结果还需要经过规则干预这一环节。规则通常服务于特定的产品目的,对计算产出的内容进行最终的调整。假如我们有这样一条“官方网站保护规则:确保所有品牌名搜索词都可以优先返回官网”,那么规则层就会在文章10和文章1之前,强行插入NBA官方网站返回给用户。

初步的推荐备选结果即是用户消费过视频的相似视频。如上公式,S是用户消费的视频集合,Vi为S中的某一个视频,Ri则是Vi对应的相似视频集。最终的备选集合C,则是所有Ri的并集。一般而言这种方式生成的结果作为备选的量充足的,但往往内容聚焦难以为用户找到新视频,也有备选结果不充足的情况。在这种情况下,相似视频集合可以继续扩展,从“相似视频”扩展到“相似视频的相似视频”,以此类推迭代一定的次数,得到最终的备选集合。

当用户输入搜索词后,系统会首先对搜索词进行分词、变换、扩充、纠错等处理过程,以便更好地理解用户的搜索意图。如上图所示,用户只输入“NBA”一个关键词,系统发现“NBA”和“美职篮”是同义词,就会将其扩充,以便两个词都可以应用在索引的查询上。

广东快乐10分预测 18

该系统由两大神经网络组成,一个用于生成候选视频,一个用来对其排名。这两个过滤器及其输入内容,基本上决定了用户在YouTubes上能看到的每一个视频:建议你播放的下一个、推荐给你的视频列表、你所浏览的视频列表……

本文呈现的推荐系统解决方案分为两个部分,一个是备选生成(Candidate Generation),其目标是初选结果,从海量数据中选择出符合其个人需求偏好的百级别数据。一个则是排序(Ranking),通过更加丰富的用户,视频乃至场景信息,对结果进行精细化排序,得到呈现给用户的备选。

第一个过滤器是候选生成器。候选是基于用户的YouTube活动记录产生的,也就是用户的观看历史与观看时长。候选生成器还会考虑相似用户的浏览记录,这一点被称为协同过滤。相似用户是算法通过视频ID、搜索关键词及相关的用户统计信息决定出来的。

<img src="" data-rawwidth="257" data-rawheight="53" class="content_image" width="257">

全文包括推荐系统架构初探、推荐起点是人与物的画像、推荐算法、应用场景、在效率和精准度上人是彻头彻尾的输家五部分内容。

第二步,计算视频与视频之间的相似度。主要通过两个主题集合进行计算得到。文章主要提出了两个方法,第一个方法借鉴传统信息检索排序理论,将视频VW与VR 的相似度定义为:

06 启示,在效率和精准度上,人是彻头彻尾的输家

本算法与PageRank接近,也类似马尔可夫链的游走过程,由于每个节点中Label权重来自于周围节点对应权重的线性组合,也与线性系统近似。另外,论文并未花篇幅陈述如何利用本算法进行推荐备选生成,只说可以将经过迭代稳定后的图结构中用户的标签作为备选(生成的依据),或者说是连接备选视频的纽带。同样的,也并没有花篇幅论文如何进行最终排序,以及如何归并多种备选结果,虽然在这个阶段的YouTube的推荐体系已经具备了这个模块。

广东快乐10分预测 19

广东快乐10分预测 20

由于我们自己的平台在2017年启动了全面智能化策略,所有用户看到的信息,除个别强制推荐的以外,都是系统基于用户行为进行智能推荐的。一级页面的布局结构,完全实现了所谓的千人千面甚至一人千面的构建,单个服务内容的具体展示,也逐步向智能推荐系统方向优化,例如上一篇所介绍的“智能问诊服务”。

图3.相关视频系统架构图

当用户打开内容推荐应用时,提交给系统的信息包括时间、地理位置、网络环境、手机设备型号、登录用户ID等。基于用户ID,推荐系统会从数据库中取出用户的画像数据(User Profile)。

为什么要有一个新的“相关视频”计算方法呢?协同过滤是当时最好的方法,但其适用于有了一定用户观看记录的视频,但对于新视频以及长尾视频,并不能良好应用。

广东快乐10分预测 21

服务器。推荐服务不涉及太多实时计算,延迟时间更多的是网络传输。

经历完搜索词处理后,将进入召回环节。系统通过多种方式从不同的索引数据里获得候选集合。在上图中,就进行了一个“2×2”的过程,两个搜索“NBA”与“美职篮”分别查询了全量的索引数据和时效性索引数据,一共获得了8篇内容的集合。

YouTube选择用户观看记录作为训练数据的初始来源,即完成观看视频记录为正样本。主要原因是用户观看记录相对于用户的显性行为例如点赞收藏要多得多。还有一些非常有参考价值的推荐系统实现方案,例如需要对于推荐系统保留一些信息输入,以防止过渡拟合“代理问题”(即推荐系统所优化的具体指标,例如点击率),例如用户往往会顺着一个检索结果页或者用户发布者浏览页进行顺序观看,然而将检索结果页面或者用户发布视频界面直接作为推荐结果呈现给用户是非常不好的。所以此处,YouTube做了一些处理规避这个问题,例如选择放弃检索句的序列信息,并其打散成词袋。另外,YouTube发现,用户进行视频阅读往往是有序的,例如用户会按照剧集的顺序进行观看,而用户进行信息发现的过程往往也由流行到自己的喜好。于是,去预估用户的下一个观看记录,比预估用户的观看记录中中间的某一个更好,这一点也有别于传统的协同过滤。

静态用户画像数据:一般包括用户独立于产品场景之外的属性,如性别、学历、年龄、婚育状况、常住位置、教育程度以及家庭结构等等。这些信息往往是相对稳定的,可以通过第三方联合登录、用户表单填写等方式获取。静态数据通常具有统计意义,但在满足实时服务需求和挖局潜在需求方面,价值并不高。

本文陈述了“相关视频”的优化方法,即用户在观看某一个视频时推荐的视频。但实质上是定义了一种相似或者相关视频的计算方式。而“相似对象”的定义是推荐的核心问题,有了不同的计算方法,也意味着有了新的推荐方法。

当然,搜索和推荐的区别,在于前者是人找信息,后者是信息找人。这也是为什么百度向信息流转的时候,可以迅速获得超过4成的市场份额,因为底层预备的技术能力是OK的,具体做什么前端的业务展示,并不复杂。

在本文中,推荐系统的建模方式有了实质性不同,即将推荐系统定义为一个多分类器,其职责是确定某个用户,在某个场景与时间下,将从系统的视频中选择消费哪一个视频。具体的方法是,将用户与视频全部转化为Embedding描述,即一个向量,最终用户消费某个视频的概率通过如下方式计算得到:

01 推荐系统架构初探,本质还是数据智能

第三阶段,基于搜索以及协同过滤,2014年[3]。

名称,决定了平台的发展愿景 | 互联网平台建设系列

Algorithm的核心思想是,部分节点将拥有一些标签,每一次迭代,可以将标签传递给相邻的节点,如此不停迭代,直到标签稳定分布在节点中。伪代码如下:

第二个是排名过滤器。该论文对排名过滤器进行了大量的深度解析,并列举出不少有趣的因素。排名过滤器是基于描述视频和用户的丰富特征,目标期望函数会给每个视频设定分数。根据分数排名,得分最高的视频将被展示给用户。根据论文透漏,排名过滤器中用到了数百种特征。

值得一提的是,本文提出的相似度的计算方式与基于用户行为的方式(例如协同过滤)有着根本不同,对用户行为的依赖更小,适用于新数据以及长尾数据,可以极大的克制马太效应。同时,本文也提供了成熟的实现方案:基于搜索底层进行备选生成。通过正在被观看的视频主题信息构建检索句,到倒排索引中进行查询。再者,也提到通过再排序模块,与协同过滤方法的备选集合进行融合,将更进一步提升效果:

值得注意的是,在推荐系统中,用户的行为不仅像在搜索系统中那样具有针对内容价值的群体评估意义,而且还具有针对自身画像的个体进化意义。

广东快乐10分预测 22

另外一个面临的问题就是价格歧视,保险歧视等问题,同一件商品不同人加入购物车,显式的价格是完全不一样的,价格敏感性用户往往更容易收到优惠券。

参考文献:《内容算法》《Deep Neural Networks for YouTube Recommendations》- Google的一个研究团队公布了YouTube推荐系统的深度学习论文Netflix的工程师Xavier Amatrain和Justin Basilico在官方博客

最后就是关于动静态数据的权重问题,实际上,动态数据价值意义更大,一般在很多场合,都是先将常数n设置为0.8,然后再后续不同场景中,后续升级是确定n=f具体函数,从而进行计算。

想要把内容准确的推荐给需要的人,首先要让系统充分的理解内容的特点,内容刻画最简单的方式就是我们常说的“打标签”。标签是人对三维事物、二维事物的一维化理解,抽象出事物更具有表意性、更为显著的特点。在不同的应用场景下,要对标签全集进行有针对性地投射,有倾向性地选用不同的标签以换取信息匹配的效率最大化。

  1. 用户画像:要更好的了解要推荐给的人。

在个体进化意义层面,用户的阅读反馈行为在持续改进着自身的画像。比如:用户是热火队的粉丝,那么在行为层他就会更多地点击与热火队相关的NBA内容,系统捕捉到这一信息后,就会在他的画像中补充“热火”这个实体词,从而影响后续的推荐内容流。

创新型金融产品“续期宝” | 互联网平台建设系列

所谓智能分发,即利用人工智能进行个性化推荐的技术,也称之为智能推荐,推荐系统。

广东快乐10分预测 23

下图中展示了两个维度:分类维度和实体词维度。

保险公司互联网平台的战略定位 | 互联网平台建设系列

第三个是推荐算法,就是我们拥有了完备的内容画像、用户画像,怎么将合适的内容,准确的匹配给需要的用户。淘宝早期的做法,是基于其固有属性来计算物品与物品之间的相似度,从而推荐与用户历史消费相似的新物品。如果是内容中的文章,常见的因素就有作者层面的相似性、内容层面的相似性、同类用户层面的相似性等等。

论文作者是Google的软件工程师Jay Adams与高级软件工程师 Paul Covington、Embre Sargin,他们向业界展示了YouTube在机器学习推荐算法上的深度神经网络使用情况。该论文涉及到一些非常技术、非常高级的细节,但它最大的意义是为我们完整描绘了YouTube推荐算法的工作原理!!该论文细致、审慎地描述了YouTube检索、筛选并推荐视频时的大量细节。

通常,用户画像主要应用场景包括:精准营销、行业研究、产品效率优化、个性化服务等等,实际上所有围绕个人用户的产品,都是典型的用户画像需求方。

候选生成器的通过率仅为属百分之一,换言之,如果某个视频能从数百个中脱颖而出成为你的候选视频,它必定是跟你的观看记录有关,同时还有一个跟你相似的用户已经看过它。

保险公司互联网平台建设综述 | 互联网平台建设系列

广东快乐10分预测 24

当然,到此并未结束,一般情况下,系统一次性就推荐到用户百分百喜欢的内容是不太现实的,此时就要让系统形成有效的反馈闭环。将结果快速反馈到用户交互层的产品上,用户喜欢点击了还是未点击,快速给一个反馈,系统经过优化,再次推荐一个结果,如此往复,形成一个学习、提升、再学习、再提升的过程。这就是推荐算法的价值所在,也是系统推荐之所以高效、精准的原因。

服务核心所需的能力规划 | 互联网平台建设系列

平台建设的根节与基础保障 | 互联网平台建设系列

相较于YouTube较为抽象简化的数据流图,Netflix的架构图稍微显得复杂一点,不过依然保持了离线模型的训练、在线召回排序、更新用户画像与内容画像的基本结构。

本文由 @李有龙 原创发布于人人都是产品经理。未经许可,禁止转载

一般情况下采用的分类都是树状的,是自上而下依次划分的。在分类体系里,每个节点都有严格的父类继承关系,在兄弟节点层都具有可以被完全枚举的属性值。例如:将人类属性基于性别划分为男女,就能够覆盖全部人类属性,其实,要是研究过淘宝的人,都知道淘宝的性别标签有18个。由于树状的层次结构性较好,所以在内容的分类查找领域,有很多应用。

本文由广东快乐10分预测发布于广东快乐10分预测,转载请注明出处:YouTube 视频推荐算法解读广东快乐10分预测

关键词: 互联网 平台 智能 产品相关