米格抖音培训网-百科问答 > 抖音最新日活超3.2亿,字节跳动资深算法架构师深度解剖抖音推荐机制!

抖音最新日活超3.2亿,字节跳动资深算法架构师深度解剖抖音推荐机制!

发布日期:2019-07-12 21:49来源:米格抖音培训网我来投稿

  近日,字节跳动公布了最新数据,引发的关注比微信前几天的新版本要高得多:抖音日活突破3.2亿,字节跳动旗下产品总日活超过7亿,全球月活超过15亿。

抖音最新日活超3.2亿,字节跳动资深算法架构师深度解剖抖音推荐机制!

  ▲ 抖音官方海报

抖音最新日活超3.2亿,字节跳动资深算法架构师深度解剖抖音推荐机制!

  ▲ 抖音用户增长图

  我们都知道,抖音的成功,背后离不开字节跳动旗下独特的算法机制。

  网上流传着许许多多抖音的推荐机制,乱七八糟,孰真孰假难分辨。

  7月9-10日,字节跳动资深算法架构师曹欢欢,在“2019WISE超级进化者”大会上给出了关于推荐机制的正确答案。

抖音最新日活超3.2亿,字节跳动资深算法架构师深度解剖抖音推荐机制!

  搞懂这套算法机制,或许就离百万爆款视频不远了。

  以下为嘉宾演讲实录:

  今天和大家分享一下算法推荐如何帮助用户去拓展兴趣。

  很多朋友看到这个话题,觉得有一点意外。因为算法推荐是一个新东西,大规模的应用也就是最近几年。有一个规律,一个新生事物会由于外界很多人对它不够了解,而产生一些误解。

  对算法推荐来讲有一个常见误解,有些人认为算法推荐让用户的兴趣窄化。这背后的逻辑是,算法推荐很懂你,根据你的兴趣推荐,只推荐用户感兴趣的东西,这个用户看的内容始终在一个有限的范围内。长久以后,用几年推荐系统,你的见识、知识、见解得不到提高。

  为什么这是一种误解呢?有这种想法,是因为很多人不了解算法工程师,也对算法推荐系统不够了解。

  聪明算法工程师都不希望自己的用户兴趣窄化,就像没有一个商场的经理,希望顾客每一次来到商场都只关注同一类别的商品。商场经理都希望顾客关注尽可能多的产品品类,算法工程师也希望用户尽可能的拓展自己的兴趣。

  1、推荐系统一定是智能、可学习的系统

  推荐系统本质上一定是基于海量内容的,就是内容一定要多,如果只有十条内容,没有办法推荐。有很多内容,不知道你喜欢哪个,让系统做,这样可以节省用户的精力和时间。

  从海量内容挑选用户感兴趣的内容,所以推荐系统一定是智能、可学习的系统,并且会根据用户的反馈调整自己。这些反馈有很多,比如在电商领域,是下单、添加到购物车,在内容领域是点击,在短视频领域是播放。

  推荐系统通过种种正向、负向反馈,不断观察学习,根据这些信号不断调整自己,让自己更能符合用户的兴趣需求,这就是一个推荐系统的本质。

  业内最早应用推荐系统的行业是电影。

  早在2006年,当时还在卖DVD的Netflix就曾经发起过一次奖金高达百万的大赛,比赛内容就是说谁能发明比他现有电影推荐算法好10%的方法,就能得到百万美金。

  推荐系统在资讯领域的应用,其实是比较晚的,今日头条应该是全世界范围内第一个做的。我加入头条比较早,在2014年初。在头条之前,行业里有一些个性化推荐的方案,但是都要基于兴趣订阅。

  更早的,像谷歌的阅读器,都需要用户进行很烦琐订阅一堆来源或者标签。完全实现系统自动学习推荐,今日头条是全世界第一家。

  不同行业的推荐系统,虽然应用领域、场景不太一样,但本质是类似的。

  所有的推荐系统都需要依靠三个方面的特征:内容特征、用户特征、环境特征,系统需要结合这三方面的信息做决策。

  用户特征,是指用户的标签,包括用户注册时提交的基本信息,比如性别、年龄,还有用户在平台上的动作,比如用户历史点击的文章列表、文章的关键词分布、文章的作者分布等信息。

  内容特征,如果它是个商品,要有分类、标签,包括历史购买评论,这些都很重要。对于内容来讲,就是它的文本、主题、关键词等信息。

  环境特征,就是环境信息,对于用户来讲,他的兴趣很多时候会变化,有的会周期性变化。比如一个资讯APP用户,上班期间和上班路上、下班休息的时候,兴趣是有变化的。

  这些特征信息推荐系统是要考虑到的。但是在不同领域、不同的推荐系统考虑的侧重点有所区别。总体来讲,所有的推荐系统都必须基于这三方面的信息来决策。

  应该还没有一个系统,用这三方面之外的特征信息,所以这个概括还是比较全面的。

  2、推荐内容多样性越好

  用户长期留存概率越大

  大家对推荐系统的基本概念了解之后,可能会想到一个问题,作为推荐系统的开发者,是怎么设计推荐系统的,推荐系统的目标是什么?

  从推荐系统设计者和运营者有不同层次的目标,有短期目标、中期目标、长期目标。

  长期目标。运营一个业务,希望提升用户的长期黏性,希望用户用了今日头条等应用之后,能一直用下去,成为我们的忠实用户。一方面用户体验很好,它才会长期用。

  从企业来讲,长期的收入就有了保障,这肯定是长期目标。长期目标对于算法、模型来讲是非常难学的。越是长期目标,机器学习难度越大。

  所以又有一些中期目标,比如用户下周或者下月还来用。在短期窗口内提高它的黏性,这也很难,但是业内也有一些探索,比如强化学习的学习范式,而不用监督学习。但是也比较难,目前还不是特别成熟。

  技术最成熟的是短期目标,短期目标就是用户短时间内对用户的反馈。给用户推了一篇文章,用户有没有点开、点赞。抖音推的短视频,有没有播放、点赞、分享。这些短期目标模型是非常容易学习,容易建立起用户行为。

  短期目标和长期目标的关系,有正相关性,又不能完全用短期目标代替长期目标。根据我们的观察发现,推荐内容的多样性越好,用户的长期留存概率越大。

  如果只是推高热内容,用户短时间也点击,也停留了,今天看了也很爽。但是内容的多样性不好,很单一,用户的长期留存就很差。

  这和我上面提到的商场的类比一样。一个喜欢鞋子的用户,假如每次来商场都能快速买到自己喜欢的鞋子,用户的单次消费就很开心,但最终用户会减少来这个商场的消费次数,除非他又产生了买鞋子的需求。

  要把用户长期留存下来,就要穿透他的兴趣,拓展他的视野,让他衣服、饮食、看电影这些消费,都在商场里完成。

  所以从推荐系统设计者来讲,非常希望推荐系统既短期数据有很好的表现,也希望推的内容是多样化的,能满足用户多个兴趣点。

  甚至我们需要挖掘用户更多的兴趣点,尽量在一个平台上满足用户更多的兴趣点。所以做内容的多样性,也是我们的需要。

  头条在资讯推荐领域算是先行者,这块也积累了很多经验。如果大家是头条的老用户,应该会发现,看到的内容是非常多样化的。

  3、推荐系统如何探索更多用户兴趣

  那么接下来说说我们在推荐系统里是如何做到探索用户更多的兴趣方向,并且避免内容推荐的过于单一的。

  从策略上讲,推荐系统会有消重和打散策略。

  所有的内容在推荐之前,会进行各种层次的相似性分析,会识别哪两篇文章或者视频是非常类似的。比如可能两篇文章,虽然遣词造句不一样,但是讲的内容是一样的。

  推荐系统能够分析哪些文章讲的是同一个事情,或者涉及到同一个人,或者涉及到某一个公司,基于他们各种各样的特征进行分析。

  然后,推荐的时候,系统会根据不同的相似性对这些相关的文章进行不同的处理。对于相似的文章,如果给用户推荐了文章A,跟文章A相似的其他文章就不会被推荐了,这个就是消重的策略。

  那么还有一种情况,就是同一个方向或同一类主题的文章,比如都是足球的文章,推荐系统就需要打散策略,来保证推荐的频率不会太高,避免用户在前端感觉内容的同质化,保证内容多样性,这些都是有算法保证的。

  除了消重和打散策略,我们还会留一部分比例流量,探索用户的兴趣。

  甚至,我们会牺牲短期目标,比如每几刷,或有一刷的位置就是探索用户的兴趣,推荐一些模型不确认用户是不是感兴趣,但是模型想探索一下,会有一些这样的流量。

  然后就是从推荐模型本身来讲,最古老的推荐模型是协同过滤,这是十几年前的老一代技术,那时候大家就已经在考虑拓展用户的兴趣了。因为给用户推一样的东西,用户肯定会流失。

  协同过滤的做法也非常简单、直观,推荐系统会考虑你跟哪个用户比较像,你们都点了什么,你们喜欢同一类的电影,然后把那个人看过的,但你还没看过的内容推荐给你,通过相似用户的手段实现了兴趣的探索。

  现在还有很多高端技术也在探索用户兴趣,推动内容多样性。现在主流的技术是用深度学习做推荐,在深度学习里面有很多方法,包括网络可以做一些特殊的设置,让它学一些新东西。

  深度学习还是比较容易做的,因为所有用户、所有内容都是高维空间的向量,可以有意识引导模型,让它学习一些可能感兴趣的内容,虽然它的兴趣标签和你不一样。

  但是在这个空间里面,映射到很近的点,让模型容易推出去,这里面有很多高端的做法。

  最后还有一个重要的手段,我们给用户推出的是一个APP,是一个完整产品。很多人担忧推荐算法,就算你有这么多手段,还是不能很好测量我的兴趣,不能探索出我的更多兴趣。

  作为产品来讲,它有很多功能,比如今日头条,我们也做了很多功能来帮助大家拓展兴趣。

  比如热点,包括地震类的重要新闻,以及其他类的小众热点新闻,我们也会直接推荐给大家,我们会做很多精美的专题,背后有很多运营团队去做。

  比如关注,过去两年,我们在UGC也重点发力,也做得非常好,涵盖了基本上各个行业的名人、大V。

扫一扫关注短视频培训网公众号

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容, 欢迎发送邮件至 206186987@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

作者:admin

相关文章

01
02
03
04