知乎的另外一面:怎么用数据治理内容
本文摘要:订阅专栏撤销订阅 打杂卖苦力妹纸一枚,每天被各种不良产品虐,不开心的时分虐一虐woshipm.92564525【导读】知乎现已走过了4个年初,在互联网的世界里,知乎现已成为无可争议的高质量社区,但在阅历了高速开展之后,怎么管理,筛选,呈现这些很多的信息(数据
订阅专栏撤销订阅 打杂卖苦力妹纸一枚,每天被各种不良产品虐,不开心的时分虐一虐woshipm.

9256

45

25

【导读】知乎现已走过了4个年初,在互联网的世界里,知乎现已成为无可争议的高质量社区,但在阅历了高速开展之后,怎么管理,筛选,呈现这些很多的信息(数据)成为一个难题,事实上无论关于哪个社区而言,数据的管理本身就是一个巨大的应战。下面是知乎联合创始人在七牛大会上的关于知乎数据方面的演讲,稍作删减。

我们好,我是知乎的李申申。首要,我想对主办方说一声:谢邀!感谢你们搭建这样一个专业的平台,让我们有时机聚在一同仔细评论数据这个话题。

说真话,在接到大会约请的时分,我第一反响想到了这句话。

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it…- Dan Ariely .

好像Dan Ariely所说,知乎也像是众多面对大数据很懵懂的「年青人」之一;我们虽然也在做大数据相关的一些事情,但其实比较浅显。我传闻今天在座的各位有不少都是知乎的用户,对知乎有一些爱好,那我就借这个时机跟我们分享一下知乎数据方面的一些工作。

简略进入正题,我们先来看看知乎的根本数据状况。

今天的知乎

截至2015年7月,知乎社区已具有2900万注册用户,月UV1.1亿,月累积页面阅读量达3亿。现在知乎全站已累计发生约620万个问题,以及近2000万个答复。用户总答复4,129,244,445字数,是大不列颠百科全书的近100倍,鹿鼎记的2580倍。

除了以上比较基础的数据,一些其他方面的数字也在以令我们比较欣喜的速度开展着。我们截取了知乎开放注册以来,取得一千个以上附和的答复和千字以上的答复两个数据,看一下它们的增加状况。可以看到,这两项数据都是坚持了一个比较平稳的增加趋势的。再看一下,这些用户日均获赞的数量。

首要,有必要说明的是:我们并不是完全将这两项指标作为有价值答复的判断规范,可是当用户情愿静下心来花时间撰写长文答复的时分,至少他的情绪是仔细的,也契合知乎所倡导的评论理念。另外一方面,知乎上的千赞代表了1000位知乎用户对此答复的认同和接纳。除开2月份等过年过节的时期数据会略低些,其他时间,这一数据增速根本都坚持在 10% 左右。

相同基于话题这个维度,我们随机抽取几个话题看最近的用户评论趋势。

这里展示的是心思学、互联网、经济以及天津爆炸这几个话题。 值得留意的一点在于,在天津爆炸工作席卷简直所有社交和言论平台,十分聚焦地引起爆炸性的重视时,知乎站内的其他专业话题评论仍然在继续进行。同时, 因为天津工作后续的各评论环节中有不少触及心思学的疑问,因此,知乎站心里理学的话题热度也被带动着略有上扬。

综合看,现在的知乎更像是个广场,各类较为抢手的时事评论好像是广场中央的喷泉,吸引了游客和大众的重视目光。而与此同时,在广场四周也有着各色酒吧、咖啡馆和茶馆等,各自汇聚了城市的居民们与知己倾心攀谈。

知乎大V和知乎小白

有不少知乎用户曾有疑虑,是否只有前期的用户们才较为认同知乎的社区理念,又或是只有老用户们容易收获附和和重视?其实其实不尽然。

让我们一同看看以下几组数据截图,横轴为时间变化,我们截取了知乎内测以来到附和数前10000的用户,依据他们的注册时间和附和数作图,以及日均的赞数增加量。我们可以看到这些点散布的比较散,说明增加状况比较均匀。

可以看出:即便在2015年才刚加入知乎的人也有十分大的时机被重视和认可。这也说明,这些新用户也有仔细评论、取得有价值信息交换的巴望,这些用户也对错常认同知乎的社区理念的。可以通用的秘诀在于:只需坚持不断地在自己拿手的领域参加评论、输出信息就可以得到更多人的认可。

知乎信息怎么出产,以及怎么流动?

前面几张图,我们现已了解了知乎的百花齐放的话题和继续贡献的优质用户。下面我们来看看知乎信息出产方式,为了更聚焦的展示这个问题, 我们选取了近期的天津爆炸工作作为事例。

从开展方式来看,抢手话题与其他话题相比,并没有不同。可是因为其新闻性,这类话题的开展更具有迸发性, 用户的行为更为集中。因此,也更便利我们来做这样一个展示。

首要,一批用户针对问题进行重视、答复,发生了基础的优质内容,然后,其他用户的自发约请、重视、保藏、感谢、投票、评论等社交行为,使得这些内容取得了更广泛的传达和重视,掩盖的人群不断扩展。

在知乎,社交行为催生了优质内容的出产与传达,而优质内容又引发了下一轮新的社交行为。

怎么用大数据做用户爱好辨认?

用户在知乎上的行为是多维度的;既包括比较轻的阅读阅读,又包括重一些的附和、对立,还有更重的提问答复(这里的重和轻是依据用户操作本钱来界定的)。我们可以依据这些行为做用户的特征分析,这也是各个互联网效劳都会做的常规工作,只是基于各自不同的效劳特点,所要分析的特征、选用的算法及其效果各有不同。知乎除了有很多的用户行为数据,还有十分多的文本信息,基于行为和文本,我们对用户的爱好和拿手能有更精确的辨认。

现实社会中,我们关于某些领域的常识把握是很深化的,但其他的一些领域就未必了。个人精力是有限的,没有人可以全知到成为所有领域的专家,这种状况是可以被映射到知乎上的。不同的用户在不同的话题领域下,他们的专业性是不同的,我们需要把握这种不同,给每一个人,在每一个话题下核算一个权重。核算的分值最主要的依据仍是那些你在知乎上的答复,当然,我们也会加入一些其他考量因素,包括其他专业人士对你的背书,你的专业布景,等等。

这是知乎十分基础的数据设备,但这个数值核算的量级是不小的(百万答复用户 十万话题,是千亿级其他数量核算),知乎关于权重判定每周都会进行全量的核算,也一直在调整优化中。

答案排序:怎么更好的呈现?

我们对答案排序算法进行优化,意图是让好的答案更靠前。跟着用户量不断添加,前期最简略的答案排序规则呈现了问题:一些答案友情附和比较多,让专业性不足的答案被推到靠前的方位。我们想到了给附和票加权重的方法,基于每一个人在话题下的专业权重来核算,排序得到优化,能让大部分优质答案可以排到前面。

虽然针对权重核算的优化仍然在继续进行,我们仍是遇到了一些算法上的瓶颈。

当问题下有多个发布较早的答复取得高票时,新的答复即便质量很高,也很难在问题页上取得足够的曝光,难以堆集更多附和票,一些误导性、煽动性的高票内容,即便同时也有很多对立票,仍然排在仔细、严谨但票数相对较少的优质答复前面。

这些问题在专业领域内对参加评论的用户形成的伤害尤其显着。这绝不是我们期望看到的。于是,我们又设计了新的排序算法。

新排序算法的思维是,假如把一个答复展示给很多人看并让他们投票,内容质量不同的答复会得到不同比例的附和和对立票数,最终得到一个反映内容质量的得分。当投票的人比较少时,可以依据现已取得的票数估计这个答复的质量得分,投票的人越多则估计成果越挨近真实得分。假如新一个答复取得了 1 票附和 0 票对立,也就是说参加投票的用户 100% 都选了附和,可是因为数量太少,所以得分也不会太高。假如一小段时间后这个答复取得了 20 次附和 1 次对立,那么基于新算法,我们就有较强的自信心把它排在另外一个有 50 次附和 20 次对立的答复前面。原因是我们猜测当这个答复相同取得 50 次附和时,它取得的对立数应该会小于 20。

威尔逊得分算法最好的特性就是,即便前一步我们错了,现在这个新答复排到了前面,取得了更多展示,在它得到更多投票后,算法便会自我修正,基于更多的投票数据更精确地核算得分,从而让排序最终可以真实地反映内容的质量。

我们的新算法年初发布之后,得到知乎站内的用户热烈反馈,也算是做知乎这样产品的优点吧,很多专业的评论涌现出来,为我们下一步优化提供了很好的主见。

官网Feed的自我涵养:内容的个性化引荐

官网的内容会主要考虑这几方面:

1、内容本身的话题领域要跟用户有关,是用户感爱好的,一个对汽车不感爱好的用户,即便给他推送最优质的汽车内容,他也会觉得无趣。

2、知乎是一个社交网络,用户的社交行为会发生影响,用户的行为会带来重视他的人官网的变化。

3时间因素,一些内容及时呈现在你面前,能够让它的价值更大

知乎的官网有一套专用的数据收集和处理机制,可以记载用户在官网的所有重要动作,比如,假如某条内容呈现在用户阅读器窗口或手机屏幕的可见规模内,就会记载一次。

以及……

知乎还有一些其他的数据优化,我举几个例子做简略介绍。

1.约请答复

略微熟悉知乎的用户,应该知道谢邀这个词,这个产品功用是为每个问题找到适宜的答复者,引荐给用户。我们采纳一种算法模型猜测某个用户答复某问题的可能性和答复质量。有 90% 的约请是通过这种引荐成果发出的,剩下 10% 是用户主动查找发生的

每周知乎精选邮件(eDM)

针对每一个用户做了个性化的核算,通过不断的算法优化,我们现已做到了30%的打开率和14%的点击率。

2.问题聚类

尽人皆知想对问题的文本进行聚类,最早想到的是通过文本语义匹配,通过杂乱的词袋模型(如传统的plsa,LDA,新的word2vec等)对问题文本进行向量化,这样通过语义将相关问题聚类起来。

知乎站内具有庞大的用户阅读数据,假如将这些阅读数据通过简略地算法(如协同过滤)建立一个模型相同也能达到很好地效果。

知乎每天的问答阅读量可以达到千万级别,这样就意味着输入给算法的user-item的边数每天可以达到千万以上,近3个月的阅读数据就能够达到10亿条边。在知乎的数据平台上需要近一小时的时间来建立模型,从聚类的成果中可以看出,即便不使用任何文内幕关的分析,单靠用户阅读的行为分析就能够很好地对问题进行聚类。

这也印证了一点:大数据基础上的简略算法比小数据基础上的杂乱算法更加有用。

 

于:


订阅专栏撤销订阅 打杂卖苦力妹纸一枚,每天被各种不良产品虐,不开心的时分虐一虐woshipm.
人人都是产品主管(woshipm)是以产品主管、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位效劳产品人和运营人,建立9年举行在线讲座500+期,线下分享会300+场,产品主管大会、运营大会20+场,掩盖北上广深杭成都等15个城市,内行业有较高的影响力和知名度。平台集合了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一同生长。

相关内容