我今天汇报的题目是《微信公众号的传播效果的研究》。
我们做的研究主要是关于微信公众号的。这个研究是我和的研究生李莎同学一起做的,我们有一些现实的考量在里面。最近网络红人比较多,比如说“歌手里面的段子手”,薛之谦;我个人关注的《罗辑思维》的主讲人,罗振宇。身边有朋友跟我探讨过这个问题,也问我怎么才能红。我对这个问题也比较好奇也比较困惑,现在红的人这么多,想要红的话,应该怎样才能红起来?
另外一个理论的关注,就是洛文塔尔1949年的时候,曾经在《大众偶像的胜利》中提到的“生产偶像向消费偶像的转变”问题,我和我的研究生在另外一个研究中,也曾经涉及。我们开始以为推特中的意见偶像是消费偶像为主,或者也有生产偶像。但研究的结果还是让我们意外,推特中的意见领袖,其实我们称他是知识偶像。专业技术人员、大学教师、学者,包括一些传媒人员占有主要地位,并且他们的影响力比较大。这些都促使我们想一个问题:微信时代,微信公众号里面,这些走红的方式发生了什么转变,有什么特点。整个研究中,我们关注的问题是:微信公众号发布的文章是怎样热起来,跻身高点击量和高阅读量行列的。
我们利用网络爬虫抓取15万的微信文章,包括其详细的全文、发布者、阅读量、点击量,发布者的身份等,主要考察这些发布者的特征和帖子传播效果之间的关系,同时考察走红的帖子之所以红跟它们的内容之间有什么样的关联性。
先把我们整个研究的预处理的过程讲一下。我们抓取到15万微信文章,删除了正文没有空白和没有意义的,剩下147157条。然后我们对筛选后的样本,考察了他的TF、ITF,或者是简要地说,我们考察了每条帖子中最关键的词,我们把这些词提取出来,先是建构了一个147157×2776,得到2776个词,整个规模还比较大。最后,我们用了一些降维方法。降维我们主要运用了奇异值分解,最后把2000多维降到500维,500维就是说我们对于所有的帖子,提取了前500位最重要的主题,尽管不知道这些主题具体是什么。看看每一条帖子在每个主题上得分是多少。最后降维之后的结果,做了一个聚类分析,整个研究过程,我们运用Python网络爬虫的模块,包括numpy,scikit-learn等工具来做。
整个研究过程最耗时的部分,我们再用K-means的聚类办法,从聚为两类一直聚到200类,我们聚成每一种聚类之后,本来是想运用“肘方法”,找一个拐点,看看在哪个拐点,它的误差最明显。但200类做下来,我们没有看到很明显的点。因为时间特别仓促,后面再多的聚类来不及做了,从写代码到跑结果,大概花了两天。
我们用最多的200类的方法来做,所有的帖子分为200个类。
整个研究其实大致分为三块,一个是你想红,那行,你红的话,作为微信公众号的传播者,你是什么类型,你的特点是什么。我们先看看传播者的类型跟它的传播效果的关联。首先,我们发现的是粉丝数,传播者微信公众号的粉丝数和传播效果具有显著关联性。既然跟粉丝数有关联,我们再考察传播者的类型。假如说传播者分为22个类别,包括情感搞笑,文化教育,当然也包括房产、财经、汽车等等。我们考察每个板块的传播者的粉丝数之后,得到的结果是,三个板块的粉丝数是最多、最显著的,分别是情感励志的,搞笑娱乐的,文化教育的。
除了粉丝数的关联,再来看这些微信热文,传播者类型和微信阅读量的关联度。所得结果跟前面那张表差不多,四种类型的传播者,他们文章的阅读量是最高的,主要包括搞笑娱乐、情感励志、时事资讯,文化教育。我们又考察了传播类型和文章点赞量的关系。也一样,还是四类:搞笑娱乐、情感励志、时事资讯,文化教育。我们通过这样的考察,又对不同类型的传播者做了方差分析,这些差异是有显著性的。对于这一点,我跟我们的团队成员,是比较庆幸的。之前另外一个对于推特中的研究,我们当时是用人工分类方法,把这些帖子分成若干类,最后的结果发现不同类型的帖子,政治类、军事类、经济类,它的传播效果没有显著差异。得到这一步的结果,我们感觉到我们的数据分析,没有白做。
这里初步的体会是,在微信公众号中,情感、搞笑、娱乐、个人生活成为传播的主要内容,这体现了微信公众号传播中公共娱乐的个人化。传统的生产偶像、消费偶像以及关注的门户网站、新闻网站中比较热门、显著的公众化议题,国家大事,钓鱼岛、中南海等,没有在微信公众号传播中体现出主要的传播效果。
第二个把这些帖子分为两百类,跟它的传播效果和热度是不是有关联?假如说我想红的话,我应该在微信上发哪些帖子?我曾经想过,我能否复制《罗辑思维》的路,比如说也在微信上发一点科普的帖子,讲讲议程设置。后来想想恐怕走不通。根据聚类的结果来看,我先把四个表简单过一下,分别考察了200类的帖子跟他们的传播者粉丝数、传播者近一个月的平均点赞数、帖子阅读量,以及跟帖子点赞量的分布关系。最后,我们发现,有一些类,很明显的跟高传播热度效果具有关联性。
这些数字相对看着比较抽象,最后文字的部分,给大家汇报一下。在这些聚出来的类里面,我们发现,在前面四个指标中,两百类我们考察居于前的二十类,有这些类,在四个指标中都居于前二十类,出现的频次是四次的,有这七种类别:健康养生类、爱情情感类、生活休闲类、冷笑话类、电视及文艺作品类、情感修养类、阅读作品类。出现了三次的,包括手机通讯类、娱乐营销类、汽车类、交通安全类、国际政治人物事务类,生活交集类。这跟前面的传播者类型还是蛮相通的,也涉及到情感励志,搞笑娱乐、文化教育。
第三块,也是整个研究的最后一块,把整个14万帖子中最热门的那部分帖子,专门摘选出来,对这部分的帖子特征做分析。我们把这些帖子的热度,分为十个等级,之后选择最高的两个等级,就是8321条。它们的特征,我简要汇报。
一个是传者类型主要是哪些。整体的、没有过滤之前的,这些各类的主体还分布的差不多,蛮均匀的。最热的帖子我们比较发现差异很明显,四类是最主要的,这四类和前面一样,搞笑娱乐、情感励志、时事资讯、文化教育。我们认为会热门的旅行类、政务类、运动健康类,其实占比都很低。
再考察的是最热的8千多条的帖子中,帖子类型和文章热度的关联。这部分的思路是考察在这最热的8千多条帖子,以及剩下的不怎么热的13万多条这两部分。我们考察这两百类的帖子各自占的比重,求它的差额、差值。最后发现,大概二十类左右差值变化很明显。百分之百总的比例中,有些类的差值甚至达到3%点多。想要红的话,你关注这些方面的话题,特别重要。我把变化最大的前二十位,摘了一下,这是聚类出来的序号和前后变化的差值。这些类型也跟前面的研究结论差不多。生活休闲,健康养生,感情,包括爱情,亲情,母亲,女性。也是体现了情感励志、搞笑娱乐,总而言之跟个人生活情感比较相关。
后面主要是通过对应分析的方式,把传播者类型跟帖子类型放在一块儿,分析它们的亲属远近关系。我们分析的结果是整个微信公众号中真正有区分度的那些类型,比较少。在这些热门帖中主要是汽车类和财经理财类,这些传播者发的帖子,比如说在汽车类的传播者中,帖子主要是汽车类,SUV之类的。财经理财类,是跟这部分传播者关系最近的几类帖子,有28、114、108类,它们主要也是与财经理财高度相关,包括互联网新经济、金融,基金、理财等等类型。我们得到的感想和体会是:在微信中,假如想要红,寻求一些有区分度的细分领域当然很重要,目前来说其实各个细分领域的区分度其实并不大。
这两幅图,是我们把前面这个表中的传播者类型跟帖子类型分别剥离出来,看看它这两类的分类情况。大致讲的就是传播者类型分布情况。这里,也能看到汽车类和财经理财类,跟别的类型距离都很远;而其他类的传者中,他们的距离都比较近。
以上就是我们主要研究观点。