本文跟大家聊聊文本分析的一些基本知识,后附上一个实际案例来聊聊基于大数据的文本分析是如何应用在商业场景中的,大家仔细阅读哦!

1、我们日常所理解的“数据分析”

在我们日常的产品和运营工作中,经常接触的数据分析方法、形式绝大部分是基于对数字(值)的描述性分析,如销量情况、用户增长情况、留存情况和转化情况等,高级一些的数据分析方法有因子分析、聚类分析和回归分析等方法(见下图)。

blob.png

常用的数据分析方法/形式

这些分析方法/形式有一个共同点:都是跟数字在打交道,说的专业一点,就是基于对结构性数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)的分析,比如姓名、性别、年龄这些信息,以Word、Excel等形式呈现的数据。这种类别的数据比较好处理,只要简单的建立一个对应的表就可以了。

blob.png

典型的结构性数据表格

然而,数据分析仅仅只有这一种类型吗?

答案当然是:NO.

一个完整而清晰的数据分析过程,除了在范围上,要进行宏观和微观的分析外,还需要在分析的层次上有所递进和深入,以下是我们进行数据分析时常会考虑到7个维度。(见下图)。

blob.png

数据分析的7个维度(来源:《谁说菜鸟不会数据分析(工具篇)》)

在上图中,对数值型数据的分析能覆盖绝大部分的维度,但它更多的是描述事物的表层现象,主要是在事物的“量”上进行描述。也就是说,对数值型数据的分析并不能回答其中最为重要的一个维度—“Why”,但在产品和运营的实际工作中,发掘出用户的喜好、购买/使用及流失的内在原因(也就是洞察用户的行为动机),对我们的工作至关重要,它会直接影响产品的功能设定和运营策略。

这时,对非结构性的文本型数据进行分析呼之欲出。

根据2011年IDC的调查,非结构化数据将占未来十年所创造数据的90%。作为一个尚未得到充分开发的信息源,非结构化数据分析可以揭示之前很难或无法确定的重要相互关系。

所以,我们有必要对非结构性数据引起高度重视!!!

那什么是非结构性数据呢?

2.基于大数据的文本分析

非结构性数据是与结构性数据相对的一个概念,它包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

blob.png

非结构性数据组成部分

本文所提及的非结构性数据特指文本数据,这里包括且不限于社交网络(微博、微信、QQ和脉脉等)、客户反馈(客户抱怨邮件、社交媒体网站的帖子、开放式问卷调查、消费者点评)新闻媒体、销售人员的拜访记录等。

那对文本数据进行分析,我们能得到哪些有价值的线索或洞察呢?

3.基于大数据的文本分析的商业价值

文本数据来源异常广泛且多样,很多时候需要搜索海量的网页。当然,只有基于恒河沙数般体量的大数据文本分析,才可能得出比较可靠、有说服力的商业insight。

“文本分析”,或者“语义分析”是分析海量的非结构性的文本(信息)数据,回答的不仅是“是什么”的描述性分析,更多的回答了“为什么”,即目标用户购买和使用产品的潜在动机/真实需求。

基于大数据的文本分析被广泛应用于各种行业来解决关键的知识性问题,例如从CRM 数据、 社交媒体、 新闻网站和购物网站评论等渠道获取文本数据,再通过计算机自然语言处理,从而揭示出在任何非结构化文本信息中的人物、事件、时间、地点等内容,从而能够提供贯穿所有业务的全新层面的理解。

blob.png

大数据文本分析提取出的主要维度

举例来说,用户满意度的上升,可以从评论量中好评的增加以及服务评价几颗星来看出,但这只是描述性的分析,并不能知道为什么用户会给好评,产品或服务的哪些方面会得到好评。借助文本/语义分析,我们可以了解到这段时间排名靠前的评论词汇大都是正面的评论,而且可以清楚的看到用户对哪些方面感到满意,这是成功的经验,是需要巩固和加强的地方。反之,用户关于产品/服务反馈较负面的方面是我们需要重点注意和改善的。

简而言之,基于大数据的文本分析能够揭示出潜藏在文本信息当中的趋势和关联,为商业决策、行业趋势研究和热点内容追踪提供有力支持。

4.这些有价值的海量文本数据“藏”在哪里?

社会化媒体时代,用户在购买产品/服务前,或是使用产品/服务之后,会在互联网上表达自己的对产品的疑虑或看法,通过互联网这个平台表达社情民意,体现自身的真实意愿和产品/服务的体验感受等。

以下是用户所产生的海量的、有价值的文本信息“聚集地”:

blob.png

大数据文本信息的来源

同时,在互联网的产品和运营工作中,我们主要注意如下3类文本信息来源渠道,即社交媒体、电商平台及APP应用市场上的用户对于产品/服务的“发声”。

(1)社交媒体

社交媒体发展日益瞩目,论坛、博客、微博、微信等社交网络接踵而至,它们在悄无声息中改变着我们的生活方式。

在交互性强、容易沉淀价值信息的网络论坛上,网民们可以获得各种信息服务,同时可以发布信息、进行讨论、聊天,用发帖回帖来表达对事件、产品、品牌和企业的看法。

在容易爆发热点话题的微博上,用户除了会主动发布的微博外,还会主动追踪热点事件、喜爱的兴趣频道和明星的微博,转发和评论这些微博。

在具有强关系属性的微信上,用户会对自己关注的公众号发布的内容进行评论和转发,以此来表达自己的观点和情绪…

在这个社会化的媒体时代,用户成为企业最好的品牌推广大使。如何从这些可观的社交媒体数据中分析出用户的潜在且准确的购物意愿及用户需求,将成为提高品牌价值和声誉,改善用户体验的新兴途径。

这就需要互联网从业者们加强社交媒体的监测功能,综合利用高级分析能力,发掘为消费者创造惊喜的良机。比如,新浪微博上粉丝过万的零售商,可以根据用户发表的微博、所参与的微话题和签到地点,为用户个性化的去推送优惠及新品信息。因为这些看似庞大无规则的社交数据,往往包含着大量的用户基本信息和兴趣标签,进而绘制出潜在的用户画像。

(2)电子商务平台

电子商务网站上的海量的用户言论数据隐含着巨大的信息,这些网站包括且不限于淘宝网、京东商城、亚马逊和大众点评网等主流购物、服务平台。

例如,亚马逊上的用户对某商品的评论,商家可以根据用户的评论和反馈为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的。

(3)其他第三方应用市场

移动互联网时代诞生了的APP,这些APP除了“挂”在自家的官方网站以外,更多的是分布于第三方应用市场(如苹果商店、91助手豌豆荚、小米应用市场、百度手机助手等),这时收集用户的大量吐槽对于改善APP的用户体验至关重要。通过对用户大量评论的文本分析,我们可以第一时间了解到产品的哪些方面是用户喜欢的,哪些方面是用户比较嫌弃的,哪些是无关痛痒的“伪需求”,力求在短时间内改善产品的功能与设计。

综上所述,相关文本数据的来源多样,而且覆盖了非常广泛的话题。任何和产品/服务相关的陈述和评论本质上都是有用的信息,因为这些陈述可以让产品/品牌所有者了解用户的最真实的想法。

5.大数据文本分析的一些应用场景

以上说的是大数据文本分析的一些原理、数据来源及其商业价值,现在笔者就从以下5点来谈谈它的实际应用场景。

(1)开放式作答处理

大量问卷调研中的开放式问题的处理,这些开放式的问题以电子文档的形式进行存储,使计算机进行文本分析成为可能,可以在短时间内从数以万计的作答中提取出有价值的分析维度,获得对(潜在)用户的需求的洞察。

blob.png

从近万份某3.15开放式问答题中提炼出的焦点话题

(2)内容运营优化

  • 捕捉优秀作者的写作风格

对于一些初入新媒体运营岗位的小伙伴来说,研究和模仿某些知名自媒体作者的写作风格很有必要,学习他们的写作手法和套路可以使我们的文案写作进步神速。

要想对这些优秀作者的行文风格进行深入研究,除了熟悉他们的行文脉络和篇章结构,更要熟稔其遣词造句上的套路(包括措辞特点、常用关键词和情感倾向等),在模仿中逐步形成自己的写作风格。

如下图,对咪蒙10几篇具有代表性的文章进行文本分析,从如下各种属性的关键词,再结合对咪蒙作品的一定了解,可以得出这样的结论:咪蒙的文章里经常进行宣泄负面情绪,把粉丝心中想说却不敢说的话酣畅淋漓的表达了出来,使万千粉丝感同身受,被其感染;另一方面,她身边的人常是被吐槽和分析的对象。。。

blob.png


对咪蒙10几篇具有代表性文章进行文本分析

  • 新媒体热点采集、追踪及预测

基于大数据的文本分析能快速获取全网具有趋势传播的关键词,可以实时监测传播趋势(包括全面研究阅读数、评论数、分享量、传播趋势),并且通过分析内容属性和成功原因,预测内容在未来的传播潜力。

能够娴熟使用大数据的媒体人在未来的媒体行业才有立足之地,就如热巢网CEO穆青所强调的:

在未来的媒体竞争中,媒体人需要转型变成“内容+技术”的复合型人才,一方面发挥自己在内容创作中的人性的独立判断和分析,另一方面需要借助大数据分析技术提升文章的传播效果。

(3)口碑管理

基于大数据的文本分析能快速准确的识别出企业/品牌/产品自身及竞争对手在互联网上的口碑变化,深度挖掘文本数据价值,在消费者洞察、产品研发、运营管理、市场营销、品牌战略方面,为管理决策提供科学依据。

blob.png

某餐饮品牌的口碑管理

(4)舆情监测及分析

利用基于大数据的文本分析,我们可以清晰的知晓事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情的传播路径、传播节点、发展态势和受众反馈等情报。

blob.png

对沪文化广播影视管理局的舆情监测

(5)了解用户反馈

通过基于大数据的文本分析,企业可以用正确的方式阅读用户散落在网络上的“声音”,企业可以直接读懂自己用户的想法,挖掘出用户对于产品/服务的情绪和态度。比如,大数据文本分析可以回答如下问题:

  • 用户喜欢的是它产品的哪一方面?
  • 比起其他公司的产品来,客户是否更倾向他的产品?
  • 这些偏好会随着时间发展和变化吗?

在大数据时代还未来临前,企业一般根据自身积累的历史数据,以及一线运营人员的主观经验来猜测用户接下来的反应,以此作为制定后续营销、运营方案的依据。

然而,在这个VUCA时代(宝洁公司首席运营官Robert McDonald借用一个军事术语来描述这一新的商业世界格局,即volatility,易变性;uncertainty,不确定性;complexity,复杂性;ambiguity,模糊性),商业场景的变化速度和复杂程度今非昔比,用户的喜好也容易受外界“场景”的影响,就如“孩子的脸”和“六月的天”一样善变,先前积累的经验往往不足以作为企业下一阶段进行市场谋划和运营的依据。

blob.png

   VUCA时代的特征

根据上文的分析,我们可以了解到,大数据文本分析是应对上述困局的一剂良方。

接下来,我们来聊聊文本分析是如何在商业实践中发挥它的巨大威力。

5.文本分析重构产品的营销和运营流程

借助基于大数据的文本分析,我们可以对用户行为和想法进行科学分析,使用户洞察由原来的主观“猜测”转变为以数据为驱动的精准预测。

在新产品上市前,或者是小规模投放市场后,在社交媒体上对粉丝和潜在用户的言论进行收集,对其进行文本分析,知道他们喜欢产品的哪些方面,对哪些方面不太满意,以及他们对产品的其他期望,从而敏捷、快速、准确的对用户的反馈做出积极的回应。

由此可见,有文本分析介入的产品运营流程被“重构”了,如下图所示。

blob.png

有文本分析参与的营销分析逻辑流程

其中,对用户言论进行文本分析的“精髓”在于对提炼出的文本数据的所表达出的“情绪”的解读,也就是用户言论的情绪分析。

在理解文本分析语境下的“情绪分析”前,我们先看看它的一般含义。

6.大数据文本分析中的“情绪分析”是什么?

先说“情绪”。“情绪”这个词,在心理学中的一般含义是:对一系列主观认知经验的通称,是多种感觉、思想和行为综合产生的心理和生理状态。我们日常中最普遍的情绪就是喜、怒、忧、思、悲、恐、惊,也就是中医中所说的“七情”。

那么,“情绪分析”就是有效且准确的识别这些具体的情绪,根据得到的结果,进一步对产生于自身或者他人的情绪采取合理的应对措施(如疏导自身消极情绪、理解他人的反常行为等)。

与此类似,基于大数据文本数据的“情绪分析”,也被业界称为“观点挖掘”,它利用多样化、海量的社会化媒体做客服,借助数量庞大的社交网络平衡语料和新闻平衡语料的机器学习模型,对所获取文本中的情感倾向和评价对象进行提取,使运营者更全面、更深入地了解用户的“心声”,掌握用户对于产品的喜好程度,及用户视角下的产品优缺点。

值得注意的是,基于大数据文本的情绪分析在于深度分析评论的意义(评论的是事物的哪些方面)以及附带的情绪倾向(是“褒”是“贬”,还是“中立”),而不是评论本身在说的文字。

下面,笔者将以基于亚马逊上Kindle Voyage商品评论的文本数据为例,来聊聊文本数据的情绪分析在商业实践中的运用。

7.“情绪分析”在商业实践中的正确打开方式

现在,笔者以亚马逊官网2014年9月份在其平台上发售的KindleVoyage电子书阅读器珍藏限量为例,对其商品评论区的用户评论进行基于文本数据的“情绪分析”,看看我们能从中得到哪些有价值的insight,以便优化我们的运营工作。

blob.png

亚马逊官网上Kindle Voyage电子书阅读器的商品详情页

分析时间段:2014.12.01~2015.06.23

数据来源:亚马逊官网上Kindle Voyage电子书阅读器商品评论区

意见领袖总数(评价者):1675人

原始评价:2720条

详细评价信息(包括对评价的“回应”,即评价的评价,如此循环):4659条

blob.png

亚马逊Kindle Voyage电子书阅读器珍藏限量版评论区

笔者将从以下5个方面,即用户聚焦点分析、用户反馈趋势分析、用户情绪分析、用户反馈分析,以及各地域用户评级分布及情绪分析,对Kindle Voyage亚马逊商品评论区的4659条用户留言/评论进行文本分析。

blob.png

对Kindle Voyage用户评论进行文本分析的几大模块

(1)用户典型意见分析

大数据文本分析中的“典型意见”是指,将用户的意见进行单据级别的语义聚合,将内涵相近但表述有差异的意见/看法聚合在一起,抽取出其中典型的用户反馈/意见,在短时间内迅速梳理出用户对于产品所关注的话题。

blob.png

用户评论的典型意见分析

从上图可以看出,通过对这些用户留言的典型意见进行分析,再结合Kindle Voyage的商品详情描述,我们可以了解到用户对于KindleVoyage的评价主要集中在以下7个方面:

  • 捆绑销售策略(话题1)
  • 限量发售策略(话题2)
  • 屏幕显示效果(话题3)
  • 原装配套皮套(话题4)
  • 与其“同族兄弟”kindle Paper White的比较(话题5)
  • 屏幕的亮度自动调节功能(话题6、话题7)
  • 售后客服评价(话题8)

关于用户对这些话题的具体评价和情绪感受,我们需要做进一步的分析。

(2)用户反馈趋势分析

用户反馈趋势分析曲线展现了文本数据量在时间上的分布情况,可以从宏观上掌握上述8个话题所对应评论(量)的发展走势,以便做好及时跟进,发掘出其中有价值的言论。

下图中,从下至上,依次是话题1到话题8的评论数量随时间变化的增减趋势。其中,评论量的大小以图形面积的大小来呈现。

blob.png

用户评论量随时间轴的变化趋势

可以看到,这些话题的发布数量的增减走势基本相同,且在2015-3-1达到评论高峰,2016-1-25达到小高峰,这两个时间点的前后数天的购买人数激增。然而在2016-4-24这一天商品评论区的总体评论量骤然减少,对于这几个异常点,运营人员可以调出对于日期的销售记录、商品维护日志等资料找出原因,以便对症下药,做好后续的运营工作。

(3)用户评价和情绪分析

这部分包含2个模块,即用户评价和情绪分析,二者存在一定的正相关关系,也就是说,用户评价较高,相应的情绪偏正面,反正亦然。

  • 用户评价分析

blob.png

用户评论星级分布表

blob.png

 

用户评价星级占比图

从上面2个图可知,超过63%的用户对于KindleVoyage的产品性能是非常满意的,给出了5颗星的评价;次之的四颗星评价占到19.15%的比重,以上二者比重之和超过80%,可知Kindle Voyage总体的市场反馈非常不错。

  • 用户总体情绪倾向分析

blob.png

 

用户的情感度分布

上图是用户对于Kindle Voyage总体情感的仪表盘,是根据用户对于Kindle Voyage的文字评论进行情绪倾向分析得出的,能反映消费者对于Kindle Voyage总体态度是肯定还是否定。该仪表盘分为3个大的方向,即负面情绪、中性情绪和正面情绪,其中暗含的用户态度就是—对产品不满意、产品一般和产品很不错。

从上面2个图可以看出,购买者对于Kindle Voyage以中性评论为主,情感正面值为1.06,总体情感偏向于正面,说明大家对Kindle Voyage的真实看法与评价星级总体倾向是一致的,没有言不由衷。

(4)个体用户情绪倾向分析

上面的是全体用户对于Kindle Voyage的总体情绪倾向,但在很多时候,我们想要知道哪些用户的“发声”在这些评论中更具代表性。这就需要分析引擎在语义层面上对每个用户进行重要性排名,从中发掘出有“话语权重”较大的“意见领袖”。

更进一步,我们要对其中单个用户的情绪态度、评价和所关注的产品方面进行分析,这就涉及到以单个用户为主体的情绪倾向分析了。

以下2个图分别关注的是意见领袖(用户)情绪分析总览和单个意见领袖(用户)的详细情绪分析。从中我们可以看到评论用户的名称、评论的数量、情绪是属性及相应的情绪数值。

blob.png

用户(意见领袖)情绪分析总览

如果我们想对某个重要用户的情绪进行详细分析,我们可以点开这个用户的详细资料,进行深入的分析。如下图所示:

blob.png

单个意见领袖(用户)的详细情绪分析

从上图中我们可以了解到为什么该用户对Kindle Voyage持正面态度(正面情绪用红色显示)了—下面的正面关键词云显示出该用户对Kindle Voyage的手感、屏幕显示和做工质量很满意。此外,在“焦点概览”里,我们可以了解到类似的评论有8条,在哪个时间节点达到峰值。

在进行上述分析后,我们还需要进一步读懂评论区的全体用户对Kindle Voyage的反馈,知道用户喜欢它的哪些方面,对哪些方面还不是太满意,以及这些(不)满意的方面的程度如何,这是“情绪分析”中的重中之重。

所以,我们需要进行下一步分析—用户反馈分析。

(5)用户反馈分析

这部分的原理是,从众多用户评论中提取出跟产品属性相关且有代表性的关键词,并进行相似文本聚类,然后给出相应权重,最后匹配相应的情绪属性和情绪值。最终的结果使得运营者拥有了用户视角,知晓产品有哪些地方表现尚可,哪些地方反映平平,而哪些地方是需要进行改进和完善的。

下图是用户对于Kindle Voyage使用后的评论中提取并聚类的关键词云,其中文字大小代表该词的权重(重要程度和词频),字体颜色表明该词的情绪偏向(红色是正面评价,灰色是中性评价,蓝色是负面评价)。

blob.png

用户的对于Kindle Voyage评论的主要关注点

根据关键词及其重要程度排名,笔者找到了用户满意的几个方面。

  • 屏幕显示效果良好,这一点用户很是认可,“显示效果”、“分辨率高”、“看着舒服”、“字迹清晰”等关键词显示较大,此类评价的用户居多;字体为红色,表明用户反映的情感正面积极。
  • 产品(及周边)质量不错,体现在“做工精细”、“续航能力”、“原装皮套”、“值得拥有”、“Ipad Mini(那样的做工)”、“实体翻页键(不错)”、“一分钱一分货”等关键词上。
  • “限量珍藏版“这个概念牌打得好,用户也愿意为此买单,这主要体现在“限量珍藏版”这个词频较高且为红色的关键字上。

另一方面,运营方也要及时了解用户的负向反馈,针对性地改进服务质量。

还好,在这里只出现了“压敏按键”这些负面词汇,点开“压敏按键”一词,看到用户的详细吐槽—“压敏按键在按下的时候出现下陷情形…”,虽然这样的反馈不多,但仍要引起高度警惕,具体排查是产品本身的设计问题,还是极个别的产品质量问题,并将此反馈传递给相关负责部门。

(6)地域评分和情绪分析

将用户的反馈数据和评分同步到地图上,通过形成的数据地图可以直观的看到各地对于KindleVoyage的评价和情绪度,从而对整体的用户反馈情况进行监控,重点“关照”其中的用户差评“重灾区”。

此处选取的是KindleVoyage在江苏省各市的用户反馈数据,反映出该地区Kindle Voyage用户对于产品的评价及情绪倾向性。

其中,数值代表评分高低,颜色反映情绪值,绿色代表良好,蓝色是一般,红色代表处于警报状态,需要重点关注,排查问题发生的具体原因。

blob.png

江苏省各市Kindle Voyage用户的评分及情绪度分布

这里可以看到,徐州市、连云港市等城市的用户反馈良好,反映在评分较高,且颜色为绿色。然而,淮安市、镇江市和南京市的Kindle Voyage用户却非常不满意,评分较低且情绪度处于红色警报状态,需要引起客户体验部门的高度重要,做好用户情绪疏导和公关工作。

结语

从上面的实例中,我们可以体会到大数据文本分析对于产品、设计、营销和运营的巨大价值,它的重要性不亚于传统的结构性数据分析。用正确的方式阅读这些海量的文本数据,我们就可以直接读懂用户的想法,获得强有力的决策支持,从而使产品研发、营销推广和日常运营更贴近消费者需求,最终在用户心中形成良好的品牌形象。

 

作者:苏格兰折耳喵,微信公众号:运营喵是怎样炼成的,个人微信:g18818233178),数据分析爱好者,擅长数据分析和可视化表达,喜欢研究各种跟数据相关的东东。

本文由 @苏格兰折耳喵 授权发布于运营派,未经作者许可,禁止转载。

评论( 0

登录后参与评论
加入圈子
关注微信公众号

可能感兴趣的文章

互联网运营学习、交流、分享平台