软数据,那些不易量化、依赖主观判断的信息,如消费者信心指数和专家预测,与硬数据如GDP增长率和失业率形成鲜明对比。本文深入剖析软数据的来源、特点及其在数据分析中的关键作用,探讨如何将这些易变、主观的信息转化为可信赖的洞察。

由比尔恩门编写的《数据湖仓》这本书中,除了提到数据湖仓是下一代数据仓库和数据湖,目的是满足复杂多变的现代信息系统的需求。还提到了数据质量的重要性,通过检查输入错误、解决键的非兼容性问题以及维护良好的文档编制来提高数据的质量和可信度。

进入到数据湖仓的数据本质上来说都是可信的,如果数据不真实不准确,理论来说就不应该把这些数据存入到数据湖仓中。

这里面就提到一个概念,如果我们接触到结构化数据、文本数据和物联网生成的数据时,通常不会对数据的真实性产生质疑,这部分数据容易量化、约定俗成的、且有固定的计算公式的数据就统称为“硬数据”(hard data)

当然,除了这部分可信的数据外,绝大部分数据是需要进行真实性的确认,我们就称为“软数据”(soft data)。软数据是指那些不易量化、没有固定计算公式、主要依赖于主观判断和观察得到的信息和数据。这些数据通常来自调查问卷、专家评估、媒体报道等,与硬数据相对,后者主要包括官方统计数据、财务报表等具体的数字信息。比尔恩门认为软数据主要是指来自电子表格、互联网或政府的数据。这部分数据需要对其真实性、完整性进行确认,确认完成后才能存入湖仓的基础数据中。

软数据举例: 硬数据举例:
消费者信心指数 GDP增长率
经济学家预测 通货膨胀率
企业调查 失业率

从书中去理解什么是软数据确实有点费劲,原因就是太多的名词导致我们在概念上容易混淆,其次是这些名词定义如果没有普及拉通的前提下,很容易鸡同鸭讲,无法让对方理解你到底在表达什么意思。那么接下来我就尝试着理解一下,比尔恩门对于软数据来源的定义:

1,电子表格数据。我们经常会将电子表格数据作为导入导出,初始化到系统中去。但是,我们并不能确定电子表格里面的数据是否真实可靠,因为填写的过程中,你并不清楚填写的人到底有没有填写对应正确的填写内容。

其次,电子表格还存在一个问题,就是没有可用可靠的元数据。虽然表格包含列和行,但是很难对表格的上下文情景进行关联。比方说1977,是一个数字,但是它到底代表1977年,还是1977个,还是1977万……所以,表格里面的1977如果缺少了上下文情景,则毫无意义。所以我们在提取文本数据的时候,通过文本ETL,一个关键点就是能否获取数据的上下文情境。

2,互联网数据。则更是五花八门了,虽然现在对于互联网数据以及规避了很多涉及到个人隐私的问题,但是大部分我们获取到互联网的数据都是一次性的,如果互联网数据进行了更新,那么这部分数据的时效性则无法保证。互联网的数据由于没有准确的来源,或者由于带有很强的个人主观性,往往就会被其他人质疑。

3,政府数据。政府数据为什么也被纳入到“软数据”里面了呢?政府数据一般都应该是可信的数据,但是我理解比尔恩门想要表达的就是这类数据,实际也存在一定的欺骗性,或者说这类数据也有可能失真。

比方说披露的某企业的资产现金流在某季度大幅的增长,我们如果知识单方面看到这些数据,或许会认为该企业的生产经营状况相比较之前是有所增长的。虽然这个结果也是真实的,但是往往我们忽略了整个财报隐藏的一些问题。或许该企仅仅只是通过变卖固定资产,变卖手头上的一些资产导致的现金流增长,实际的主营业务收入还是持续下降的。

从我们对待数据的真实性角度来看,在数据进入湖仓之前,都应该进行确认,它们的可信度。从“软数据”到“硬数据”的过程,一定是去伪存真的过程。

  • 软数据是如何进行计算的,究竟进行了哪些计算?
  • 在收集和计算的过程中,选择了哪些数据,排除了哪些数据?
  • 什么时候收集的数据,数据什么时候获取的?又计划在什么时候更新的?
  • 在互联网上找到的数据,它的来源是什么?
  • 谁进行了计算?在哪里进行了计算?

最后可以举一个简单的例子,对软数据和硬数据进行一个概念上的定义。一个股市的投资者和分析师通常会结合软数据和硬数据来做出决策。例如,在评估股市趋势时,除了关注公司的财报数据(硬数据),也会参考市场情绪、行业趋势等(软数据)。

总之,软数据虽然存在局限性,但在数据分析中扮演着重要的角色。理解软数据的特点和局限性,能帮助我们更好地解读数据,做出决策。

本文由运营派作者【老司机聊数据】,微信公众号:【老司机聊数据】,原创/授权 发布于运营派,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

登录后参与评论
给作者一些鼓励吧!
等我一分钟 我去找个夸你的句子
这世上美好的东西不多,牛起来要人命的你就是其一!
不要厉害的这么随意,不然我会觉得我又行了
这就很离谱了,老天爷追着喂饭的主儿~
我要是有这才华,我走路都得横着走!
对你的作品崇拜!
反手就是一个推荐,能量满满!
感谢分享
  1. 感觉运营就是个苦逼活

  2. 作者的观点很独特

  3. 这篇文章让我收获了很多知识,感谢作者的分享,期待更多优质内容。

  4. 昨天晚上睡前还思考了这个问题,好巧

收藏
评论
返回
营销日历05月02日 更多
世界金枪鱼日
世界防治哮喘日(5月的第一个周二)
1519年艺术大师达·芬奇逝世
1945年中国第一部新歌剧《白毛女》演出
加入圈子
抖音学习交流群
加入
小红书学习交流群
加入
视频号学习交流群
加入