数据冗余是什么意思(数据冗余性是什么意思)
数据冗余是什么意思,如何解决数据冗余问题?今天我们就来聊聊这个话题。首先我们要明白,大数据时代,数据是有价值的,但并不是所有的数据都有价值。比比如我们日常生活中使用的手机、电脑、平板等电子产品,这些电子产品的数据都是存储在硬盘里的,而硬盘里的数据也是有价值的,但是这些些价值的数据却无法通过网络传输到互联网上,所以就需要一个中间人来进行交易。而这个中间人就是黑客。
编辑导语:什么是数据湖?企业可以利用数据湖尽可能保持业务数据的可还原性,解决存储全域原始数据的问题;而数据中台的存在则可以帮助帮助企业提升业务处理效率。不过并非所有的企业都需要设立数据中台。本篇文章里,作者对数据湖与数据中台进行了详细的解释,一起来看一下。
引言:文接上回,没有阅读第一部分的小伙伴请点击《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)》查看,那我们就开始第二部分的内容吧,如有不准确的地方,还请希望大家进行指正。
一、数据湖上文通过有序性与开放性分别对数据仓库与数据湖进行描述并对比,现在我们来详细地了解一下数据湖。
1. 数据湖的起源数据湖主要是为了解决存储全域原始数据,其名称中的“湖”字将数据湖的含义表现得淋漓尽致。像企业的生产数据(非结构化数据与结构化数据)、业务历史数据、临时数据,诸如IOT设备,移动应用程序以及传统的设备中返回的第三方数据都可以通过ETL工具形成的“水管”存储进数据湖中。
例如笔者之前在工作过程中接触的手机信令数据、GPS返回的定位数据等,这些数据实际上并没有预先定义好相应的数据结构,这就意味着可以先将数据存储起来而无需对数据进行结构化处理,也无需明确要进行什么分析,由数据从业人员在后续工作中进行探索和尝试。
上文中提到的结构化数据和非结构化数据,那什么是结构化/非结构化数据呢?下面我们就解释下两者的区别与联系。
2. 何为结构化/非结构化数据举个例子。
我们收集到了这样一堆文字信息:
有个学生叫小赵,男的,97年的,土木工程系的,北京的;
有个学生叫小李,98年的,女的,外语系的,江苏苏州的;
·····
诸如此类的文字信息有几万行,我们存在word中,亦或是纸质版文件经由我们扫描成图片格式的,这类就可以称为非结构化数据。假设有需求将这些文字信息中按照性别、籍贯、专业等等统计出来,我们在第一篇文章中提到了关系型数据库,用相关的技术和工具将这些文字信息进行处理,处理后的数据就是结构化数据。
所以结构化数据的定义:是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
非结构化数据:不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、 XML 、 HTML 、各类报表、图片和音频、视频信息等。
3. 数据湖的作用回归正题,企业为什么要建立数据湖呢,首先数据湖中存在一个重要的组成部分ODS(Operating Data Store,操作数据存储),大家是否记得上一篇文章讲过OLTP(On-Line Transaction Processing),OLTP侧重于基本的、日常的事务处理,而我们现在提到的ODS就是OLTP数据的快照与历史。
我们在上文的数据库一节描述时提到业务数据库与数据仓库的结构不同,业务数据库是为OLTP设计的,是系统的实时状态的数据,而数据仓库的数据是为OLAP的需求建设的,是为了深度的多维度分析。所以这样就会造成基于数据仓库的数据分析会产生以下的限制:
由于数据仓库的架构设计事先订好的,很难能做到全面覆盖,因此基于数据仓库的分析是收到事先定义的分析目标及数据库的框架限制。
从OLTP的实时状态到OLAP的分析数据的转换会有不少信息损失,举个例子来说,某个用户在某个应用程序中钱包的余额,在OLTP系统中仅仅只会按照业务发生情况对钱包中的余额进行实时更新,然而在OLAP系统中也是仅仅会记录对该钱包操作的交易,如果想要去查询并分析该用户的历史余额就会比较麻烦。
而从根本上来讲,数据湖的最主要作用是尽可能保持业务数据的可还原性。数据湖的定位和搜索引擎类似,我们可以像在搜索引擎中检索数据一样,实现按需检索,即取即用,它存取这原始的未经改变的全量数据,可以存取、处理、分析。
4. 数据湖的发展更新于:4小时前