淋漓尽致(10分钟带你看数据库)是什么意思
如果有更好的建议或者想看更多关于综合百科技术大全及相关资讯,可以多多关注茶馆百科网。

编辑导语:什么是数据湖?企业可以利用数据湖尽可能保持业务数据的可约性,解决全局原始数据的存储问题;数据中心的存在可以帮助企业提高业务处理的效率。然而,并不是所有的企业都需要建立数据中心。在本文中,作者对数据湖和数据中心进行了详细的解释。让我们来看看。
引言:文章续。如果你还没看完第一部分,请点击《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)》查看。那我们开始第二部分。如有不准确之处,请指正。
首先,数据湖通过有序性和开放性分别描述和比较了数据仓库和数据湖。现在让我们了解更多关于数据湖的信息。
1.数据湖的由来数据湖主要是存储整个世界的原始数据,而单词& quot莱克& quot它的名字将数据湖的含义表现得淋漓尽致。生产数据(非结构化数据和结构化数据)、业务历史数据、临时数据,如IOT设备、移动应用程序和从传统设备返回的第三方数据都可以通过& quot水管& quot由ETL工具形成。
比如作者在工作过程中接触到的手机的信令数据,GPS返回的定位数据等。这些数据实际上并没有事先定义好相应的数据结构,也就是说不需要对数据进行结构化处理或者清晰的分析就可以先存储数据,数据从业者可以在后续的工作中进行探索和尝试。
结构化数据和非结构化数据上面提到了,什么是结构化/非结构化数据?下面来解释一下两者的区别和联系。
2.什么是结构化/非结构化数据?举个例子。
我们收集了这样一大堆书面资料:
有一个学生叫小昭,男,97年,土木工程专业,北京人;有一个学生叫小李,98年出生,女,外语专业,江苏苏州人;这样的文本信息有上万行,我们存储在word中,或者纸质版的文档被我们扫描成图片格式,可以称为非结构化数据。假设需要按照性别、籍贯、专业等来统计这些文字信息。在第一篇文章中,我们提到了关系数据库,用相关的技术和工具对这些书面信息进行处理,处理后的数据就是结构化数据。
所以结构化数据的定义:以二维表结构逻辑表达和实现,严格遵循数据格式和长度规范,主要通过关系数据库存储和管理的数据。
非结构化数据:不适合用一个数据库的二维表格来表示的非结构化数据,包括所有格式的office文档、XML、HTML、各种报表、图片、音视频信息等。
3.让我们回到正题。企业为什么要建数据湖?首先,数据湖有一个重要部分,ODS(OperatingDataStore)。还记得上一篇文章讲的OLTP(联机事务处理)吗,重点是基础和日常事务处理,我们现在讲的ODS就是OLTP数据的快照和历史。
当我们在上面描述数据库部分时,我们提到了业务数据库的结构不同于数据仓库的结构。业务数据库是为OLTP设计的,OLTP是系统的实时数据,而数据仓库的数据是为OLAP的需求和深入的多维分析而构建的。因此,这将导致基于数据仓库的数据分析存在以下局限性:
由于数据仓库的架构设计是预定义的,很难做到全面覆盖,所以基于数据仓库的分析受到预定义的分析目标和数据库框架的限制。从OLTP的实时状态转换到OLAP的分析数据会有大量的信息丢失。比如某个应用程序中用户钱包的余额,在OLTP系统中只会根据业务情况实时更新,而在OLAP系统中只会记录钱包操作的交易,所以查询分析用户的历史余额会比较麻烦。从根本上说,数据湖最重要的作用是尽可能保持业务数据的可约性。数据湖的定位类似于搜索引擎的定位。我们可以像在搜索引擎中搜索数据一样按需搜索,即取即用。它访问原始未更改的总数据,并可以访问、处理和分析它。
4.数据湖的发展数据湖的概念最早是由Pentaho的首席技术官JamesDixon在2011年提出的。他认为数据仓库,如数据集市,由于其有序的特性,必然会带来数据孤岛效应,而数据湖由于其开放的特性,可以解决数据孤岛问题。
但是随着数据湖在各个企业的应用,大家都觉得:嗯,这个数据有用,我想放进去;那个数据也有用,我也想放进去;于是我们不假思索地把所有的数据都扔进了基于数据湖的相关技术或工具中。没有规则,就没有方圆。当我们认为所有的数据都是有用的,那么所有的数据都是垃圾,数据湖就成了给企业造成高成本的数据沼泽。
这就是为什么& quot数据湖& quot叫做& quot莱克& quot,不叫数据河,数据池,数据海。
首先,数据应该& quot已保存& quot,数据应该是& quot已保存& quot够了,数据应该是& quot已保存& quot有界限的。企业级数据需要长期积累,所以是一个& quot数据湖& quot。
同时,湖泊也会自然分层,以满足不同生态系统的要求,这关系到企业存储管理数据的统一数据中心的建设。
的需求是一致的。热数据在上层方便流通应用,温数据、冷数据位于数据中心的不同存储介质之中,达到数据存储容量与成本的平衡。我们终于迎来了最近几年很火的数据中台。网上有很多文章关于数据中台的介绍,什么Hive、Spark、Hadoop、Kalfa等等很多技术名词,听上去非常的高大上而且云里雾里的,会使初涉产品的我们望而却步。
所以接下来我们从何为中台、何为数据中台、数据中台可以做什么三个方面来讲讲数据中台。
首先抛开数据,中台这一概念这两年在国内大火。说起来源,网上文章都会提到这种组织是2015年马云参观Supercell的游戏公司借鉴过来的,并且后来“阿里巴巴”CEO逍遥子提出的组建的“大中台,小前台”的组织和业务体制。那么我们能用一个比较浅显的例子来理解“中台”一词么?
当然可以,有一家连锁且超级便宜的意大利西餐连锁店“萨莉亚”,相信大部分同学都光顾过,9元的意面,24的披萨,上菜速度超快,虽然比不上传统西餐,但相比于这个价位,属实很良心了,而且目前萨莉亚在中国已经开设了将近400家(截止2019年)分店。
那么萨莉亚保持价格低廉同时上菜效率高效的原因是什么?答案很简单,就是中央厨房进行粗加工,然后门店的厨师仅需要简单地烹饪即可端上餐桌。相比于传统餐厅采购(买菜)→配菜→做菜的环节,既减少门店厨师的数量,降低人工成本的同时又加快上菜速度。
回到我们研发流程来看,采购(买菜)→配菜环节就是我们研发的后台,他们帮助我们解决“有什么”;而配菜→做菜环节就是我们的业务前台团队,他们要做的就是根据客户的“口味”来“做什么”。
而配菜,蔬菜整理这个环节,也就是萨莉亚的“中央厨房”就相当于我们的中台,仅仅需要门店的需求,中央厨房就可以快速提供对应的材料,提高业务开发效率,减少重复开发成本。
介绍完了“中台”这一概念,数据中台相信大家也能举一反三。没错,对于采购来的“菜”就相当于数据,做出来的“菜”就相当于业务部门所以需要的数据应用。
那么配菜环节就相当于IT部门的各种数据算法,每道菜单独配菜效率慢且冗余度较高,于是“中央厨房”就对数据算法进行规范化,系统化。针对于业务部门所需要的各道菜提供粗加工的半成品,这就是“数据产品”。
这种“中央厨房”配菜的过程就相当于我们所说的“数据中台”。那么是不是每个企业都必须搭建数据中台么?数据中台在业务上能解决什么问题呢?
所有企业是否都需要搭建数据中台?首先我们知道企业引进一项技术或产品,不在于是否“时髦”,不在于是否“高科技”,而在于是否适合该公司目前的发展,是否能提高公司的利润,降低公司的成本。
首先数据中台的作用通过对中台及数据中台的描述,总结以下2点:
提供数据产品及数据服务,包括但不限于决策支持类工具(例如业务报表、大屏数据可视化展示);数据分析类(BI商业智能、机器学习模型、数据挖掘);数据检索(日志分析)等;提升企业各部门的数据连通性,避免数据孤岛的产生。根据以上提到数据中台的两个优势,针对一个企业是否搭建数据中台,亦或是说一个企业在一开始从零到一就要构建数据中台?笔者在此有几点自己的总结:
首先针对于不同的行业,尽管传统企业数字化改革正在路上且已经有很多行业已经改革成功,但是针对于大部分传统企业,别说数据中台,公司连数据仓库的时代都没有到来,“罗马不是一天建成的”抛去建设数据中台的财力,时间成本高昂不提,就是对于传统企业的业务流转模式,企业员工接受程度来说都是一条难以逾越的鸿沟,数据中台不可操之过急。
对于一些处于数据仓库时代的传统企业或互联网企业,由于各个部门不停无限地进行满足其业务支撑点取数要求、业务统计、看数需求,就可以尝试转型数据中台。
对初创企业,业务线单一且业务模式还经常不断变化,不断试错时,没有能力去进行数据中台的搭建,换言之就是“先活下去最重要”。
本篇文章分两部分介绍了数据库、数据仓库、数据湖、数据中台的区别与联系。
关于数据有人说数据是新的石油资源,国家也将数据作为一种新型生产要素,与传统生产要素并列。
笔者曾经在泛互联网以及传统企业的业务部门都工作一段时间,由于各类原因,相比于泛互联网行业的数据化相比,传统企业的数据化之路并不一帆风顺。2020年8月,国务院国资委引发《关于加快推进国有企业数字化转型工作的通知》表现出各国有企业未来数字化转型将成为必然,如何协助传统企业进行数字化转型,利用数据驱动传统行业迸发新的活力对于数据产品经理,尤其是对ToB的数据产品经理将会是挑战与机遇。
笔者会继续努力与大家分享交流其他数据产品相关的文章与内容。
本文由@快乐的给予原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Pexels,基于CC0协议