针织布 数据的搬运工——数据集成

发布日期:2024-01-16 10:24    点击次数:150

针织布 数据的搬运工——数据集成

大数据平台并不坐褥数据,大多数原始数据其实齐着手于业务系统,是以,咱们需要作念好数据“搬运”动作。而这就牵涉到了“数据集成”这个主意。这篇著作里针织布,作家就谈了谈他的观点和感受,沿途来望望吧。

我不坐褥数据,我只是数据的搬运工。

在大数据平台中,是不坐褥数据的,或者说原始数据齐是着手于业务系统。是以,咱们需要作念的第一件事,等于将业务系统的数据搬运到数据平台。

改用那句耳闻目睹的话,我不坐褥数据,我只是数据的搬运工。这个数据的搬运工,等于数据平台的第一个模块——数据集成。

一、搬运工齐有哪些称呼

在进行居品运筹帷幄的经由中,关于归拢个居品,时常会遭遇多样各类的称号,这些称号好像不错指代归拢个居品,如果细究起来,好像也有些区别。

在数据集成居品运筹帷幄时,也会遭遇肖似的问题。这些交流的称号主如若数据集成、数据同步、数据网罗。偶而候也可能听到数据管说念、数据传输等等。

我通过大模子搜索了一下区别。

💡 数据集成:指的是将不同数据源、不同数据类型以及不同姿色的数据整合到沿途,酿成一个统一的数据视图或数据仓库,以便后续的分析和处理。数据集成凡俗触及到数据的抽取、调养、清洗和加载等多个步伐,同期也需要惩处数据姿色调养、数据质料问题以及数据安全性等问题。

数据同步:则是将数据从一个数据源复制或传输到另一个数据源,以保握两个数据源中的数据一致性。数据同步凡俗触及到及时或准及时的数据传输和复制,不错用于分散式系统中的数据复制、备份以及容灾等场景。

似乎,数据集成更提神数据的整合和数据处理,而数据同步更提神数据的传输和一致性。

💡 在大数据界限,数据网罗和数据集成是两个密切有关的主意,但它们在数据处理经由中饰演的脚色和主张有所不同。

数据网罗主如若通过器用或手艺,从系统外部获得数据并输入到系统里面的经由。它不错是手工的,也不错是自动化的。在这个经由中,获得的数据可能需要进行清洗、姿色调养等预处理,以便后续的数据集成和使用。

数据集成则是将不同着手、不同姿色、不同性质的数据在逻辑上或物理上有机地相聚起来,酿成一个全面、统一的数据视图或数据仓库的经由。数据集成凡俗触及到数据的抽取、调养、清洗和加载等多个步伐,它的主要主张是为企业提供全面的数据分享和数据分析才略。

因此,不错说数据网罗是数据集成的基础和前提,数据集成则是数据网罗的后续处理和效果。没稀有据网罗,数据集成就阑珊数据着手;没稀有据集成,则无法有用诳骗和管制大数据财富。

在这个界说里面数据网罗是数据集成之前的一个步伐。个东说念主嗅觉在及时界限是这么的,及时获得到数据的变更至极于数据的网罗。

以上齐是通过大谈话模子给出的论断。对这些称号有一个基本主意之后,聚首实践的公司习气、部门历史使用习气、以及落魄文语境来作念具体的区分。

个东说念主习气数据集成和数据同步这两个词大部分情况下会混用。如果要作念区分的话,当有向导式和拖拽式两种姿色的时候。拖拽式的不错称之为数据集成,因为拖拽式的重数据的调养和整合。向导式的不错称之为数据同步,因为向导式的重数据的传输和一致性。而数据网罗,个东说念主相对混用少些,个东说念主主要结伙为将数据库的变化网罗上来。

再次确认,有余是个东说念主角度的辞别。

二、搬运经由中的处理

在进行数据同步的经由中,从化市大棉类有限公司需不需要进行处理, 浑源县位加锁具有限公司天然数据同步时常和**ETL(索求(extract)、调养(transform)、加载(load))**放在沿途作念相比, 韶关市延业香精有限公司然而实践上是不是需要在同步经由中进行调养是不错进行询查的。

1. 一比一同步

同步数据的主张是保留业务的数据历史, 荔蒲县齐地麻类有限公司如果要保留历史那么乖张的历史亦然历史。是以这种同步等于有余和业务系统数据一比一的同步, 增城市市香精有限公司即使同步过来的数据是有畸形的或者说不圭臬的。唯有这么能力信得过真实乎的保留了业务的历史,当发生数据畸形进行数据追想的时候,能力够找到最原始的业务数据。

个东说念主觉得这个想法很好,简略有余的保留业务历史数据。然而有一个问题等于乖张的数据业务系统不错随时改的。然而在离线场景下的同步不会随时进行的。并且嗅觉这种太顶点,对东说念主员,表率条目齐相比高。

2. 在同步经由中进行调养清洗

第二种就显的条目莫得那么的严格,相对宽松些。不错在这个经由中进行行级别的增减、表率化。也不错进行字段的团聚、关联、调养等等操作。

其实对居品运筹帷幄来说,提拔了这种姿色,就提拔了一比一的同步。在同步经由中有这个调养、团聚的才略,不使用的话等于一比一同步了。这么说来一比一同步更多的似乎是一个表率、一个条目。

三、搬运的指标表类型

将业务数据搬运到数据平台的指标等于保留历史、作念到数据可追想。然而业务系统的数据是时常齐在变化的,那么若何保留变化的数据的历史等于一个指标表建表结构的问题。

这其实算是数据仓库建模界限的内容,为什么在这里说?先说一下指标表常见的几种姿色。全量表、切片表、拉链表。

1. 全量表

全量表和名字一样,等于数据全量同步到指标端。试用于同步码表等数据变动不大的表。

2. 切片表

切片表又分为增量切片,和全量切片。全量切片等于将每天的全量业务数据放在本日分区中。增量切片等于只是把本日的增量放在本日的分区中。

而为了能够放松身心,一些人就会选择去旅游。这样的话不仅可以去看看外面的世界,开拓自己的眼界,还能让自己的身心都得到很好地放松。而旅游除了解决交通问题以外,住宿问题也是必须要考虑的一个问题,所以就需要提前预定当地的酒店以免自己到了目的地却无法住宿。

3. 拉链表

拉链表式最复杂的。需要有一个惟一键,需要知说念业务数据是否变化,针织布变化之后,就在指标表中新增一条,记载变化数据的开动时候、截至时候,有的还会有版块、是否刻下景况等字段(拉链表也依赖于同步的时候粒度,细于时候粒度,可能会存在无法将数据同步到指标端情况)。

为什么要在这里说,因为数据集成居品需要在功能上提拔这些指标表的建表类型。全量表的全量同步。切片表的增量切片,需要简略过滤出来逐日的增量数据。拉链表的复杂逻辑,是否需要进行逻辑固化(我只在Powercenter中看到过拉链表的逻辑固化。我方也运筹帷幄过向导式的拉链表逻辑固化)。这些齐需要在数据同步经由中有计划到。不单是简略将数据搬运到指标端,并且还需要以一种合理的指标端表结构需要将数据搬运到指标端。

四、搬运的交互姿色

在搬运经由中,交互姿色一般有三种姿色,剧本式、拖拽式、向导式。

1. 剧本式

顾名想义,剧本式等于写一个剧蓝本进行数据同步。这种姿色更多的是偏手艺,在居品运筹帷幄中一般不会过多触及。

常见的剧本式同步:

陈腐的是Sqoop了,他已毕了结构化数据和Hadoop之间的批量数据移动,起初由Apache软件基金会开辟,然而在2016年,该名堂如故被远隔了。

在阿里云Dataworks中的数据集成DataX,也会有的剧本界面的数据同步。是因为有些非结构化的数据源,莫得表结构类型,在剧本界面中简略愈加纯真。

2. 拖拽式

拖拽类的数据集成类居品,等于在一个画布中拖拽各个算子,构成一个ETL的DAG图,从辛勤毕数据的同步。

常见的拖拽式的同步:

最闻明的算是Informatica Powercenter,这款居品在国际似乎知名度很高,终年在Genter象限的带领这位置。但在国内似乎唯有一些银行、等金融行业使用多些,在互联网公司更是近乎没什么声量。

IBM Datastage 一款和powercenter肖似的软件。

Kettle一款开源的免费的数据ETL器用。

如果有拖拽式的数据同步需求,这三个居品也时常会被拉在沿途作念相比。各有各的特色吧。

单独提一句,当使用拖拽式的数据集成时,其实些许有了一些数据开辟的性质。然而如果细辞别的话,和拖拽式的数据开辟照旧有些区别的。这个在《常见的数据开辟姿色》中的拖拽式数据开辟中说下区别。

3. 向导式

向导式的数据集成,主如若指通过输入框或者聘任设置框,就不错完成任务的创建。不需要写代码,也不需要拖拽算子,这种开辟姿色我界说为向导式。

大部分的云厂商的数据集成/数据同步类居品均是向导式的形状。这里就不外多说了。

五、时效性

个东说念主结伙数据集成只分为两大类,离线数据集成和及时的数据集成。至于全量同步、增量同步等等,只是这两种大姿色下的一种选项。而这两种姿色,又均不错使用剧本式、拖拽式或者向导式来已毕。姿色不蹙迫,本色是及时照旧离线才蹙迫,天然运筹帷幄页面的时候也会些许有些设置区别。

在失效性上,及时数据越来越受深爱,还有一些批流一体的主意,是以及时的数据集成需求也越来越多。

然而个东说念主不觉得离线的数据集成会被有余干掉。一方面——资本,彰确凿时的资本要比离线的资本要高。一方面——手艺,及时集成之后一系列的手艺和离线集成是有余不同的,现存的手艺架构不一定齐作念好了准备。

还有一方面等于历史习气,以上头先容为例,切片表、拉链表等等均是离线场景下的,在后续先容中会发现存大批的主意在离线场景下很顺畅,然而往往会自动的忽略及时场景。这可能亦然因为及时的历史相对较短。在其他主意出现的时候,并莫得有计划及时的场景。

六、提拔的数据源类型

数据集成提拔的数据源些许是一个平台才略的体现,提拔的越多,不错结伙为才略越强。不同数据源可能提拔及时的姿色、可能提拔离线姿色,也可能两种均提拔。数据源大类上也有不同的辞别:干系型数据库、大数据存储、音书部队、文本文献等等。

这是从类型上辞别,如果从接入数据源之后的操作上来分,就两类:有表结构的和莫得表结构的。

1. 有表结构

有表结构的不错是干系型数据库、HIVE、Doris等等这类自身有表结构的。也不错是固定姿色的文本、JSON这类不错赋予一个固定scheam的,这类需要进行数据平台有元数据管制才略,在《当咱们谈元数据的时候,咱们在谈什么》中会先容这一部分。这类有表结构的在交互时,以二维表格的姿色在向导、或者拖拽中进行交互了。

2. 莫得表结构

莫得表结构的相对会复杂些,偶而候不错强制给这种莫得表结构的授予一个表结构。有的时候也只可调养成剧本的姿色来已毕映射。这个具体数据源具体分析了。

数据源提拔些许体现才略强弱。雷同,看成居品每种数据源可能齐有其自身的性格,也需要进行个性化的运筹帷幄,而居品司理又会将多样类型的数据源齐熟练到,个东说念主嗅觉亦然数据集成类居品运筹帷幄的一个弯曲的点。

至于多样非结构化的文档、图片、音视频等等。齐不在大数据平台这个限制内。之前也会提非结构化的大数据平台,非结构化的大数据治理。然而当今个东说念主莫得战役到至极好的居品。

本文由 @数据公役 原创发布于东说念主东说念主齐是居品司理,未经许可,谢却转载

题图来自 Unsplash针织布,基于 CC0 条约