简介

在数据驱动的时代,公司从多个数据源收集大量的数据。

这些数据有助于启迪商业决策和驱动创新。

然而,原始数据永远是混乱、非结构化的,在不同的系统中按照不同的格式存储。

数据管道自动化了收集、转换、投递数据的过程,让它能够可用和有价值。

阶段

Collect

Data stores

存储事务性数据的数据库:

Data Streams

实时捕获动态数据流,例如追踪用户的点击和搜索行为。

Ingest

数据加载进入数据管道环境。

根据数据的类型,它可以被直接加载入处理管道或者进入一个中间的事件队列。

从数据库获取的数据通常通过批处理器或者 Change Data Capture (CDC) 工具

Compute

批处理

批处理会按照指定的间隔定期处理大量的数据。

流处理

流处理会处理实时数据,也就是在数据到来时处理数据。

流处理直接对接数据源头,而不是对接数据湖:

ETL

Store

Data Lake

数据湖存储原始的,未处理过的数据。

Data Warehouse

结构化数据通常存储在 Data Warehouse (数据仓库) 中。