简介
在数据驱动的时代,公司从多个数据源收集大量的数据。
这些数据有助于启迪商业决策和驱动创新。
然而,原始数据永远是混乱、非结构化的,在不同的系统中按照不同的格式存储。
数据管道自动化了收集、转换、投递数据的过程,让它能够可用和有价值。
阶段
Collect
Data stores
存储事务性数据的数据库:
Data Streams
实时捕获动态数据流,例如追踪用户的点击和搜索行为。
Ingest
数据加载进入数据管道环境。
根据数据的类型,它可以被直接加载入处理管道或者进入一个中间的事件队列。
从数据库获取的数据通常通过批处理器或者 Change Data Capture (CDC) 工具
Compute
批处理
批处理会按照指定的间隔定期处理大量的数据。
流处理
流处理会处理实时数据,也就是在数据到来时处理数据。
流处理直接对接数据源头,而不是对接数据湖:
ETL
Store
Data Lake
数据湖存储原始的,未处理过的数据。
Data Warehouse
结构化数据通常存储在 Data Warehouse (数据仓库) 中。











