DE
[Data Engineering] 데이터 파이프라인(Data Pipeline) 개념 정리
데이터 파이프라인(Data Pipeline) 이란?데이터 파이프라인은 다양한 데이터 소스에서 수집된 원시 데이터가 분석을 위해 데이터 레이크 또는 데이터 웨어하우스와 같은 데이터 저장소로 이동하면서 여러 단계를 거쳐 처리되는 흐름을 말한다. 데이터 파이프라인의 목적은 데이터의 수집, 변환, 저장, 분석 및 시각화를 자동화하고 효율화하는 것이다. 이를 통해 데이터가 일관되게 처리되고, 유의미한 정보를 제공할 수 있게된다.데이터 파이프라인 주요 아키텍처데이터 수집 (Data Ingestion)데이터 파이프라인의 첫 단계로, 여러 출처(데이터베이스, API, 로그 파일, 센서 등)에서 데이터를 수집한다.데이터 수집 도구로는 Apache Kafka, Apache Flume, AWS Kinesis 등이 사용된다...
2024. 5. 21. 01:44