목록DE (2)
Seung's Learning Record
목차 E, T, L 용어 정리ETL / ELT은 모두 다음 세 가지 단계를 포함한다.E/Extract(추출) : 원본 데이터베이스 또는 데이터 소스에서 데이터를 가져오는 것을 말한다. ETL을 사용하면 데이터가 임시 스테이징 영역으로 들어가고, ELT를 사용하면 즉시 데이터가 Lake 스토리지 시스템으로 이동한다.T/Transform(변환) : 추출된 데이터를 목적지 시스템의 요구에 맞게 변환하는 단계이다. 용도에 맞는 필터링, Resahping, 정재 등의 단계를 통해 필요한 형태로 변환한다.L/Load(적재) : 데이터를 목적지 스토리지에 저장하는 프로세스를 의미한다.데이터는 분석 가능한 데이터로 통합하기 전에 Raw 데이터를 정리하고, 많은 정보를 담을 수 있도록 변환해야 한다. 요구사항에 맞는 ..
목차 데이터 파이프라인(Data Pipeline) 이란?데이터 파이프라인은 다양한 데이터 소스에서 수집된 원시 데이터가 분석을 위해 데이터 레이크 또는 데이터 웨어하우스와 같은 데이터 저장소로 이동하면서 여러 단계를 거쳐 처리되는 흐름을 말한다. 데이터 파이프라인의 목적은 데이터의 수집, 변환, 저장, 분석 및 시각화를 자동화하고 효율화하는 것이다. 이를 통해 데이터가 일관되게 처리되고, 유의미한 정보를 제공할 수 있게된다.데이터 파이프라인 주요 아키텍처 데이터 수집 (Data Ingestion)데이터 파이프라인의 첫 단계로, 여러 출처(데이터베이스, API, 로그 파일, 센서 등)에서 데이터를 수집한다.데이터 수집 도구로는 Apache Kafka, Apache Flume, AWS Kinesis 등이 ..