목록2024/05 (5)
Seung's Learning Record
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/eB2QPG/btsHvZylmte/kvDnChTpS3rBRCKSE9kqA1/img.webp)
목차 E, T, L 용어 정리ETL / ELT은 모두 다음 세 가지 단계를 포함한다.E/Extract(추출) : 원본 데이터베이스 또는 데이터 소스에서 데이터를 가져오는 것을 말한다. ETL을 사용하면 데이터가 임시 스테이징 영역으로 들어가고, ELT를 사용하면 즉시 데이터가 Lake 스토리지 시스템으로 이동한다.T/Transform(변환) : 추출된 데이터를 목적지 시스템의 요구에 맞게 변환하는 단계이다. 용도에 맞는 필터링, Resahping, 정재 등의 단계를 통해 필요한 형태로 변환한다.L/Load(적재) : 데이터를 목적지 스토리지에 저장하는 프로세스를 의미한다.데이터는 분석 가능한 데이터로 통합하기 전에 Raw 데이터를 정리하고, 많은 정보를 담을 수 있도록 변환해야 한다. 요구사항에 맞는 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ekOmp0/btsHu2vFt9O/eknxWWugikVoKx5Xv0OIq1/img.png)
목차 데이터 파이프라인(Data Pipeline) 이란?데이터 파이프라인은 다양한 데이터 소스에서 수집된 원시 데이터가 분석을 위해 데이터 레이크 또는 데이터 웨어하우스와 같은 데이터 저장소로 이동하면서 여러 단계를 거쳐 처리되는 흐름을 말한다. 데이터 파이프라인의 목적은 데이터의 수집, 변환, 저장, 분석 및 시각화를 자동화하고 효율화하는 것이다. 이를 통해 데이터가 일관되게 처리되고, 유의미한 정보를 제공할 수 있게된다.데이터 파이프라인 주요 아키텍처 데이터 수집 (Data Ingestion)데이터 파이프라인의 첫 단계로, 여러 출처(데이터베이스, API, 로그 파일, 센서 등)에서 데이터를 수집한다.데이터 수집 도구로는 Apache Kafka, Apache Flume, AWS Kinesis 등이 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/8FGIj/btsHgnFHucf/Y5fkeyVjRJAYDB5Kdhgpr1/img.png)
≣ 목차 VPC란? VPC(Virtual Private Cloud)란 AWS에서 논리적으로 생성하는 독립적인 네트워크이다. 사용자는 VPC 내에서 IP대역, 인터페이스, 서브넷, 라우팅 테이블, 인터넷 게이트웨이, 보안 그룹, ACL등을 생성하고 제어할 수 있다.서브넷(Subnet)이란? 서브넷은 VPC의 IP 주소를 나누어 리소스가 배치되는 물리적인 주소 범위를 뜻한다. VPC가 논리적인 범위를 의미한다면, 서브넷은 VPC안에서 실제로 리소스가 생성될 수 있는 네트워크 영역이라고 생각하면 된다.하나의 VPC에 N개의 서브넷을 가질 수 있으며 하나의 AZ에만 생성이 가능하다.아래 그림처럼, 여러 AZ에 걸쳐서 서브넷을 생성할 수 없다는 말이다. 즉, 서브넷은 하나의 가용영역(AZ) 안에 종속되어야 한..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cLhhiN/btsG5sot7wn/MzgCfSKwyNmVf9AfBXLqB1/img.png)
≣ 목차 EC2(Elastic Compute Cloud)란? Amazon Elastic Compute Cloud(EC2)는 아마존 웹 서비스의 하나로, 가상 서버를 제공하는 서비스이다. 이 서비스를 사용하면 웹 서버, 애플리케이션 서버, 데이터베이스 서버 등 다양한 용도로 가상 컴퓨팅 리소스를 빠르게 확보할 수 있다. 여기서 가상 서버를 "인스턴스"라고 하며, 이를 시작하거나 중지하고, 필요에 따라 스케일링하고, 네트워킹 및 보안 설정을 구성할 수 있다. 또한 필요에 따라 Auto Scaling과 같은 기능을 사용하여 트래픽이나 워크로드 변화에 따라 자동으로 인스턴스 수를 조정할 수 있다. 이러한 유연성과 확장성으로 EC2는 다양한 워크로드 및 애플리케이션을 호스팅하는 데 사용된다.AWS EC2 인스턴..
≣ 목차 클라우드 컴퓨팅 클라우드 컴퓨팅은 인터넷을 통해 컴퓨터 시스템의 자원을 제공하고 관리하는 컴퓨팅 서비스이다. 이는 사용자가 자신의 컴퓨터나 데이터 센터에 대한 직접적인 관리와 유지보수를 하지 않고도 서버, 스토리지, 데이터베이스, 네트워킹, 소프트웨어, 분석, 인공지능과 같은 컴퓨팅 자원을 활용할 수 있게끔 해준다. 클라우드 컴퓨팅은 다음과 같은 특징을 가진다.자원 공유: 클라우드 컴퓨팅은 여러 사용자가 하나의 물리적인 자원을 공유하는 것을 허용한다. 이로써 비용을 절감하고 자원의 효율성을 높일 수 있다.탄력성: 클라우드 컴퓨팅에서는 필요한 만큼의 자원을 필요한 때에 빠르게 확장하거나 축소할 수 있다. 이는 사용자가 트래픽이나 작업 부하에 따라 자원을 동적으로 조정하여 효율적으로 운영할 수 있..