이번 포스팅은 Data Lake와 Warehouse의 차이점을 알아보고자 합니다. 1. Data Lake와 Data Warehouse의 정의 그러기에 앞서 일단 Data Lake와 Data Warehouse의 정의를 먼저 알아볼 필요가 있습니다. Data Lake란? 데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다. 데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있습니다. 대용량 데이터는 저장되기 전에 구조화되지 않기 때문에 숙련된 데이터 과학자 또는 end-to-end self-service BI 도구 를 사용하면 데이터 웨어하우스 에서보다 훨씬 빠르게 광범위한 ..
용어 정리 OSI 7 계층 네트워크 구성요소를 7 개의 계층으로 역할을 나눈 표준 모델 각 계층별 역할을 통해 통신 규격을 만족 하위 계층은 하드웨어, 상위 계층은 소프트웨어로 구현 TCP/IP OSI 7계층이 나오기 전 널리 사용되던 사실상 표준 역할 각 계층별 역할에 따라 역하리 나눠짐 IP 주소 통신 자료를 최종적으로 전달하기 위해 필요한 송/수신 위치정보 보통 IPv4의 주소 사용, IPv6가 개발됨 패킷 교환 (Packet Switching) 종단 간에 전송되는 데이터를 패킷이라는 단위로 전달 패킷은 네트워크를 통해 일정한 순서 없이 보내지며 어떤 경로를 통해 이동되는지는 네트워크 상황에 따라 다름 통신을 위한 기본 동작 요청 requests 인지 indicaite 응답 response 확인 c..
Amazon EMR 기능 살펴보기 1. 사용 편의성 Amazon EMR을 사용하면 빅 데이터 환경 및 애플리케이션을 간단하게 구축하고 운영할 수 있습니다. 관련 EMR 기능을 통해 클러스터 및 협업 개발을 위한 EMR Studio를 쉽게 프로비저닝하고 관리형으로 확장하고 재구성할 수 있습니다. 몇 분 내에 클러스터 프로비저닝: 몇 분 내에 EMR 클러스터를 시작할 수 있습니다. 인프라 프로비저닝, 클러스터 설정, 구성 또는 튜닝에 대해 걱정할 필요가 없습니다. EMR은 이러한 작업을 처리하여 팀이 차별화된 빅 데이터 애플리케이션 개발에 집중할 수 있도록 합니다. 비즈니스 요구 사항을 충족하도록 리소스의 규모를 쉽게 조정: EMR 관리형 스케일링 정책 확장 및 축소를 쉽게 설정하고 EMR 클러스터를 통해 ..
Spark를 사용하다보면 메모리 관련해서 문제가 발생되는 경우가 많습니다. 최근 연구하는데 있어서 Apach Spark의 Structured Streaming(https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html)을 사용할 일이 있어서 사용하는데 메모리 관련해서 문제가 자주 발생되어 이와 관련된 공부한 내용을 적습니다. 본격적인 스파크의 메모리 관리를 알아보기 위해서는 Spark가 왜 메모리 관리 관련해서 알아야되는지 알아야합니다. 왜 스파크의 메모리 관리에 대해서 알아야 하는가? 🤯 스파크는 Task가 수행하는데 있어서 모든 계산이 메모리 내에서 발생하는 메모리 내 처리 엔진입니다 (정확히는 In-Memory t..