BigData

BigData

Data Lake VS Data Warehouse

이번 포스팅은 Data Lake와 Warehouse의 차이점을 알아보고자 합니다. 1. Data Lake와 Data Warehouse의 정의 그러기에 앞서 일단 Data Lake와 Data Warehouse의 정의를 먼저 알아볼 필요가 있습니다. Data Lake란? 데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다. 데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있습니다. 대용량 데이터는 저장되기 전에 구조화되지 않기 때문에 숙련된 데이터 과학자 또는 end-to-end self-service BI 도구 를 사용하면 데이터 웨어하우스 에서보다 훨씬 빠르게 광범위한 ..

BigData

[Apache Spark] 아파치 스파크의 메모리 관리에 대해서

Spark를 사용하다보면 메모리 관련해서 문제가 발생되는 경우가 많습니다. 최근 연구하는데 있어서 Apach Spark의 Structured Streaming(https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html)을 사용할 일이 있어서 사용하는데 메모리 관련해서 문제가 자주 발생되어 이와 관련된 공부한 내용을 적습니다. 본격적인 스파크의 메모리 관리를 알아보기 위해서는 Spark가 왜 메모리 관리 관련해서 알아야되는지 알아야합니다. 왜 스파크의 메모리 관리에 대해서 알아야 하는가? 🤯 스파크는 Task가 수행하는데 있어서 모든 계산이 메모리 내에서 발생하는 메모리 내 처리 엔진입니다 (정확히는 In-Memory t..

BigData

아파치 스파크(Apache Spark)의 기능 둘러보기

스파크의 라이브러리는 그래프 분석, 머신러닝 그리고 스트리밍 등 다양한 작업을 지원하며, 컴퓨팅 및 스토리지 시스템과의 통합을 돕는 역할을 합니다. 이번 포스팅을 통해 아직 다루지 않은 API와 주요 라이브러리 그리고 스파크가 제공하는 다양한 기능을 소개합니다. 1. 운영용 애플리케이션 실행하기 spark-submit 명령을 사용해 대화형 셸에서 개발한 프로그램을 운영용 애플리케이션으로 쉽게 전환할 수 있습니다. Spark-submit 명령은 애플리케이션 코드를 클러스터에 전송해 실행시키는 역할을 합니다. 클러스터에 제출된 애플리케이션은 작업이 종료되거나 에러가 발생할 때까지 실행됩니다. 스파크 애플리케이션은 Standlone, Mesos, YARN 클러스터 매니저를 이용해 실행합니다. Spark-sub..

BigData

아파치 스파크(Apache Spark)의 기본 배경지식

이번에는 아파치 스파크의 DataFrame, SQL을 사용해 클러스터, 스파크 애플리케이션 그리고 구조적 API를 살펴봅시다. 스파크의 기본 아키텍처 보통 컴퓨터로는 대규모 정보를 연산할 만한 자원이나 성능을 가지지 못합니다. 연산을 할 수 있다고 해도 완료하는 데 너무 많은 시간이 걸릴 수 있습니다. 컴퓨터 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있게 만듭니다. 하지만 컴퓨터 클러스터를 구성하는 것만으로는 부족하며 클러스터에서 작업을 조율할 수 있는 프레임워크가 필요합니다. 스파크가 바로 그런 역할을 하는 프레임워크입니다. 스파크는 클러스터의 데이터 처리 작업을 관리하고 조율합니다. 스파크가 연산에 사용할 클러스터는 스파크 Standalone 클러스터 매니저, 하둡 YARN,..

busybeans
'BigData' 카테고리의 글 목록 (3 Page)