Spark

BigData

[Apache Spark] 스파크(spark)의 운영과정에서 만난 disk 오류에 대하여

1. 들어가며 Apache Spark를 활용해 여러 애플리케이션을 만들어보는 경험을 하고 있는 현재, 여러 오류를 마주하고 해결하는 과정의 연속이라 기록용도로 작성해보고자 합니다. 이번 포스팅에서는 Apache Spark를 활용하는 데 있어서 발생될 수 있는 오류 중 disk 가 가득 찬 경우입니다. 2. 원인 분석 우선 일단 Apache Spark의 Strucutred streaming을 활용할 때 누적되어 저장되게 되는 데이터를 알아봅시다. 2-1. logs file 문제? 첫 번째로, spark의 logs 파일입니다. Spark는 자체 로깅을 위한 표준 라이브러리로 log4 j 사용합니다. Spark 내부에서 발생하는 모든 일은 셸 콘솔과 구성된 기본 저장소에 기록됩니다. Spark는 또한 앱 작성..

BigData

[Apache Spark] 스파크의 셔플(Shuffle)에 대하여

1. Spark에서 Shuffle에 대해서 Apache Spark에서 셔플 작업은 일반적으로 데이터 그룹화 또는 집계와 같은 후속 처리 단계를 준비하기 위해 클러스터의 노드 전체에 데이터를 재분배하는 데 사용됩니다. 여기에는 데이터를 더 작은 청크로 분할하고, 네트워크 전체에서 데이터를 섞은 다음, 데이터를 새로운 청크 집합으로 다시 분할하는 작업이 포함됩니다. 셔플 작업은 Spark에서 가장 비용이 많이 드는 작업 중 하나이며 성능에 상당한 영향을 미칠 수 있습니다. Apache Spark에는 두 가지 주요 유형의 셔플이 있습니다: Map-side 셔플: 이것은 네트워크를 통해 데이터를 전송하기 전에 단일 노드 내에서 데이터를 셔플 하는 것을 포함합니다. 이는 특히 데이터가 이미 분할되어 있거나 데이터..

BigData

[Apache Spark] 스파크의 클러스터 관리에 대하여

1. Intorduction 클러스터 관리자의 목적은 논리적 코드를 실제 실행할 수 있도록 물리적 자원을 할당하는 것이다. 물리적 자원 할당에는 다양한 방식이 있지만, 클러스터 관리자는 단일 머신상에서의 운영 시스템을 일반화한 것이며, 단일 머신상의 문제와 동일한 수많은 문제를 해결해야 한다. 운영 시스템의 핵삼 개념을 이해한다면 클러스터 관리자 툴의 필요에 흥미를 느끼게 될 것이다. 왜냐하면, 결국 동일한 개념이 분산 생태계에서 다양한 방식으로 구현된 것 이기 때문이다. 단일 머신에서 운영 시스템(OS)의 역할은 해당 머신의 물리적 하드웨어와 이 하드웨어상에서 실행되는 소프트웨어 사이의 인터페이스라고 정의할 수 있다. 이 인터페이스는 의사 소통을 위한 언어의 정의, 태스크와 프로세스들의 스케줄링, 이들..

Cloud Computing

[AWS / Apache Spark] Amazon EMR의 기능을 알아보자 [1]

Amazon EMR 기능 살펴보기 1. 사용 편의성 Amazon EMR을 사용하면 빅 데이터 환경 및 애플리케이션을 간단하게 구축하고 운영할 수 있습니다. 관련 EMR 기능을 통해 클러스터 및 협업 개발을 위한 EMR Studio를 쉽게 프로비저닝하고 관리형으로 확장하고 재구성할 수 있습니다. 몇 분 내에 클러스터 프로비저닝: 몇 분 내에 EMR 클러스터를 시작할 수 있습니다. 인프라 프로비저닝, 클러스터 설정, 구성 또는 튜닝에 대해 걱정할 필요가 없습니다. EMR은 이러한 작업을 처리하여 팀이 차별화된 빅 데이터 애플리케이션 개발에 집중할 수 있도록 합니다. 비즈니스 요구 사항을 충족하도록 리소스의 규모를 쉽게 조정: EMR 관리형 스케일링 정책 확장 및 축소를 쉽게 설정하고 EMR 클러스터를 통해 ..

busybeans
'Spark' 태그의 글 목록