BigData

BigData

[Apache Kafka] 내가 보기 위해 만든 Kafka 명령어 모음

1. 들어가며 카프카(Kafka)는 대규모 실시간 데이터 파이프라인 및 스트리밍 애플리케이션을 구축하는 데 사용되는 오픈 소스 분산 이벤트 스트리밍 플랫폼입니다. 카프카를 사용하기 위해서는 토픽, 파티션, 프로듀서, 컨슈머 등 시스템의 여러 구성 요소를 관리하기 위한 다양한 명령어를 사용해야 합니다. 이번 블로그 포스트에서는 카프카 클러스터에서 다양한 작업을 수행하기 위해 사용할 수 있는 카프카 명령어 모음을 제공하겠습니다. 2. 카프카 브로커(Broker) 명령어 카프카 브로커는 데이터의 저장 및 복제를 관리하는 카프카 클러스터의 핵심 구성 요소입니다. 다음 명령어를 사용하여 카프카 브로커를 관리할 수 있습니다. 2-1. 카프카 브로커 시작하기: 카프카 브로커를 시작하려면 다음 명령어를 사용합니다. b..

BigData

[Apache Spark] 스파크(spark)의 운영과정에서 만난 disk 오류에 대하여

1. 들어가며 Apache Spark를 활용해 여러 애플리케이션을 만들어보는 경험을 하고 있는 현재, 여러 오류를 마주하고 해결하는 과정의 연속이라 기록용도로 작성해보고자 합니다. 이번 포스팅에서는 Apache Spark를 활용하는 데 있어서 발생될 수 있는 오류 중 disk 가 가득 찬 경우입니다. 2. 원인 분석 우선 일단 Apache Spark의 Strucutred streaming을 활용할 때 누적되어 저장되게 되는 데이터를 알아봅시다. 2-1. logs file 문제? 첫 번째로, spark의 logs 파일입니다. Spark는 자체 로깅을 위한 표준 라이브러리로 log4 j 사용합니다. Spark 내부에서 발생하는 모든 일은 셸 콘솔과 구성된 기본 저장소에 기록됩니다. Spark는 또한 앱 작성..

BigData

[Apache Kafka] 주키퍼(zookeeper) 설치에 대하여

2023.04.04 - [BigData] - [Apache Kafka] 카프카(Kafka) 설치에 대하여 분산 애플리케이션을 사용하게 되면, 분산 애플리에이션 관리를 위한 안정적인 코디네이션 애플리케이션이 추가로 필요로 하게 됩니다. 주키퍼(zookeeper)는 본래 하둡의 서브 프로젝트 중 하나였습니다. 대용량 분산 처리 애플리케이션인 하둡은 중앙에서 분산 애플리케이션을 관리하는 코디네이션 애플리케이션이 필요했기에 서브 프로젝트로서 주키퍼 개발 작업을 진행했습니다. 카프카는 분산 애플리케이션의 한 종류로서 주키퍼를 코디네이션 로직으로 이용하고 있습니다. 주키퍼는 분산 애플리케이션을 위한 코디네이션 시스템입니다. 분산 애플리케이션이 안정적인 서비스를 할 수 있도록 분산되어 있는 각 애플리케이션의 정보를 ..

BigData

[Apache Kafka] 카프카(Kafka) 설치에 대하여

클러스터 구성을 할 수 있는 분산 애플리케이션의 한 종류인 카프카(Kafka)는 클러스터를 구성하는 서버 대수를 정해야 합니다. 주키퍼와 분산 애플리케이션 면에서는 동일하지만 클러스터가 운영되는 방식은 다릅니다. 과반 수 방식으로 운영되어 홀수로 서버를 구성해야 하는 주키퍼와 다르게, 카프카 클러스터는 홀수 운영 구성을 하지 않아도 됩니다. 본 포스트에서는 카프카 클러스터의 브로커 수를 3대로 구성하겠습니다. 간혹 카프카와 주키퍼를 동일한 서버에 같이 오려려서 운영하는 분들도 있는 소규모 환경이라면 괜찮을 수도 있겠지만 대규모로 카프카를 운영하는 환경에서는 좋은 방법이 아닙니다. 설치 환경 Ubuntu 18.04.5 LTS 카프카 다운로드 카프카 최신 버전 다운로드를 위해서 아파치 카프카 페이지로 이동 ..

busybeans
'BigData' 카테고리의 글 목록