BigData

BigData

아파치 스파크(Apache Spark)란

아파치 스파크는 통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합입니다. 스파크는 가장 활발하게 개발되고 있는 병렬 처리 오픈소스 엔진이며 빅데이터에 관심 있는 여러 개발자와 데이터 사이언티스트에게 표준 도구가 되어가고 있습니다. 스파크는 널리 쓰이는 파이썬, 자바, 스칼라, R를 지원하며 SQL뿐만 아니라 스트리밍, 머신러닝에 이르기까지 넓은 범위의 라이브러리를 제공합니다. 스파크는 단일 노트북 환경부터 수천 대의 서버로 구성된 클러스터까지 다양한 환경에서 실행할 수 있습니다. 이런 특성을 활용해 빅데이터 처리를 쉽게 시작할 수 있고 엄청난 규모의 클러스터로 확장해나갈 수 있습니다. 1. 아파치 스파크의 핵심요소 1.1 통합 스파크는 빅데이터 애플리케이션 개발에 필요한 통..

BigData

아파치 카프카(Apache Kafka)의 성능 최적화 (Latency 편) [3]

시작하며... 🚀 이번에는 4개의 성능 목표 중 첫 번째로 Latency에 대해서 어떤 파라미터를 튜닝하는지 알아보겠습니다. 프로듀서와 컨슈머의 option 중 어떤 option이 Throughput에 영향을 주는지 알아보며 어떻게 이 옵션의 파라미터가 영향을 주며, 어떻게 설정해야 하는지를 보도록 하겠습니다. Latency : 지연 시간으로 불리우며, 카프카가 얼마나 빠르게 하나의 메시지를 빠르게 전달하는지의 메트릭이다. 1. Broker를 통한 Latency 최적화 🚀🚀 Partition 개수 제한 Latency을 줄이기 위해서는 파티션의 개수를 줄이는 방법이 존재합니다. 파티션의 수가 많으면 많을수록 메시지의 Latency를 유발하게 되는데, 파티션에 복사를 위한 시간만큼 Latency가 발생되기 ..

BigData

아파치 카프카(Apache Kafka)의 성능 최적화 (Throughput 편) [2]

시작하며... 🚀 이번에는 4개의 성능 목표 중 첫 번째로 Throughput에 대해서 어떤 파라미터를 튜닝하는지 알아보겠습니다. 프로듀서와 컨슈머의 option 중 어떤 option이 Throughput에 영향을 주는지 알아보며 어떻게 이 옵션의 파라미터가 영향을 주며, 어떻게 설정해야 하는지를 보도록 하겠습니다. Throughput : 처리량으로 불리우며, 카프카가 얼마나 많은 데이터를 처리할 수 있는지에 대한 메트릭이다. 1. Producer를 통한 Throughput 최대화 🚀🚀 Partition Throughput를 최적화하는 방법은 Partition 수를 증가시키는 방법이 대표적입니다. Partition의 수를 증가시키면, 분산 효과를 가져오며 분산처리를 하면 할 수 록 더 많은 데이터를 처리..

BigData

아파치 카프카(Apache Kafka)의 성능 최적화 [1]

이번 포스팅은 아파치 카프카의 성능을 최적화할 수 있는 파라미터 tunning 방법을 알아봅시다. 시작하며... 🚀 4개의 성능 목표를 최적화하기 위해 변경해야 하는 Kafka 구성 매개변수가 있습니다. 사실 Kafka 디자인 자체는 사용자에게 구성 유연성을 제공하며 Kafka 배포가 서비스 목표에 최적화되어 있는지 확인하려면 일부 구성 매개변수의 설정을 조정하고 자체 환경에서 벤치마킹을 조사해야 합니다. 이상적으로는 프로덕션으로 이동하기 전에 또는 적어도 더 큰 클러스터 크기로 확장하기 전에 수행해야 합니다. 첫 번째 단계는 최적화할 성능 목표를 결정하는 것입니다. Throughput, Latency, Durability, Availability이라는 서로 절충점을 자주 포함하는 4가지 목표를 고려할 ..

busybeans
'BigData' 카테고리의 글 목록 (4 Page)