shuffle

[Apache Spark] 스파크의 셔플(Shuffle)에 대하여

2023.02.22

1. Spark에서 Shuffle에 대해서 Apache Spark에서 셔플 작업은 일반적으로 데이터 그룹화 또는 집계와 같은 후속 처리 단계를 준비하기 위해 클러스터의 노드 전체에 데이터를 재분배하는 데 사용됩니다. 여기에는 데이터를 더 작은 청크로 분할하고, 네트워크 전체에서 데이터를 섞은 다음, 데이터를 새로운 청크 집합으로 다시 분할하는 작업이 포함됩니다. 셔플 작업은 Spark에서 가장 비용이 많이 드는 작업 중 하나이며 성능에 상당한 영향을 미칠 수 있습니다. Apache Spark에는 두 가지 주요 유형의 셔플이 있습니다: Map-side 셔플: 이것은 네트워크를 통해 데이터를 전송하기 전에 단일 노드 내에서 데이터를 셔플 하는 것을 포함합니다. 이는 특히 데이터가 이미 분할되어 있거나 데이터..

[Apache Spark] 스파크의 셔플(Shuffle)에 대하여

티스토리툴바