Spark(3)
-
spark.executor.memory 이란?
spark.executor.memory는 Apache Spark의 설정 옵션 중 하나로, Spark 애플리케이션의 각 executor 프로세스에 할당되는 메모리를 설정하는 데 사용됩니다. Executor는 Spark 애플리케이션에서 병렬 처리를 수행하는 컴포넌트이며, 데이터와 작업 처리를 담당합니다. spark.executor.memory를 사용하여 적절한 메모리 할당량을 설정하면 Spark 애플리케이션의 성능과 안정성이 향상될 수 있습니다. 설정값이 너무 작으면 실행 중인 작업이 충분한 메모리를 갖지 못해 성능이 저하되거나, executor가 종료되는 등의 문제가 발생할 수 있습니다. 반면, 설정값이 너무 크면 전체 클러스터의 메모리 사용량이 높아져 다른 애플리케이션에 영향을 줄 수 있습니다. spar..
2023.03.28 -
RDD(Resilient Distributed Datasets) 란?
Apache Spark는 빅 데이터 처리에 일반적으로 사용되는 오픈 소스 분산 컴퓨팅 시스템입니다. Spark의 주요 기능 중 하나는 데이터를 RDD(Resilient Distributed Datasets)라는 더 작은 조각으로 분해하여 분산 방식으로 데이터를 처리하는 기능입니다. RDD는 Spark의 기본 데이터 추상화이며 대량의 데이터를 처리하고 시스템 클러스터 전체에서 병렬 처리를 가능하게 하도록 설계되었습니다. 주요 기능, 이점 및 사용 사례를 포함하여 RDD에 대해 자세히 살펴보겠습니다. RDD란? 병렬 처리할 수 있는 안정적인 분산 데이터셋으로, Hadoop Distributed File System (HDFS), Amazon S3 등의 데이터 소스에서 생성할 수 있습니다. RDD는 immut..
2023.02.24 -
Can't assign requested address: Service 'sparkDriver' failed after 16 retries (on a random free port) 에러 발생시
hostname 확인 $ hostname vi로 /etc/hosts 수정 sudo vi /etc/hosts # 127.0.0.1 localhost 127.0.0.1 hostname 출력결과 다른 방법 spark/bin 디렉토리에 있는 load-spark-env.sh 파일에 export SPARK_LOCAL_IP="127.0.0.1" 추가
2021.12.19