전체 글(4)
-
spark.executor.memory 이란?
spark.executor.memory는 Apache Spark의 설정 옵션 중 하나로, Spark 애플리케이션의 각 executor 프로세스에 할당되는 메모리를 설정하는 데 사용됩니다. Executor는 Spark 애플리케이션에서 병렬 처리를 수행하는 컴포넌트이며, 데이터와 작업 처리를 담당합니다. spark.executor.memory를 사용하여 적절한 메모리 할당량을 설정하면 Spark 애플리케이션의 성능과 안정성이 향상될 수 있습니다. 설정값이 너무 작으면 실행 중인 작업이 충분한 메모리를 갖지 못해 성능이 저하되거나, executor가 종료되는 등의 문제가 발생할 수 있습니다. 반면, 설정값이 너무 크면 전체 클러스터의 메모리 사용량이 높아져 다른 애플리케이션에 영향을 줄 수 있습니다. spar..
2023.03.28 -
RDD(Resilient Distributed Datasets) 란?
Apache Spark는 빅 데이터 처리에 일반적으로 사용되는 오픈 소스 분산 컴퓨팅 시스템입니다. Spark의 주요 기능 중 하나는 데이터를 RDD(Resilient Distributed Datasets)라는 더 작은 조각으로 분해하여 분산 방식으로 데이터를 처리하는 기능입니다. RDD는 Spark의 기본 데이터 추상화이며 대량의 데이터를 처리하고 시스템 클러스터 전체에서 병렬 처리를 가능하게 하도록 설계되었습니다. 주요 기능, 이점 및 사용 사례를 포함하여 RDD에 대해 자세히 살펴보겠습니다. RDD란? 병렬 처리할 수 있는 안정적인 분산 데이터셋으로, Hadoop Distributed File System (HDFS), Amazon S3 등의 데이터 소스에서 생성할 수 있습니다. RDD는 immut..
2023.02.24 -
Can't assign requested address: Service 'sparkDriver' failed after 16 retries (on a random free port) 에러 발생시
hostname 확인 $ hostname vi로 /etc/hosts 수정 sudo vi /etc/hosts # 127.0.0.1 localhost 127.0.0.1 hostname 출력결과 다른 방법 spark/bin 디렉토리에 있는 load-spark-env.sh 파일에 export SPARK_LOCAL_IP="127.0.0.1" 추가
2021.12.19 -
Kafka 핵심 가이드 정리 - Chapter 1 카프카 훑어보기
메시지 발행과 구독하기 아파치 카프카(Apache Kafka)에 대해 알아보기 전 메시지 발행/구독(publish/subscribe)의 개념을 먼저 알아야 한다. 메시지 발행/구독 시스템에서는 메시지를(데이터) 발행자(전송자)가 직접 구독자(수신자)에게 보내지 않고 발행자가 메시지를 발행/구독 시스템에 전송하면 구독자가 메시지를 구독할 수 있게 해 준다.이때 발행된 메시지를 저장하고 중계하는 역할을 브로커(borker)가 수행한다. 초기의 발행/구독 시스템 대부분의 발행/구독 시스템은 메시지 큐나 프로세스 간 통신 채널을 갖는 형태로 시작. 메트릭을 전송하는 애플리케이션 서비스( 프런트엔드서버)를 생성해야 하며, 대시보드 화면에 그 정보를 보여주는 애플리케이션 서비스(메트릭 UI)와 직접 연결하여 사용한..
2021.12.16