써주의 블로그

RDD #Spark(1)

RDD(Resilient Distributed Datasets) 란?
Apache Spark는 빅 데이터 처리에 일반적으로 사용되는 오픈 소스 분산 컴퓨팅 시스템입니다. Spark의 주요 기능 중 하나는 데이터를 RDD(Resilient Distributed Datasets)라는 더 작은 조각으로 분해하여 분산 방식으로 데이터를 처리하는 기능입니다. RDD는 Spark의 기본 데이터 추상화이며 대량의 데이터를 처리하고 시스템 클러스터 전체에서 병렬 처리를 가능하게 하도록 설계되었습니다. 주요 기능, 이점 및 사용 사례를 포함하여 RDD에 대해 자세히 살펴보겠습니다. RDD란? 병렬 처리할 수 있는 안정적인 분산 데이터셋으로, Hadoop Distributed File System (HDFS), Amazon S3 등의 데이터 소스에서 생성할 수 있습니다. RDD는 immut..
2023.02.24

1

티스토리툴바