[Apache Spark] RDD
RDD(Resilient Distributed Dataset) RDD는 주된 Apache Spark 프로그래밍 추상화의 구조이며, 여러 노드에 흩어져 있으면서 병렬처리 될 수 이는 아이템들의 모임 Apache Spark의 가장 기본적인 데이터 단위 Resilient :...
RDD(Resilient Distributed Dataset) RDD는 주된 Apache Spark 프로그래밍 추상화의 구조이며, 여러 노드에 흩어져 있으면서 병렬처리 될 수 이는 아이템들의 모임 Apache Spark의 가장 기본적인 데이터 단위 Resilient :...
Apache Spark Apache Spark는 오픈 소스 클러스터 컴퓨팅 프레임워크이며, 클러스터 환경에서 데이터 병렬처리를 지원합니다.
Apache Hadoop Apache Hadoop은 분산환경에서 빅데이터를 저장하고 처리할 수 있는 Java기반의 오픈소스 프레임워크입니다. Hadoop은 파일 시스템인 HDFS와 데이터를 처리하는 MapReduce 엔진을 합한 것을 말합니다.
구현 풀이를 떠올리는 것은 쉽지만 소스코드로 옮기기 어려운 문제 알고리즘은 간단한데 코드가 지나칠 만큼 길어지는 문제 실수 연산을 다루고, 특정 소수점 자리까지 출력해야 하는 문제 문자열을 특정한 기준에 따라서 끊어 처리해야 하는 문제 적절한 라이브러리를 찾아서...
정렬 정렬(Sorting)이란 특정한 기준에 따라 순서대로 나열하는 것을 말함 일반적으로 문제 상황에 따라서 적절한 정렬 알고리즘이 공식처럼 사용됨