mapreduce 3

[클라우드 컴퓨터링] MapReduce 데이터 흐름과 API

MapReduce 데이터 흐름단일 리듀스 태스크(Single Reduce Task)모든 맵(map) 태스크의 정렬된(sort) 출력은 복사(copy)되어 단일 병합(merge) 단계를 거침.이후 하나의 리듀스(reduce) 태스크에 의해 처리됨.최종 출력 파일은 하나(part 0)이며 HDFS에 복제되어 저장됨.다중 리듀스 태스크(Multiple Reduce Tasks)맵 태스크의 출력은 키(key)에 따라 파티셔닝되어 여러 리듀서로 분산됨.각 리듀스 태스크는 자신에게 할당된 파티션의 데이터를 개별적으로 병합(merge)하여 처리함.리듀서 개수만큼 출력 파일(part 0, part 1 등)이 생성되며, HDFS에 복제됨.리듀스 태스크 없음 (Map-Only Job)맵 태스크가 출력을 HDFS에 직접 씀...

CLAUD COMPUTERING 2025.10.21

[클라우드 컴퓨터링] MapReduce 데이터 관리

MapReduce 데이터 지역성 최적화 (Data Locality Optimization)개념: 대용량 데이터를 계산이 필요한 곳으로 옮기는 대신, 계산 프로그램(코드)을 데이터가 저장된 곳으로 보내 처리하는 방식.목표: 상대적으로 부족한 자원인 네트워크 대역폭 사용을 최소화.스케줄링 우선순위: Master는 데이터의 위치를 고려하여 Map Task를 스케줄링함.1순위 (Data-Local): 데이터 블록이 위치한 노드(Node)와 동일한 노드에서 Map Task를 실행.2순위 (Rack-Local): 1순위가 불가능할 경우, 데이터 블록과 동일한 랙(Rack)에 있는 다른 노드에서 Task를 실행.3순위 (Off-Rack): 1, 2순위가 모두 불가능하면, 데이터 블록과 다른 랙에 있는 노드에서 Tas..

CLAUD COMPUTERING 2025.10.16

[클라우드 컴퓨터링] Haddop의 데이터 처리를 위한 MapReduce

1. Hadoop의 개념과 구조Hadoop = 대규모 데이터를 저장(HDFS) + 처리(MapReduce) 하는 오픈소스 프레임워크HDFS(Hadoop Distributed File System): 데이터를 여러 컴퓨터에 분산 저장MapReduce: 분산된 데이터를 병렬로 계산·분석여러 대의 일반적인 하드웨어(commodity hardware) 를 묶어 거대한 데이터 처리 시스템처럼 동작“Store once, process anywhere” 개념 — 데이터를 여러 서버에 저장 후, 계산 작업을 데이터가 있는 곳으로 전송2. MapReduce의 등장 배경Google은 과거 수백 개의 맞춤형 분산 계산 프로그램을 사용예: 검색 인덱스 생성, 웹 그래프 구조 분석, 인기 쿼리 요약 등각 프로그램의 특징연산 자..

CLAUD COMPUTERING 2025.10.14