[TIL_2024.01.15] 빅데이터 처리 시스템, Hadoop Spark (1) : 빅데이터 처리와 Spark 소개

Shuffling: Mapper의 출력을 Reducer로 보내주는 프로세스로, 전송되는 데이터의 크기가 크면 네트웍 병목을 초래하고 시간이 오래 걸린다.
Sorting: 모든 Mapper의 출력을 Reducer가 받으면 이를 키별로 소팅한다.
Data Skew: 각 태스크가 처리하는 데이터 크기에 존재하는 불균형 &gt;&gt; 병렬 처리의 큰 의미가 없고, 가장 느린 태스크가 전체 처리 속도를 결정하게 됨

2024. 2. 15. 00:13· Data Engineering/grepp 데브코스 : TIL

[TIL_2024.01.17] 빅데이터 처리 시스템, Hadoop Spark (3) : Spark 프로그래밍 - SQL (1)	2024.02.15
[TIL_2024.01.16] 빅데이터 처리 시스템, Hadoop Spark (2) : Spark 프로그래밍 - DataFrame (0)	2024.02.15
[TIL_2024.01.05] dot & 데이터 카탈로그 (1)	2024.01.05
[TIL_2024.01.04] Airflow 운영과 대안 & dbt (1)	2024.01.05
[TIL_2024.01.03] Airflow 고급기능 (3) : 기타 기능 - Dag Dependencies, Task Grouping, Dynamic Dags (0)	2024.01.03

✏️ 학습 내용