13주차 수요일, 63일차 Today I Learned 빅데이터 처리 시스템, Hadoop Spark (3) : Spark 프로그래밍 - SQL ✏️ 학습 내용 1. Spark SQL 구조화된 데이터를 다루는 한 SQL은 데이터 규모와 상관없이 쓰인다. 모든 대용량 데이터 웨어하우스는 SQL 기반이며, Spark도 예외는 아니다. Spark SQL이란 구조화된 데이터 처리를 위한 Spark 모듈로, 데이터 프레임 작업을 SQL로 처리 가능하다. 데이터프레임에 테이블 이름 지정 후 SQL 함수를 사용 가능하고, HQL (Hive Query Language)과 호환 제공되어 Hive 테이블들을 읽고 쓸 수 있다. SQL로 가능한 작업이라면 DataFrame을 사용할 이유는 없다 (동시에 사용할 수 있음). ..
전체 글
개발 및 데이터 공부, 회고 블로그 [이렇게 공부합니다] 모든 자기계발을 위한 공부와 회고들을 담았어요. 세상은 넓고, 공부할 것은 많다.13주차 화요일, 62일차 Today I Learned 빅데이터 처리 시스템, Hadoop Spark (2) : Spark 프로그래밍 - DataFrame ✏️ 학습 내용 1. Spark 데이터 처리 데이터 병렬처리가 가능하려면 데이터가 먼저 분산되어야 하는데, Spark에서는 이를 파티션 (Partition)이라고 부른다. 다음으로 나눠진 데이터를 각각 따로 동시에 처리하면 된다. 처리 데이터 나누기 파티션 (executor의 수 * executor당 CPU의 수가 적절한 파티션의 수가 됨) 병렬처리 데이터프레임은 작은 파티션들로 구성되어 있으며, 데이터프레임은 한 번 만들어지면 수정이 불가능하다. 입력 데이터프레임을 원하는 결과 도출까지 다른 데이터 프레임으로 계속 변환하는 방식으로 Spark 데이터..
13주차 월요일, 61일차 Today I Learned 빅데이터 처리 시스템, Hadoop Spark (1) : 빅데이터 처리와 Spark 소개 ✏️ 학습 내용 1. 빅데이터 정의, 처리 빅데이터 정의 : 서버 한 대로 처리할 수 없는 규모의 데이터 >> 다수의 서버로 처리하여 분산 처리 환경이 필요함 2014년 4월 아마존 클라우드 컨퍼런스에서 아마존의 데이터 사이언티스트인 존 라우저가 내린 정의로, 분산 환경이 필요하느냐에 포커스됨 만약 판다스로 처리해야할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가? (Pandas 대신 Spark 사용) 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 대표적인 기존 소프트웨어 오라클이나 MySQL과 같은 관계형 데이터베이스 (분산환경을 염두에 두지 ..
팀플03. End-to-end 데이터 파이프라인 구성하기 : TMDB 이용한 영화 흥행 및 트렌드 분석 프로젝트 기간 : 2024년 1월 8일 (월) ~ 1월 12일 (금) 총 5일 실제 작업 기간 : 2024년 1월 7일 (일) ~ 1월 12일 (금) (대략 20시간 정도 투자) 1. 프로젝트 소개 2. 프로젝트 진행 내용 3. 프로젝트 결과 4. 회고 프로젝트 소개 프로젝트 공지 본 프로젝트의 목표는 2차 프로젝트 때 개발한 결과물을 바탕으로, 완전한 데이터 파이프라인을 구축하여 데이터가 주기적으로(매일 혹은 매 시간) 되도록 변경하고 Airflow 상의 개발과 운영 경험 및 데이터 파이프라인에서 데이터 웨어하우스(Redshift) 사용 방법을 배우는 것이 목표입니다(필히 이전 결과물을 사용하지는 않..
보호되어 있는 글입니다.
보호되어 있는 글입니다.
보호되어 있는 글입니다.
보호되어 있는 글입니다.
보호되어 있는 글입니다.
보호되어 있는 글입니다.