728x90
반응형
SMALL
16주차 금요일, 70일차 Today I Learned
Spark ML (2)
: ML Pipeline과 Tuning
✏️ 학습 내용
1. Spark ML 모델 튜닝
ML Tuning 이란 최적의 하이퍼 파라미터를 선택하는 것으로, 최적의 모델 혹은 모델의 파라미터를 찾는 것이 아주 중요하다. 테스트 방법은 2가지가 있다.
- CrossValidator : 교차 검증 (K-Fold 테스트)
- TrainValidationSplit : 훈련/테스트셋 나누기 (홀드아웃 테스트)
모델 튜닝은 최종적으로 가장 결과가 좋은 모델을 리턴하게 된다. 머신러닝 모델 성능 측정은 Evaluator를 이용한다.
2. 범용 머신러닝 모델 파일포맷 PMML
다양한 머신러닝 개발 플랫폼들이 있고, 이런 환경에서 통용되는 머신러닝 파일포맷과 모듈이 있다. PMML과 MLeap이 대표적이다. 머신러닝 모델 서빙환경의 통일이 가능해질 수 있는데, 실상은 이러한 공통 파일포맷이 지원해주는 기능이 미약해서 복잡한 모델의 경우에는 지원 불가능하다.
PMML (Predictive Model Markup Language)란, ML 모델을 마크업 언어로 표현해주는 XML 언어이다. 간단한 입력 데이터 전처리와 후처리도 지원하지만 아직도 제약사항이 많이 있다.
- ML Pipeline을 PMML 파일로 저장
- PMML 파일을 기반으로 모델 예측 API로 론치
- 이 API로 예측 결과를 받는 클라이언트 코드 작성
반응형
💡 배운 점
- 머신러닝 모델 튜닝에 대해 배웠다.
- 만들어진 모델을 실제 환경에서 API로 론치하는 방법을 살펴보았다.
☁️ 소감
또다시 새로운 개념이 등장했다. 배울 것은 참 많다. 배우고, 그것을 나의 것으로 만들기 위해서는 몇 차례 반복적인 학습이 필요하다. 정규 수업은 여기서 끝이다. 앞으로 정말 데이터 엔지니어가 되고 싶다면 지금 배운 것들을 기본으로 더 많은 지식을 쌓아야 한다. 아직 길이 선명하게 보이지는 않지만 노력하다보면 보일 것이다. 좀 더 해보자!
728x90
반응형
LIST
'Data Engineering > grepp 데브코스 : TIL' 카테고리의 다른 글
[TIL_2024.02.08] Spark ML (1) : 소개 및 기능, 모델 빌딩, 피쳐 변환, 파이프라인 (0) | 2024.02.27 |
---|---|
[TIL_2024.02.07] Spark Partition (0) | 2024.02.27 |
[TIL_2024.02.06] Spark Shuffling 최적화 (1) | 2024.02.27 |
[TIL_2024.02.05] Spark 기타 기능, 메모리 관리 (1) | 2024.02.27 |
[TIL_2024.01.29-02.02] 머신러닝 : ML E2E, 기초개념, 기초선형대수, 확률기초/분포, 선형회귀/분포 (0) | 2024.02.26 |