-
머신러닝 파이프라인AI/머신러닝 2025. 4. 2. 15:31728x90반응형
머신러닝 파이프 라인
파이프 라인이란?
한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조
- 머신러닝 기술을 활용함에 있어서 초기 기획부터 데이터 수집-가공, 분석과 사후관리까지 일련의 전체 과정을 말한다
- 문제 정의부터 데이터 수집, 전처리, 학습, 모델 배포, 모니터링까지 전 과정을 순착적으로 처리하도록 설계된 머신러닝 아키텍처 일련의 프로세스 이다.
- 파이프 라인은 새로운 데이터가 들어왔을 때, 이 데이터의 라벨을 예측하기까지 필요한 프로세스이기도 하다.
문제 정의 → 데이터 수집 → 데이터 분석 → 특성공학 → 데이터 분리 → 모델학습 → 모델평가 → 모델 배포 → 모니터링
1. 문제정의: 해결하고자 하는 문제를 명확하게 정의한다.
예시) "스팸메일 분류" 등, 구체적인 목표를 설정
문제 정의가 명확해야지, 이후 단계들이 올바른 방향으로 진행될 수 있다.
2. 데이터 수집:
문제 해결에 필요한 데이터를 다양한 방법(출처)으로 확보한다.
주의사항) 테스트 데이터 분리: 모델 성능을 객관적으로 평가하기 위해, 전체 데이터에서 테스트 데이터를 미리 분리하도록 한다.
테스트 데이터는 모델 학습에 사용되지 않으며 [모델 학습에 사용하게 될 경우, 해당 모델이 과적합(overfitting) 상태에 빠지게 되어, 학습데이터에 대한 성능은 높지만, 새로운 데이터에 대한 성능은 떨어지는 현상이 나타날수 있으므로] 최종 모델 평가 단계에서만 사용된다.
양질의 데이터는 모델 개발의 필수요건이다.
3. 데이터 분석
학습 데이터를 탐색하고 이해하여 데이터의 특징, 패턴, 문제점을 파악한다.
결측치, 이상치, 중복데이터 등 데이터 품질 문제를 발견하고 해결 방안을 모색한다.
데이터 분석은 모델링 전략 수립에 필수적이다.
4. 특성공학
모델이 학습하기에 적합한 데이터로 가공하기 위해서 데이터 분석 결과를 바탕으로 모델 성능 향상을 위해 새로운 변수를 생성하거나, 기존 변수를 변환하고, 불필요한 변수 제거, 차원 축소등 을 하여, 모델의 복잡도를 줄인다.
모델성능에 가장 큰 영향을 미치는 중요한 단계이다.
5. 학습된 모델을 평가하고, 개선하기 위해 데이터를 학습 데이터(모델의 학습을 위해 사용되는 데이터), 검증 데이터(학습과정에서 모델의 성능을 확인 하는데 사용되는 데이터), 테스트 데이터(모델의 예측성능을 평가하는 데이터)로 분리한다.
모델의 과적합을 방지하고 일반화 성능을 높인다.
6. 모델 학습
학습 데이터를 사용하여 모델을 학습시킨다.
문제 해결에 적합한 모델을 구축하는 단계이다.
7. 모델 평가
테스트 데이터를 사용하여, 최종 모델의 성능을 평가한다.
정확도, 정밀도 등 문제 유형에 따른 적절한 지표를 선택하여, 모델이 실제 운영 환경에서 얼마나 잘 작동할지 예측한다.
모델의 신뢰성을 향상시키고, 배포 여부를 결정하는 중요한 단계이다.
8. 모델 배포
학습된 모델을 실제 운영 환경에 적용함
API, 웹 서비스, 애플리케이션, 등 다양한 형태롤 배포할수 있다.
모델을 실제 사용자에게 제공하고 가치를 창출한다.
9. 모니터링
배포된 모델의 성능을 주시하면서, 필요에 따라 재학습하거나 모델을 개선한다.
예시) GPT는 꾸준히 업데이트를 하며, 재학습, 모델 개션, 추가 학습등을 사용하여 가치를 높히고 있다.
모델의 수명을 연장하고, 가치를 창출하는 단계이다.
728x90반응형