AI
-
머신러닝 파이프라인AI/머신러닝 2025. 4. 2. 15:31
머신러닝 파이프 라인파이프 라인이란? 한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조머신러닝 기술을 활용함에 있어서 초기 기획부터 데이터 수집-가공, 분석과 사후관리까지 일련의 전체 과정을 말한다문제 정의부터 데이터 수집, 전처리, 학습, 모델 배포, 모니터링까지 전 과정을 순착적으로 처리하도록 설계된 머신러닝 아키텍처 일련의 프로세스 이다. 파이프 라인은 새로운 데이터가 들어왔을 때, 이 데이터의 라벨을 예측하기까지 필요한 프로세스이기도 하다. 문제 정의 → 데이터 수집 → 데이터 분석 → 특성공학 → 데이터 분리 → 모델학습 → 모델평가 → 모델 배포 → 모니터링 1. 문제정의: 해결하고자 하는 문제를 명확하게 정의한다.예시) "스팸메일 분류" 등, 구체적인 목표를 ..
-
AI 용어AI/용어 2025. 4. 2. 15:12
결측치 (missing value) 데이터 안에서 누락되어있는 것을 뜻한다. 원인: 개인정보 보호, 실수, 오류, 미응답 등이있다. 이를 해결하기 위해서는 결측치가 포함된, 행 전체를 삭제하거나, 평균, 중앙값, 최빈값 등으로 대체 하여, 데이터의 정확성을 높히도록 한다. 이상치 (Outlier) 데이터 안에서 다른 값들과 극단적으로 다른 값을 의미한다. 예를 들면, 어떤 고객이 한달에 평균적으로 카드값을 200만원 결제한다고 했는데, 어느날 값자기 1억원 어치를 결제한다고 했을때 이다. 원인: 실수, 오류, 실제 이상 현상보통 IQR의 Q1 - (IQR * 1.5) 혹은 Q3 + (IQR * 1.5) 데이터를 이상치로 잡는다. 사분위수를 이용하여 데이터를 나열하고 이상치를 파악한다. 예를 들면 [1..