ABOUT ME

리눅스, 네트워크 관련 질문 댓글로 남기시면 아는 한도 안에서 대답해드립니다.

Today
Yesterday
Total
  • AI 용어
    AI/용어 2025. 4. 2. 15:12
    728x90
    반응형

    결측치 (missing value)
    데이터 안에서 누락되어있는 것을 뜻한다.
    원인: 개인정보 보호, 실수, 오류, 미응답 등이있다.
    이를 해결하기 위해서는 결측치가 포함된, 행 전체를 삭제하거나, 평균, 중앙값, 최빈값 등으로 대체 하여, 데이터의 정확성을 높히도록 한다.

    이상치 (Outlier)
    데이터 안에서 다른 값들과 극단적으로 다른 값을 의미한다.
    예를 들면, 어떤 고객이 한달에 평균적으로 카드값을 200만원 결제한다고 했는데, 어느날 값자기 1억원 어치를 결제한다고 했을때 이다.

     

    원인: 실수, 오류, 실제 이상 현상


    보통 IQR의  Q1 - (IQR * 1.5) 혹은 Q3 + (IQR * 1.5) 데이터를 이상치로 잡는다.
    사분위수를 이용하여 데이터를 나열하고 이상치를 파악한다.
    예를 들면 [10, 12, 15, 18, 20, 22, 25, 28, 30, 35, 70] 라는 데이터가 있다고 가정한다면, 
    Q1 = 15
    Q2 (Median) = 22
    Q3 = 30
    IQR = Q3 - Q1 = 30 - 15 = 15
    이상치 경계값 계산 (1.5배):
    Lower = Q1 - (IQR * 1.5) = 15 - (15 * 1.5) = -7.5
    Upper = Q3 + (IQR * 1.5) = 30 + (15 * 1.5) = 52.5
    70은 Upper Bound(52.5)보다 크므로 이상치로 간주됨

    처리방법: 삭제, 대체(평균, 중앙값, 최반값, Winsorizing) 등이 있다.

    사분위수 (Quartile)
    사분위수는 데이터를 크기 순서대로 정렬했을 때, 데이터를 4등분하는 지점을 말한다.

    Q1 (1사분위수): 데이터의 하위 25%에 해당하는 값
     데이터의 25%는 Q1보다 작거나 같고, 75%는 Q1보다 크거나 같다.
    Q2 (2사분위수): 데이터의 중앙값
    데이터의 50%는 Q2보다 작거나 같고, 50%는 Q2보다 크거나 같다.
    Q3 (3사분위수): 데이터의 상위 25%에 해당하는 값
    데이터의 75%는 Q3보다 작거나 같고, 25%는 Q3보다 크거나 같다.

     

    중복 데이터(Duplicate Data)

    데이터 세트 안에서 동일한 내용의 행이 두번 이상 나타나는 경우를 의미함

     

    원인: 입력 오류, 통합오류, 시스템 오류

    문제점: 결과값이 왜곡될수 있음, 모델의 성능이 저하될수 있음, 저장공간이 낭비됨

     

    처리방법: 삭제, 병합

     

     

    차원 축소(Dimensionality Reduction)

    고차원 데이터에서 중요한 정보는 유지하면서, 데이터의 차원을 줄이는 과정

    이유: 모델의 계산비용 감소, 시간 감소, 모델 성능 향상

    불필요한 특징을 제거하여, 모델의 과적합을 방지하고 성능을 향상시킬 수 있다.

    예시: 고해상도 이미지의 크기를 줄여서, 학습에 필요한 시간의 낭비를 절약할수 있다.

    728x90
    반응형

    댓글

Designed by Tistory.