[통계] 표준화(Standard)와 정규화, 분산과 공분산

2022. 7. 29. 22:01·공부정리/통계
728x90
반응형

분산은 평균으로부터 얼마나 떨어져 있는 지를 표현한 것인데, 평균에서부터 떨어진 거리가 평균적으로 표현된 것입니다.
공분산이라는 것은 두 개의 데이터가 각각의 평균으로부터 얼마나 떨어져 있는가를 보는데 있어 두 변수가 얼마나 함께 변하는지를 확인한 것입니다.

 

데이터의 모든 특성의 범위를 같게 만들어주는 방법

교차검증을 위해 Train-Test로 분리하였을 경우 전체 데이터가 아닌 훈련 데이터에 대해서만 fit()을 적용해야한다.

 

1. StandardScaler

   - 평균 = 0 / 표준편차 = 1

   - 표준화 Standardization

 

스크래치 코드

def standardize(x):
    """Standardize the original data set."""
    return (x - x.mean(axis=0))/ x.std(axis=0)

사이킷런 프레임워크 코드

from sklearn.preprocessing import StandardScaler

# Standardization 평균 0 / 분산 1
scaler = StandardScaler()   

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

 

 

2. MinMaxScaler

   - 최대값 = 1 / 최소값 = 0

   - 최소-최대 정규화 Min-Max Normalization

   - 이상치에 취약하다.

from sklearn.preprocessing import MinMaxScaler

# Normalization 최소값 0 / 최대값 1
scaler = MinMaxScaler()

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

 

 

3. RobustScaler

   - 중앙값 = 0 / IQR(1분위(25%) ~ 3분위(75%)) = 1

   - 이상치(outlier) 영향 최소화

   - 더 넓게 분포

from sklearn.preprocessing import RobusterScaler

# 중앙값 0 / IQR 1
scaler = RobusterScaler()

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

 

 

4. MaxAbsScaler

   - 0을 기준으로 절대값이 가장 큰 수가 1또는 -1이 되도록 변환

from sklearn.preprocessing import MaxAbsScaler

# 절대값
scaler = MaxAbsScaler()

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
728x90
반응형

'공부정리 > 통계' 카테고리의 다른 글

[통계] Gaussian/Multinomial Naive Bayes Classification(가우시안/다항 나이브 베이즈 분류)  (0) 2022.07.31
'공부정리/통계' 카테고리의 다른 글
  • [통계] Gaussian/Multinomial Naive Bayes Classification(가우시안/다항 나이브 베이즈 분류)
sillon
sillon
꾸준해지려고 합니다..
    반응형
  • sillon
    sillon coding
    sillon
  • 전체
    오늘
    어제
    • menu (614)
      • notice (2)
      • python (68)
        • 자료구조 & 알고리즘 (23)
        • 라이브러리 (19)
        • 기초 (8)
        • 자동화 (14)
        • 보안 (1)
      • coding test - python (301)
        • Programmers (166)
        • 백준 (76)
        • Code Tree (22)
        • 기본기 문제 (37)
      • coding test - C++ (5)
        • Programmers (4)
        • 백준 (1)
        • 기본기문제 (0)
      • 공부정리 (5)
        • 신호처리 시스템 (0)
        • Deep learnig & Machine lear.. (41)
        • Data Science (18)
        • Computer Vision (17)
        • NLP (40)
        • Dacon (2)
        • 모두를 위한 딥러닝 (강의 정리) (4)
        • 모두의 딥러닝 (교재 정리) (9)
        • 통계 (2)
      • HCI (23)
        • Haptics (7)
        • Graphics (11)
        • Arduino (4)
      • Project (21)
        • Web Project (1)
        • App Project (1)
        • Paper Project (1)
        • 캡스톤디자인2 (17)
        • etc (1)
      • OS (10)
        • Ubuntu (9)
        • Rasberry pi (1)
      • App & Web (9)
        • Android (7)
        • javascript (2)
      • C++ (5)
        • 기초 (5)
      • Cloud & SERVER (8)
        • Git (2)
        • Docker (1)
        • DB (4)
      • Paper (7)
        • NLP Paper review (6)
      • 데이터 분석 (0)
        • GIS (0)
      • daily (2)
        • 대학원 준비 (0)
      • 영어공부 (6)
        • job interview (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    소수
    Python
    programmers
    백준
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
sillon
[통계] 표준화(Standard)와 정규화, 분산과 공분산
상단으로

티스토리툴바