반응형
머신러닝에서 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처스케일링 이라고 하는데
대표적인 방법 중 하나가 표준화 / 정규화입니다.
이 표준화는 데이터 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환하는 것을 의미하는데요.
여기서 가우시안 정규분포는 가우시안 분포는 연속 확률 분포의 하나입니다.
- 가우시안 분포는 보통 정규분포(standard distribution)로 알려져있습니다.
- 연속 확률 분포 중 가장 널리 알려진 분포 입니다.
여기서 파생된 중요한 정리가
중심극한 정리..
동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다 라는 정리
중심극한정리 참고 링크
https://bioinformaticsandme.tistory.com/m/277?category=808983
일단 기록해두고 차차 공부해가는걸로..
가우시안 분포 참고 링크
https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC
http://norman3.github.io/prml/docs/chapter02/3_1.html
반응형
'Data Engineering > 머신러닝, AI' 카테고리의 다른 글
[tensorflow error] module 'tensorflow' has no attribute 'random_uniform' (0) | 2020.09.09 |
---|---|
머신러닝 관련 참고 지식 : 오분류표/정확도/특이도/지지도/신뢰도 (0) | 2020.03.12 |
Chapter 2. 사이킷 런으로 시작하는 머신러닝 스터디 1주차 정리 (0) | 2020.03.09 |
파이 토치 실습자료 (0) | 2020.02.21 |
일본 문화보존에 활용되는 Tensorflow AI - 참고자료 (0) | 2020.02.21 |