머신러닝, AI

가우시안 정규분포

쟈누이 2020. 3. 8. 03:21
반응형

머신러닝에서 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처스케일링 이라고 하는데

대표적인 방법 중 하나가 표준화 / 정규화입니다.

 

이 표준화는 데이터 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환하는 것을 의미하는데요.

 

여기서 가우시안 정규분포는 가우시안 분포 연속 확률 분포의 하나입니다.

  • 가우시안 분포는 보통 정규분포(standard distribution)로 알려져있습니다.
  • 연속 확률 분포 중 가장 널리 알려진 분포 입니다.

여기서 파생된 중요한 정리가

 

중심극한 정리..

동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다 라는 정리

 

중심극한정리 참고 링크

https://bioinformaticsandme.tistory.com/m/277?category=808983

 

중심극한정리 (Central limit theorem)

중심극한정리 (Central limit theorem) Start BioinformaticsAndMe 중심극한정리 (Central limit theorem) : 중심극한정리는 표본크기(n)가 증가함에 따라, 평균의 표본 분포가 정규 분포에 근사한다는 이론 *정..

bioinformaticsandme.tistory.com

일단 기록해두고 차차 공부해가는걸로..

 

가우시안 분포 참고 링크

https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC

 

정규 분포 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 확률론과 통계학에서, 정규 분포(正規 分布, 영어: normal distribution) 또는 가우시안 분포(Gauß 分布, 영어: Gaussian distribution)는 연속 확률 분포의 하나이다. 정규분포는 수집된 자료의 분포를 근사하는 데에 자주 사용되며, 이것은 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문이다. 정규분포는 2개의 매개 변수 평균 μ {\displays

ko.wikipedia.org

http://norman3.github.io/prml/docs/chapter02/3_1.html

 

3. The Gaussian Distribution [I]

3. The Gaussian Distribution [I] 가우시안 분포는 보통 정규분포(standard distribution)로 알려져있다. 왜냐하면 연속 확률 분포 중 가장 널리 알려진 분포이기 때문이다. 단일 변수 \( x \) 에 대해 가우시안 분포는 다음과 같이 기술된다. 여기서 \( \mu \) 는 평균, \( \sigma^2 \) 은 분산이다. 입력 변수가 \( D \) 차원의 벡터인 경우를 다변량 가우시안 분포라 하며 다음과 같은 식으로

norman3.github.io

 

반응형