산포도 (Dispersion) Start.

BioinformaticsAndMe





산포도 (Dispersion)

데이터가 얼마나 퍼져 있는지 설명하는 지표 (흩어진 정도).

범위, 분산, 표준편차, 사분범위 등을 산포도의 지표로 사용한다.

일반적으로 값이 클수록 데이터가 넓게 퍼져 있으며,

               값이 작을수록 데이터가 조밀하게 분포해 있다.




1. 범위 (Range)

-주어진 데이터 분포에서 '최대값(max)-최소값(min)'

-범위의 값이 크다면 데이터들이 넓게 퍼져 있음




2. 분산 (Variance)

-확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자

  '실제값(actual value) - 평균값(average value)'

-분산(or 표준편차) 값이 클수록, 데이터 값들이 전체평균에 비해 변동이 큼


#예제

ㄱ) 6, 2, 3, 1 의 데이터들이 주어졌을 때 평균값: 3

ㄴ) 실제값(actual value) - 평균값(average value)


ㄷ) 앞에서 구한 총합(14)을 총데이터 숫자(4개)로 나눠준 값 = 분산 값(3.5)




3. 표준편차 (Standard Deviation;SD)

-대부분 통계 분석에서는 분산의 제곱근인 표준편차가 주로 사용됨 (데이터 단위 맞추기 위함)

-표준편차가 클수록 데이터 값들이 흩어져 있음


#예제

아래 그림에서 표준편차가 상대적으로 큰 파란색 점들이 더 넓은 분포를 이루고 있음




4. 사분위수 범위(Interquartile range;IQR)

-사분위수 범위는 데이터 값들의 중간 50%에 포함되는 산포도를 의미

-사분위수 범위 = Q3(상위25%값) - Q1(하위25%값)

-이상치(Outlier)가 주는 영향을 최소화하기 위해 사용









#Reference
1) https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0
2) https://slideplayer.com/slide/7622435/
3) https://unofficed.com/standard-deviations/
4) https://ko.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/interquartile-range-iqr/a/interquartile-range-review



산포도 (Dispersion) End.

BioinformaticsAndMe


'Statistics' 카테고리의 다른 글

FDR (False Discovery Rate)  (1) 2019.09.23
심슨의 역설 (Simpson's Paradox)  (0) 2019.09.03
비모수 검정 (Non-parametric test)  (0) 2019.05.31
T-검정 (T-test)  (0) 2018.08.29
회귀 분석 (Regression analysis)  (0) 2018.08.19

+ Recent posts