확률 분포
- 주사위나 동전을 던질 때 뭐가 나올지, 그 결과는 실제로 던져 보기 전에는 알 수 없다.
- 하지만 동전을 던질 때,
앞면이 나올 가능성은 50%다
라고 말하는 것 처럼 결과를 예측할 수 있다. - 결과는 우연히 정해지는 것이지만 그 결과를 예측할 때는 확률이나 확률 분포를 이용한다.
사상
- 실험이나 관측 드으이 행위에 의해 생긴 결과를 말한다. 주사위 던지기의 예에서
나온 눈
이사상
에 해당한다.
확률
- 어느 사상이 어느 정도 일어나기 쉬운지를 수치화한 것이다. 모든 사상에 대한
확률
을 합치면 100%가 된다.
확률변수
- 시행해 봐야 비로소 결과를 알 수 있는 변수를 확률 변수라고 한다. 확률변수는 사상 * 확률으로 구할 수 있다. 이산확률변수와 연속확률변수가 존재한다.
분포
균일분포
- 각 사상이 일어나느 확률이 같은 분포를 균일분포라고 한다.
이항분포
이항분포
란 성공이나 실패 같은 사상을 여러번 시행했을 때의 분포를 말한다.베르누이 분포
는 시행 횟수가 1인 경우의 분포를 말한다.
정규분포
정규분포
는 평균값을 중심으로 대칭을 이루는 종 모양의 분포이다. 이항분포의 시행횟수를 늘리면 그 분포는 정규분포에 가까워 진다.
표준정규분포
표준화
란 데이터의 평균값을 0으로 표준편차(분산)을 1로 변환하는 것이다.- 척도(단위)를 의식하지 않고 사용할 수 있다.
- 표준화한 정규분포는 표준정규분포(z분포)라고 한다.
왜도 : 분포가 좌우로 치우친 정도를 나타대는 지표이다. 왜도가 양일 경우 오른쪽 꼬리가 길어지고, 왜도가 음일 경우 왼쪽 꼬리가 길어진다. 첨도 :
첨도
란 뾰족한 정도를 나타내는 지표이다. 첨도가 양인 경우 분산이 작아지는 경향이 있으며, 첨도가 음인 경우 분산이 커지는 경향이 있다.
포아송 분포
포아송 분포
는 시행 횟수가 아주 많고(n이 크다.),- 사상 발생의 확률(p)이 아주 작을 때의 이항분포이다.
- 1회 관측에서 일어날 일이 드물지만, 일정 시간 내에 어느정 도의 빈도로 일어나는 이벤트(불량품 발생 건수, 사고 발생 건수, 드문 병의 발생견수)의 분포이다.
카이제곱 분포
카이제곱 분포
는 정규분포를 따르는 여러 데이터를 한꺼번에 취급할 수 있어, 분산 분석이 이용할 수 있다.- 표준정규분포에서 추출한 값들의 제곱 합의 분포이다. 자유도가 높으면 정규분포에 가까워 진다.
F분포
F분포
는 2개의 카이제곱 값의 비로 정의된다. 각 표본의 카이제곱 값을 사용하기 때문에 자유도가 2개이다.
t 분포
- 모분산을 알 수 없고 표본 크기가 작을 때, 정규분표(z분포)를 이용해 추정 또는 검정하면 결과가 틀릴 수 있다.
- 이럴 경우 스튜던트화 변량이 따르는
t 분포
를 사용한다.
추측통계학
표본
을 사용해 그 추출원인모집단
의 특징(모수)를 추측한다.모수
란 모집단의 평균이나 분산 등 모집단의 분포 형태를 결정하는 값이다.
불편추정
- 표본의 정보만을 사용해, 모수에 대해 치우침이 없도록 추정하는 통계량이다. ^(햇)을 사용하여 구별한다.
- 기술통계학의 방법으로 계산한 분산(표본분산)은 참값(모분산)보다 조금 작아진다.
- 그렇기 때문에 분산을 구할때 n 대신 n-1(자유도)을 사용하여 표본분산 보다 조금 커지게하여 모분산에 가까이 가게 한다.
자유도
자유도
란 통계량 계산에 사용되는 관측 데이터(변수) 중, 자유롭게 값을 취할 수 있는 데이터의 수를 말한다.- 표본 크기에서 제약 조건의 수를 뺀 값이 자유도의 크기이다.
대수의 법칙
- 시행을 많이 반복하면 표본의 평균은 모평균에 가까워진다.
중심극한정리
- 개별 데이터의 모집단이 정규분포하지 않아도 거기서 추출한 표본이 충분히(30 이상) 크다면 표본 평균은 정규분포한다는 것을 보증한다.
신뢰구간의 추정
모집단의 평균이나 분산이 들어가면 예상되는 구간을 표본에서 추정한다.
추정구간
- 폭을 갖게 해서 모수를 추정하는 것. 추정의 정밀도가 폭으로 나타나므로 알기 쉽다.
신뢰구간
- 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다.
신뢰수준 : 추정 구간에 모수가 포함되어 있을 확률이다. 일반적으로 95%를 사용한다.
부트스트랩법
- 소표본의 경우 모집단에 확률분포를 가정할 수 없어도 모수의 추정을 가능하게 하는 방법이다.
- 준비한 데이터에서 복원 추출을 반복해 많은 재표본을 생성하고, 그 통계량에서 모수를 추정한다.
가설검정
증명된 바 없는 가설을 표본 통계량에 입각하여 주장이나 가설의 진위여부를 검정하는 통계적 추론방식이다.
귀무가설
- 연구에서 주장하고 싶은 내용과 반대되는 가설이다.
차이가 없다
거나처리 효과가 없다
와 같은 기존에 옳다고 가정하는 가설이다.
대립가설
- 귀무가설에 대립되는 가설이다. 새로운 주장이나 입증하고자 하는 가설이다.
가설검정 절차: 가설 설정 -> 확률분포와 판정 기준 결정 -> 검정통계량 계산 -> 확률 계산 -> 가설 판정(귀무가설 기각 or 수용)
유의수준
- 귀무가설이 채택되는지 기각 되지는에 대한 기준
p-value
- 귀무가설 분포에서(귀무가설이 맞다는 가정하에), 검정통계량(표본평균)보다 극단적인 값이 관측될 확률을 말한다.
제1종 오류
- 귀무가설이 옳은데 귀무가설을 기각할 확률을 말한다.(a)
제2종 오류
- 귀무가설이 틀림에도 귀무가설을 기각하지 못할 확률을 말한다.(b)
검출력(검정력)
- 차이가 있는 경우에 정확히 차이가 있다가 판정할 수 있는 능력, 즉 그 검정이 얼마나 뛰어난지를 나타낸다.
- 제2종 오류를 범하지 않을 확률이므로 베타의 보수(1-b)가 된다.
분산분석
- 평균 차이의 검정을 세 집단 이상으로 확장한 것으로, F 분포를 사용해 검정한다.
- 연구 목적이 되는 요인효과(군간변동)가 오차효과(군내변동)보다 클 때, 그 분산비인 F값이 커진다는 것을 이용한다.
검정통계량(F값) = 군간변동의 불편분산(요인분산) / 군내변동의 불편분산(오차분산) 교호작용 : 여러 요인 사이에서 특정 수준이 조합되었을 때 생기는 상승이나 상쇄효과를 말한다.
비모수 검정
모집단이 특정의 확률분포를 따른다
고 하는 전제가 필요 없는 통계방식을 통틀어 이르는 말이다.
모수검정
모집단이 특정 확률분포를 따른다는 전제가 되어 있는 통계 방식을 통틀어 이르는 말이다. 예를 들면 t 검정이나 분산분석에서 정규분포를 따를 필요가 있다.
명목 척도 : 값은 구별과 분류를 하기 위해서만 (성별, 혈액형) 순서 척도 : 값의 대소 관계에 의미만 있음(만족도, 선호도) 간격 척도 : 값의 간격이 일정하다(섭씨온도, 지능지수) 비율 척도 : 원점(0)이 정해져 있다(질량, 길이, 금액)
실험계획법
표본 크기를 정하는 법
실험에 앞서 검정에 확인하고 싶은 정도의 차이를 정확히 검출할 수 있는 적합한 표본 크기를 정할 필요가 있다.
검출력을 결정하는 세요소
- 유의수준 : 유의수준 a를 크게 하면 검출력은 높아진다.
- 효과량 : 효과량이 크면 검출력은 높아진다.
- 표본 크기 : 표본 크기가 크면 검출력은 높아진다.
유의수준과 효과량을 사전에 추축할 수 있다면 목표로 하는 검출력을 실현할 수 있는 표본 크기를 계산할 수 있다.
회귀분석
- 회귀분석은 변수 x(원인)가 변수 y(결과)에 주는 영향을 알기 위한 방법이다.
- 변수 x와 변수 y 사이에 있는 관계를 직선 또는 곡선의 식을 나타낸 것을 회귀선이라고 한다.
y(종속변수) = a(절편) + b(기울기)x(독립변수)
최소제곱법
- 최소제곱법은 회귀선의 파라미터 값을 추정하는 방법이다.
- 최소제곱법은 OLS(Ordinary Leaset Squares)라고도 한다. 잔차란 관측값과 예측값의 차이를 말한다.
결정계수
- 추정된 회귀선이 얼마나 관측 데이터에 들어 맞는지를 가늠하는 지표이다.
- 0 ~ 1 사이 값을 취하며 1에 가까울 수록 잘 들어 맞는다.
R^2 = 예측값으로 설명된 변동 / 전변동
다중공선성
- 설명변수들 간에 높은 상관관계가 있을 경우, 회귀계수가 기대한 부호가 되지 않는 등 결과를 해석하기 어려울 수가 있다.
빅데이터
베이즈 통계학
지식이나 경험, 새로운 데이터를 유연하게 이용해 보다 정확한 분석을 지향하는 통계학이다.
- 기존 통계학 : 귀무가설이 옳다는 전제하에서 데이터가 관측되는 확률을 구한다. 다음에 그 확률이 작으면 귀무가설은 잘못된 것으로 판단한다.
- 베이즈 통계학 : 데이터를 관측하기 전에 지식이나 경험, 관련 정보를 동원해 가설이 옳을 확률을 예상해둔다.(사전확률) 그런 다음 관측된 데이터를 사용해 사전에 예상한 확률을 갱신한다.(사후확률)
장점
- 분석의 해석이 자연스럽다
- 유연성이 높다(복잡한 문제에도 적용할 수 있다.)
- 새로운 데이터의 반복이용을 정밀도를 높일 수 있다.
베이즈 정리
- 동시확률 : 사건 A와 사건 B가 동시에 일어날 확률
- 조건부확률 : 사건 A가 일어난 조건하에서 사건 B가 일어날 확률
P(H E) = P(E H) * P(H) / P(E)
사후확률
-
베이즈 통계학에서는 베이즈 정리를 사용해서 결과(데이터)에서 원인(가설)의 확률을 구한다.
-
P(원인 A 결과 B) = P(결과 B 원인 A) * P(원인 A) / P(결과 B) => 사후확률 = 우도 * 사전확률 / 전확률 -
베이즈 정리의 좌변인 P(원인 A 결과 B)는 결과로서 B가 관측되었을 때, 원인이 A일 확률
로, 사후확률이라고 한다.
사전확률
- P(원인 A)를
사전확률
이라 하고,결과 B가 아직 관측되이 않은 단계에서 원인 A라는 확신의 정도
를 나타낸것(주관확률)이다.
우도
-
P(결과 B 원인 A)는 원인이 A일 때 결과로서 B라는 데이터를 관측할 확신의 정도
를 나타내는 주관확률이다. - 다만 이미 결과는 나와 있으므로 확률이 아니라 결과 B의 원인이 A라고 생각하는 것은 그럴 만하다는 뜻에서 우도라는 말을 쓴다.
전확률
- P(결과 B)는 전확률이라고 하며
결과로서 B가 관측되는 확률
이다. - 주의해야 할 것은 원인이 여러 가지일 경우, 각 확률의 합이 된다는 것이다.
베이즈 갱신
베이즈 갱신
이란 새로운 데이터가 얻어지면 추정한 사후확률을 새로운 사전확률로 해서 재차 추정하는 것을 말한다. 물론 새로운 데이터가 없으면 그때까지의 추정으로 끝난다.
최대우도추정법
- 주어진 데이터를 이용하여 우도함수로부터 우도가 최대가 되는 파라미터를 추정하는 방법
- 주로 계산 편의를 위하여 log를 취하여 우도를 찾는다.
확률과 우도 차이
- 확률(Probability) : 확률은 관측값 또는 관측 구간이 주어진 확률분포 안에서 얼마만큼 나타날 수 있는 가에 대한 값
- 우도(Likelihood) : 우도란 어떤 특정한 값을 관측할 때, 이 관측치가 어떠한 확률분포에서 나왔는가에 관한 값이다.
빈도주의
- 빈도론자들은 얼마만큼 빈번하게 특정한사건이 반복되어 발생하는가를 관찰하고 가설을 세우고 모델을 만들어 검증한다.
- 확률은 장기적으로 일어나는 사건의 빈도라고 주장
- 모수는 (우리가 모르는) 고정된 상수
- 여러번의 실험, 관찰을 통해 알게된 사건의 확률을 검정하므로 사건이 독립적이고 반복적이며 정규 분포형태일 때 사용한느 것이 좋다
- 사전 관찰지식이 없거나 데이터가 불확실하거나 부족할 경우 사용이 어렵다
- 고정된 모수로부터 어떤 사건이 일어날 확률에 대해 계산
베이지안
- 베이지안들은 데이터의 관점에서 파라미터에 대한 신념의 변화를 분석한다
- 확률은 사건 발생에 대한 믿은 또는 척도이다
- 모수는 확률적을 변하는 수이다
- 사전지식의 확실성/불확실성과 관련
- 관측된 값으로부터 데이터를 잘 표현하는 모수를 구하는 것
빈도주의와 베이지안 관점 차이 예시
동전을 던졌을때 앞/뒷면이 나오는 사건의 확률
- 빈도주의 : 동전을 던져 앞면이 나오는 사건의
확률
은 0.5이다 - 베이지안 :
앞면이 나왔다
는 주장의 신뢰도는 0.5이다
검진결과에 의해 암에 걸렸을 확률이 90%이다.
- 빈도주의 : 이러한 검진결과를 가진 환자는 정밀검사를 하면 100에 90명은 암에 걸려있다.
- 베이지안 : 자신이 암에 걸렸음을 주장하는 의사의 주장이 사실일 가능성이 90%이다.
즉, 일어나지 않은 일에 대한 확률의 불확실성의 개념과 사건과 관련있는 여러 확률을 이용해 새롭게 일어날 사건을 추정하는 것이 베이지안이다.