확률 분포

  • 주사위나 동전을 던질 때 뭐가 나올지, 그 결과는 실제로 던져 보기 전에는 알 수 없다.
  • 하지만 동전을 던질 때, 앞면이 나올 가능성은 50%다라고 말하는 것 처럼 결과를 예측할 수 있다.
  • 결과는 우연히 정해지는 것이지만 그 결과를 예측할 때는 확률이나 확률 분포를 이용한다.

사상

  • 실험이나 관측 드으이 행위에 의해 생긴 결과를 말한다. 주사위 던지기의 예에서 나온 눈사상에 해당한다.

확률

  • 어느 사상이 어느 정도 일어나기 쉬운지를 수치화한 것이다. 모든 사상에 대한 확률을 합치면 100%가 된다.

확률변수

  • 시행해 봐야 비로소 결과를 알 수 있는 변수를 확률 변수라고 한다. 확률변수는 사상 * 확률으로 구할 수 있다. 이산확률변수와 연속확률변수가 존재한다.

분포

균일분포

  • 각 사상이 일어나느 확률이 같은 분포를 균일분포라고 한다.

이항분포

  • 이항분포란 성공이나 실패 같은 사상을 여러번 시행했을 때의 분포를 말한다. 베르누이 분포는 시행 횟수가 1인 경우의 분포를 말한다.

정규분포

  • 정규분포는 평균값을 중심으로 대칭을 이루는 종 모양의 분포이다. 이항분포의 시행횟수를 늘리면 그 분포는 정규분포에 가까워 진다.

표준정규분포

  • 표준화란 데이터의 평균값을 0으로 표준편차(분산)을 1로 변환하는 것이다.
  • 척도(단위)를 의식하지 않고 사용할 수 있다.
  • 표준화한 정규분포는 표준정규분포(z분포)라고 한다.

왜도 : 분포가 좌우로 치우친 정도를 나타대는 지표이다. 왜도가 양일 경우 오른쪽 꼬리가 길어지고, 왜도가 음일 경우 왼쪽 꼬리가 길어진다. 첨도 : 첨도란 뾰족한 정도를 나타내는 지표이다. 첨도가 양인 경우 분산이 작아지는 경향이 있으며, 첨도가 음인 경우 분산이 커지는 경향이 있다.

포아송 분포

  • 포아송 분포는 시행 횟수가 아주 많고(n이 크다.),
  • 사상 발생의 확률(p)이 아주 작을 때의 이항분포이다.
  • 1회 관측에서 일어날 일이 드물지만, 일정 시간 내에 어느정 도의 빈도로 일어나는 이벤트(불량품 발생 건수, 사고 발생 건수, 드문 병의 발생견수)의 분포이다.

카이제곱 분포

  • 카이제곱 분포는 정규분포를 따르는 여러 데이터를 한꺼번에 취급할 수 있어, 분산 분석이 이용할 수 있다.
  • 표준정규분포에서 추출한 값들의 제곱 합의 분포이다. 자유도가 높으면 정규분포에 가까워 진다.

F분포

  • F분포는 2개의 카이제곱 값의 비로 정의된다. 각 표본의 카이제곱 값을 사용하기 때문에 자유도가 2개이다.

t 분포

  • 모분산을 알 수 없고 표본 크기가 작을 때, 정규분표(z분포)를 이용해 추정 또는 검정하면 결과가 틀릴 수 있다.
  • 이럴 경우 스튜던트화 변량이 따르는 t 분포를 사용한다.

추측통계학

  • 표본을 사용해 그 추출원인 모집단의 특징(모수)를 추측한다.
  • 모수란 모집단의 평균이나 분산 등 모집단의 분포 형태를 결정하는 값이다.

불편추정

  • 표본의 정보만을 사용해, 모수에 대해 치우침이 없도록 추정하는 통계량이다. ^(햇)을 사용하여 구별한다.
  • 기술통계학의 방법으로 계산한 분산(표본분산)은 참값(모분산)보다 조금 작아진다.
  • 그렇기 때문에 분산을 구할때 n 대신 n-1(자유도)을 사용하여 표본분산 보다 조금 커지게하여 모분산에 가까이 가게 한다.

자유도

  • 자유도란 통계량 계산에 사용되는 관측 데이터(변수) 중, 자유롭게 값을 취할 수 있는 데이터의 수를 말한다.
  • 표본 크기에서 제약 조건의 수를 뺀 값이 자유도의 크기이다.

대수의 법칙

  • 시행을 많이 반복하면 표본의 평균은 모평균에 가까워진다.

중심극한정리

  • 개별 데이터의 모집단이 정규분포하지 않아도 거기서 추출한 표본이 충분히(30 이상) 크다면 표본 평균은 정규분포한다는 것을 보증한다.

신뢰구간의 추정

모집단의 평균이나 분산이 들어가면 예상되는 구간을 표본에서 추정한다.

추정구간

  • 폭을 갖게 해서 모수를 추정하는 것. 추정의 정밀도가 폭으로 나타나므로 알기 쉽다.

신뢰구간

  • 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다.

신뢰수준 : 추정 구간에 모수가 포함되어 있을 확률이다. 일반적으로 95%를 사용한다.

부트스트랩법

  • 소표본의 경우 모집단에 확률분포를 가정할 수 없어도 모수의 추정을 가능하게 하는 방법이다.
  • 준비한 데이터에서 복원 추출을 반복해 많은 재표본을 생성하고, 그 통계량에서 모수를 추정한다.

가설검정

증명된 바 없는 가설을 표본 통계량에 입각하여 주장이나 가설의 진위여부를 검정하는 통계적 추론방식이다.

귀무가설

  • 연구에서 주장하고 싶은 내용과 반대되는 가설이다. 차이가 없다거나 처리 효과가 없다와 같은 기존에 옳다고 가정하는 가설이다.

대립가설

  • 귀무가설에 대립되는 가설이다. 새로운 주장이나 입증하고자 하는 가설이다.

가설검정 절차: 가설 설정 -> 확률분포와 판정 기준 결정 -> 검정통계량 계산 -> 확률 계산 -> 가설 판정(귀무가설 기각 or 수용)

유의수준

  • 귀무가설이 채택되는지 기각 되지는에 대한 기준

p-value

  • 귀무가설 분포에서(귀무가설이 맞다는 가정하에), 검정통계량(표본평균)보다 극단적인 값이 관측될 확률을 말한다.

제1종 오류

  • 귀무가설이 옳은데 귀무가설을 기각할 확률을 말한다.(a)

제2종 오류

  • 귀무가설이 틀림에도 귀무가설을 기각하지 못할 확률을 말한다.(b)

검출력(검정력)

  • 차이가 있는 경우에 정확히 차이가 있다가 판정할 수 있는 능력, 즉 그 검정이 얼마나 뛰어난지를 나타낸다.
  • 제2종 오류를 범하지 않을 확률이므로 베타의 보수(1-b)가 된다.

분산분석

  • 평균 차이의 검정을 세 집단 이상으로 확장한 것으로, F 분포를 사용해 검정한다.
  • 연구 목적이 되는 요인효과(군간변동)가 오차효과(군내변동)보다 클 때, 그 분산비인 F값이 커진다는 것을 이용한다.

검정통계량(F값) = 군간변동의 불편분산(요인분산) / 군내변동의 불편분산(오차분산) 교호작용 : 여러 요인 사이에서 특정 수준이 조합되었을 때 생기는 상승이나 상쇄효과를 말한다.


비모수 검정

모집단이 특정의 확률분포를 따른다고 하는 전제가 필요 없는 통계방식을 통틀어 이르는 말이다.

모수검정

모집단이 특정 확률분포를 따른다는 전제가 되어 있는 통계 방식을 통틀어 이르는 말이다. 예를 들면 t 검정이나 분산분석에서 정규분포를 따를 필요가 있다.

명목 척도 : 값은 구별과 분류를 하기 위해서만 (성별, 혈액형) 순서 척도 : 값의 대소 관계에 의미만 있음(만족도, 선호도) 간격 척도 : 값의 간격이 일정하다(섭씨온도, 지능지수) 비율 척도 : 원점(0)이 정해져 있다(질량, 길이, 금액)


실험계획법

표본 크기를 정하는 법

실험에 앞서 검정에 확인하고 싶은 정도의 차이를 정확히 검출할 수 있는 적합한 표본 크기를 정할 필요가 있다.

검출력을 결정하는 세요소

  • 유의수준 : 유의수준 a를 크게 하면 검출력은 높아진다.
  • 효과량 : 효과량이 크면 검출력은 높아진다.
  • 표본 크기 : 표본 크기가 크면 검출력은 높아진다.

유의수준과 효과량을 사전에 추축할 수 있다면 목표로 하는 검출력을 실현할 수 있는 표본 크기를 계산할 수 있다.


회귀분석

  • 회귀분석은 변수 x(원인)가 변수 y(결과)에 주는 영향을 알기 위한 방법이다.
  • 변수 x와 변수 y 사이에 있는 관계를 직선 또는 곡선의 식을 나타낸 것을 회귀선이라고 한다.

y(종속변수) = a(절편) + b(기울기)x(독립변수)

최소제곱법

  • 최소제곱법은 회귀선의 파라미터 값을 추정하는 방법이다.
  • 최소제곱법은 OLS(Ordinary Leaset Squares)라고도 한다. 잔차란 관측값과 예측값의 차이를 말한다.

결정계수

  • 추정된 회귀선이 얼마나 관측 데이터에 들어 맞는지를 가늠하는 지표이다.
  • 0 ~ 1 사이 값을 취하며 1에 가까울 수록 잘 들어 맞는다.

R^2 = 예측값으로 설명된 변동 / 전변동

다중공선성

  • 설명변수들 간에 높은 상관관계가 있을 경우, 회귀계수가 기대한 부호가 되지 않는 등 결과를 해석하기 어려울 수가 있다.

빅데이터

베이즈 통계학

지식이나 경험, 새로운 데이터를 유연하게 이용해 보다 정확한 분석을 지향하는 통계학이다.

  • 기존 통계학 : 귀무가설이 옳다는 전제하에서 데이터가 관측되는 확률을 구한다. 다음에 그 확률이 작으면 귀무가설은 잘못된 것으로 판단한다.
  • 베이즈 통계학 : 데이터를 관측하기 전에 지식이나 경험, 관련 정보를 동원해 가설이 옳을 확률을 예상해둔다.(사전확률) 그런 다음 관측된 데이터를 사용해 사전에 예상한 확률을 갱신한다.(사후확률)

장점

  • 분석의 해석이 자연스럽다
  • 유연성이 높다(복잡한 문제에도 적용할 수 있다.)
  • 새로운 데이터의 반복이용을 정밀도를 높일 수 있다.

베이즈 정리

  • 동시확률 : 사건 A와 사건 B가 동시에 일어날 확률
  • 조건부확률 : 사건 A가 일어난 조건하에서 사건 B가 일어날 확률
P(H E) = P(E H) * P(H) / P(E)

사후확률

  • 베이즈 통계학에서는 베이즈 정리를 사용해서 결과(데이터)에서 원인(가설)의 확률을 구한다.

  • P(원인 A 결과 B) = P(결과 B 원인 A) * P(원인 A) / P(결과 B) => 사후확률 = 우도 * 사전확률 / 전확률
  • 베이즈 정리의 좌변인 P(원인 A 결과 B)는 결과로서 B가 관측되었을 때, 원인이 A일 확률로, 사후확률이라고 한다.

사전확률

  • P(원인 A)를 사전확률이라 하고, 결과 B가 아직 관측되이 않은 단계에서 원인 A라는 확신의 정도를 나타낸것(주관확률)이다.

우도

  • P(결과 B 원인 A)는 원인이 A일 때 결과로서 B라는 데이터를 관측할 확신의 정도를 나타내는 주관확률이다.
  • 다만 이미 결과는 나와 있으므로 확률이 아니라 결과 B의 원인이 A라고 생각하는 것은 그럴 만하다는 뜻에서 우도라는 말을 쓴다.

전확률

  • P(결과 B)는 전확률이라고 하며 결과로서 B가 관측되는 확률이다.
  • 주의해야 할 것은 원인이 여러 가지일 경우, 각 확률의 합이 된다는 것이다.

베이즈 갱신

  • 베이즈 갱신이란 새로운 데이터가 얻어지면 추정한 사후확률을 새로운 사전확률로 해서 재차 추정하는 것을 말한다. 물론 새로운 데이터가 없으면 그때까지의 추정으로 끝난다.

최대우도추정법

  • 주어진 데이터를 이용하여 우도함수로부터 우도가 최대가 되는 파라미터를 추정하는 방법
  • 주로 계산 편의를 위하여 log를 취하여 우도를 찾는다.

확률과 우도 차이

  • 확률(Probability) : 확률은 관측값 또는 관측 구간이 주어진 확률분포 안에서 얼마만큼 나타날 수 있는 가에 대한 값
  • 우도(Likelihood) : 우도란 어떤 특정한 값을 관측할 때, 이 관측치가 어떠한 확률분포에서 나왔는가에 관한 값이다.

빈도주의

  • 빈도론자들은 얼마만큼 빈번하게 특정한사건이 반복되어 발생하는가를 관찰하고 가설을 세우고 모델을 만들어 검증한다.
  • 확률은 장기적으로 일어나는 사건의 빈도라고 주장
  • 모수는 (우리가 모르는) 고정된 상수
  • 여러번의 실험, 관찰을 통해 알게된 사건의 확률을 검정하므로 사건이 독립적이고 반복적이며 정규 분포형태일 때 사용한느 것이 좋다
  • 사전 관찰지식이 없거나 데이터가 불확실하거나 부족할 경우 사용이 어렵다
  • 고정된 모수로부터 어떤 사건이 일어날 확률에 대해 계산

베이지안

  • 베이지안들은 데이터의 관점에서 파라미터에 대한 신념의 변화를 분석한다
  • 확률은 사건 발생에 대한 믿은 또는 척도이다
  • 모수는 확률적을 변하는 수이다
  • 사전지식의 확실성/불확실성과 관련
  • 관측된 값으로부터 데이터를 잘 표현하는 모수를 구하는 것

빈도주의와 베이지안 관점 차이 예시

동전을 던졌을때 앞/뒷면이 나오는 사건의 확률

  • 빈도주의 : 동전을 던져 앞면이 나오는 사건의 확률은 0.5이다
  • 베이지안 : 앞면이 나왔다는 주장의 신뢰도는 0.5이다

검진결과에 의해 암에 걸렸을 확률이 90%이다.

  • 빈도주의 : 이러한 검진결과를 가진 환자는 정밀검사를 하면 100에 90명은 암에 걸려있다.
  • 베이지안 : 자신이 암에 걸렸음을 주장하는 의사의 주장이 사실일 가능성이 90%이다.

즉, 일어나지 않은 일에 대한 확률의 불확실성의 개념과 사건과 관련있는 여러 확률을 이용해 새롭게 일어날 사건을 추정하는 것이 베이지안이다.