본문 바로가기

Math for Data Science/Statistics

[통계 기본] 패캠 데이터 분석 패키지 :: 통계 기본 총 정리

기술통계와 추리통계

  1. 기술통계 : 대상 속성파악 by 수집한 자료 분석

    1. 중심 경향 값 : 전체 자료를 대표할 수 있는 수치들
      • 평균, 중앙값, 최빈값
    2. 분산도 : 전체 자료가 얼마나 퍼져 있는지를 알 수 있는 수치들
      • 분산 : 각 자료가 평균으로부터 떨어진 거리(편차)를 제곱한 수치들의 총합을 전체 자료 수로 나눈 수치
      • 표본편차 : 분산의 제곱근
    3. 상관계수 : 두 변수 간 관계의 크기
    4. 회귀계수 : 원인이 결과에 얼마나 영향을 미치는지 그 영향의 크기 (즉, 독립변수가 종속변수에 얼마나 영향을 미치는지!)
  2. 추리통계 : 표본의 기술통계를 이용해 모집단의 속성 유추

    • 이 때, 확신할 수 없고 오류도 있을 수 있음
    • 신뢰구간 : 추리통계에서 예측한 모집단 특성이 위치할 가능성이 높은 구간. 신뢰수준 95, 99 등에 따라 달라짐.
    • 신뢰수준이 높아질 수록 정확성이 높아짐. 신뢰구간이 더 넓게 됨.

모집단과 표본

  1. 모집단 : 연구 / 분석이 이루어지는 전체 대상.
    • 전수 조사가 쉽지 않기에 모집단 대표할 수 있는 표본 추출
  2. 표본 : 모집단의 일부. 모집단 속성 유추하는 데 사용
    • 확률표본추출 방법 : 무작위로 표본 추출. 모집단 대표할 가능성이 높다

    • 비확률표본추출 : 조사자의 판단에 의해 표본 추출. 대표성을 띄지 못할 수 있다.

      → 그럼 표본은 어떻게 뽑을까?

      1. 표본이 30 이상으로 충분히 클 때
        • 모집단의 분포와 상관없이, 표본은 정규분포를 따른다고 본다
        • 표본의 평균 = 모집단의 평균
        • 표본의 분산 = 모집단 분산 / 표본의 수 (n)
      2. 자유도 : 평균을 유지하면서 , 자유롭게 어떠한 값도 가질 수 있는 사례의 수 (N-1)
        • 검색을 통해 비유 예시를 찾아봤다.

          : 월화수목금 에 티셔츠 5장을 입는다면, 월화수목에 아무거나 4장 입을 수 있지만, 금요일에 입을 수 있는 티셔츠는 남은 한 장으로 정해져 있다.


척도

  • 척도의 원칙

    1. 포괄성 : 척도 안에 모든 경우의 수가 포함되어야 하는 원칙
    2. 상호배타성 : 척도 안에 중복되는 경우의 수가 없어야 한다. (100만원 이하 / 100만원 이상 ~ → 중복됨)
  • 척도의 유형

    1. 명목척도 : 항목들이 상호배타적 특성만을 가진 척도 (예) 성별 - 여자, 남자)

    2. 서열척도 : 명목척도 중 항목 간 서열이나 순위 존재. (예) 학력)

    3. 등간척도 : 서열척도 중 항목 간 간격이 일정 (예) 전혀 만족 못함 . 거의 만족 못함. 보통 ..)

    4. 비율척도 : 등간척도 중 아무것 도 없는 상태를 ‘0’으로 정할 수 있음. Nan 값을 0으로 표시 가능하냐 못하냐 이런 의미인듯

      • 예) 당신의 연령은 ? 항목에 없을 경우 ‘0’ 이렇게 할 수 있지만, 현재 온도는 ? 0도 이렇게 쓸 수 없다. 온도는 등간척도

      명목척도, 서열척도 → 이산형

      등간척도, 비율척도 → 연속형


도수분포표, 막대그래프, 히스토그램

  1. 도수분포표 : 자료 표로 정리, 특정 항목 / 범위에 해당하는 빈도수 나타냄
  2. 막대그래프 : 비연속형 변수에 사용 (명목척도, 서열척도), 각 항목의 빈도수 나타냄
  3. 히스토그램 : 연속형변수에 사용 (등간척도, 서열척도), 일정 범위에 속하는 빈도수 나타냄
    • 막대그래프와 달리 직사각형이 붙어있음. X축은 연속형 변수이므로, 각 범위의 시작과 끝은 만난다는 것을 의미
  4. 선그래프 : 히스토그램의 끝 부분을 선으로 연결

데이터 특성에 따라 어떤 그래프 쓸지 잘 알아두자 ~


공분산과 상관계수

  • 공분산 (covariance) : 두 변수가 함께 각자의 평균으로부터 멀어지는 정도

    즉, 한 변수가 자신의 평균으로부터 멀어질 때 - 다른 변수가 자신의 평균으로부터 멀어지는 정도

    (Ai - A평균)(Bi - B평균) 다 더하여 n으로 나눔

    즉, 편차를 곱하여 서로 같이 변하는 정도를 알 수 있다.

    범위 : -무한대 ~ +무한대

  • 상관계수 (r) : 두 변수 간의 관계로, 하나의 변수가 변화함에 따라 다른 변수가 변화하는 정도를 의미

    공분산 / A의 표준편차 * B의 표준편차 : 표준화 해주는 것임.

    ** 표준화 : 평균 0, 표준편차 1로 해주는 것.

    범위 : -1 ~ 1 사이의 범위를 가짐

    양의 상관관계 : 한 변수 증가에 따라 다른 변수도 증가

    음의 상관관계 : 한 변수 증가에 따라 다른 변수는 감소

    무의미한 상관관계


가설과 신뢰수준, 유의확률

  1. 영가설 (H0) : 연구가설과 반대되는 가설. 실제 분석이 이루어지는 가설

  2. 연구가설 (H1) : 분석을 통해 알아보고자 하는 내용으로 이루어진 가설

    합쳤을 때 발생할 수 있는 모든 경우의 수 포함되어야.

예) H0 : 두 집단간 평균 차이가 없다. H1 : 두 집단간 평균 차이가 있다.

H0 : 변수1이 변수2에 아무런 영향을 미치지 못할 것. H1 : 유의미한 영향을 미칠 것이다.

  • 유의확률 : 실제로는 영가설이 참임에도 불구하고, 영가설을 거짓(기각)으로 판단할 가능성. (P-value)

    즉, 연구결과가 실제 현상을 반영하지 못할 가능성.

  • 신뢰수준 : 실제로는 영가설이 참이고 & 분석결과도 영가설을 참 (채택)으로 판단할 가능성.

    즉, 실제현상에서 발생하지 않는 연구가설을 기각할 가능성.

    신뢰수준이 높아질수록 영가설이 채택될 가능성 높아짐. & 연구가설이 채택될 가능성이 낮아짐

    → why? 실제 현상에서는 영가설의 현상이 일반적이여서 그런가?

    = 우리 정규분포 모양의 그래프 그리면, 가운데가 영가설인거 기억나지? 95% vs 99% 하면 당연히 99% 면적이 영가설, 더 넓겠지?

    참고! 무죄추정의 원칙 이라고, 아무리 대립가설을 주장하고 싶어도 ‘영가설이 진실’이라는 원칙을 가정으로 연구한다고 함.

    즉, 신뢰수준 높아질수록 연구가설이 실제현상 반영할 가능성 높아짐.

    신뢰수준 95% (유의확률 0.05 미만) : *

    99% (유의확률 0.01로 미만) : **

    99.9% (유의확률 0.001 미만) : ***

    90% (유의확률 0.1 미만) : 십자가 모양, 양측검정 관련


양측검정과 단측검정

  1. 양측 검증 : 방향성 고려 x 연구가설 (H1) 설정할 때 사용하는 검증법
    • 예) 두 집단 간 평균에는 차이가 있을 것이다
    • 예) 변수1이 변수2에 미치는 영향의 크기는 ‘0’이 아니다
  2. 단측 검증 : 방향성 고려 연구가설 설정.
    • 예) 집단1 보다 집단2의 평균이 더 클 것이다 (더 작을 것이다.)
    • 예) 변수1이 변수2에 미치는 영향의 크기는 ‘0’보다 클 것이다 (작을 것이다)
  • 양측 검증보다 단측 검증일 경우 연구가설 (H1)이 채택될 가능성이 높다.

    → 이 말이 무슨 말인고 하니,

    같은 유의수준 0.05라도 양측이면 2.5% 95% 2.5% 인데

    단측이면 95% 5% . 2.5 < 5 이니까

    이론에 따라 양측 / 단측 검정 설정한다.


t분석

  • 독립변수가 비연속형 변수 (명목척도 / 서열척도) ,

    종속변수가 연속형 변수 (등간척도 / 비율척도) 일 때 사용

  • 독립변수 집단이 2개 이하.

  • T분표 이용

독립변수가 1개의 집단인지 2개인지에 따라 방법이 달라진다.

  1. 일표본 t-분석 : 하나의 모집단에서 표본 추출할 때 사용.

    • 표본평균이 예측한 특정수치와 같은지 다른지 검증할 때 사용

    • 예) H0 : 국내 중학생 평균 키는 170.

      H1. (양측 검증) : 국내 중학생 평균키는 170이 아니다

      H1. (단측 검증) : 국내 중학생 평균키는 170보다 크다

  2. 독립표본 t-분석 : 두 개의 모집단에서 각 각 표본 추출할 때 사용.

    • 두 집단 표본들의 평균이 서로 같은지 다른지 검증

    • 예) H0 : 두 집단의 평균은 같다.

      H1 (양측 검증) : 두 집단의 평균은 다르다.

      H1 (단측 검증) : 집단1의 평균은 집단2 평균보다 크다.

    • 두 집단의 분산이 동일한지가 중요. 대부분의 프로그램은 분산의 동질성 검증을 자동으로 계산해줌.

  3. 대응표본 t-분석 : 하나의 모집단에서 표본 추출, but 같은 표본에서 두 번의 측정이 이루어질 경우 사용

  • 측정이 2번 이루어져서 두 집단이 다른 집단 같아보이지만, 측정은 하나의 집단에서 이루어졌기에 위 두 방법을 사용할 수 없다.

  • 예) H0 : 사전 수치와 사후 수치는 같다.

    H1 (양측 검증) : 사전 수치와 사후 수치는 다르다.

    H1 (단측 검증) : 사전 수치가 사후 수치보다 더 크다.


분산 분석 (anova)

  • T분석과 마찬가지로, 독립변수가 비연속형 변수 (명목척도 / 서열척도), 종속변수가 연속형 변수 (등간척도 / 비율척도) 일 때 사용
  • 독립변수 집단이 3개 이상일 때 사용
  • F-분포 사용

독립변수 집단이 2개일 때도 아노바 사용 가능하며, t-분석을 한 것과 결과는 동일하게 나온다.

분산분석 가설 예시

H0 : 집단들의 평균은 모두 같다.

H1 : 집단들의 평균은 서로 다르다 (한 집단이라도 차이가 있을 경우, 영가설 기각하고 연구가설 채택)

분산분석의 원리

집단 간 분산 vs 집단 내 분산

만일, 집단 간 분산 > 집단 내 분산 : 집단 간 차이가 있다고 보고

집단 간 분산 < 집단 ‘내’ 분산 : 집단 간 차이가 크지 않다고 본다.

→ 실제 분석은 (집단 간 분산) / (집단 내 분산) 이 비율을 본다.

세 집단의 평균이 모두 다른지, 혹은 한 집단의 평균만이 다른지 확인하는 것 ⇒ 사후분석

  • 사후분석 : 어떤 집단 간 평균 차이가 발생하는지 알아보기 위한 분석 방법. 두 개씩 짝 지어 비교

    추가적 분석이기에 가설을 설정하지 않는다. 두 집단 간 비교이므로 t-분석 활용

분산분석의 종류

  1. 1-way ANOVA : 독립변수 1개, 종속변수 1개
  2. 2-way ANOVA : 독립변수 2개, 종속변수 1개
  3. 3-way ANOVA : 독립변수 3개, 종속변수 1개
    • 2-way 와 3-way에서는 독립변수 각각이 영향을 미치는지 뿐 만 아니라, 독립변수들이 합쳐져서 영향을 미치는지인 이 상호작용 효과도 알아볼 수 있다.
  4. ANCOVA : 독립변수 1개, 종속변수 1개, 통제변수 1개 이상
    • 독립변수가 종속변수에 미치는 영향이 ‘다른 변수’에 의해 달라질 경우. 이를 통제변수라고 하여, 독립변수가 종속변수에 미치는 독자적 영향을 알아보고자 할 때 이 ANCOVA 사용한다.
  5. MANOVA : 독립변수 1개, 종속변수 2개 이상. 종속변수들 간의 관계도 고려할 수 있음.
  6. MANCOVA : MANOVA + 통제변수 1개 이상.

회귀분석

  • 독립변수, 종속변수 둘 다 연속형 변수 (등간척도 / 비율척도) 일 때 사용
  • 추정방식 : OLS (ordinary least square) → 오차의 제곱을 최소화하는 직선

Y = b0 + b1* x + e

X : 독립변수, y: 종속변수

B0 : 절편

B1 : 기울기

E : 오차 (편차)

편차들의 제곱 최소화하는 직선.

  • 회귀분석의 대표가설

    • H0 : 독립변수가 종속변수에 미치는 영향 크기는 ‘0’이다 → 기울기가 0인지 아닌지.
    • H1 : (양측 검증) 독립변수가 종속변수에 미치는 영향 크기는 ‘0’이 아니다.
    • H1 : (단측 검증) 독립변수가 종속변수에 미치는 영향 크기는 ‘0’보다 크다.
  • 회귀분석의 특징

    1. 여러개의 독립변수를 포함할 수 있다.

      이 경우, 독립변수들은 서로 통제되어 자신의 독자적인 영향력으로 계산.

      이 말은 서로 함께 영향을 미치는 교집합 부분은 제외 → 즉, 변수들은 독립적임을 가정한다는 말인듯.

    2. 설명량 (R^2) : 독립변수들에 의해 설명되는 종속변수의 분산. 한마디로 하면 “설명량”

      → 따라서, R^2이 증가할수록 회귀식에서 설명되지 못하는 오차는 감소.

      이 회귀식이 얼마나 설명할 수 있는지를 의미 . R^2는 클 수록 좋은듯 !

      • 증가된 설명량 (R^2)를 이용해 독립변수의 포함 여부를 결정한다

        → 이 말은, 만일 변수 x1, x2, x3 만 있는 식에서 x4가 추가될 경우, 추가되기 전의 설명량과 추가된 이후의 설명량을 비교.

        만일 추가된 이후 설명량 (R^2) 이 증가할 경우 (증가량이 0이 아닐경우),

        X4에 의해 설명되는 것이 크다. 그럼 X4를 회귀식에 포함하는 것이 좋다.


로지스틱 회귀분석

회귀분석과 거의 비슷, but 종속변수가 비연속형 변수

정리하면,

  • 독립변수 : 연속형 변수 이지만, 종속변수는 비연속형 - 특히 이분형 변수인 경우 사용하는 분석방법

    → 이분형 변수 - 0과 1. 어떤 사건이 발생하거나 / 발생하지 않는 경우의 변수들.

    예) 물건을 산다 / 안산다.

  • 로그함수 모양으로 해야 오차가 적기에 로그함수 이용. 그래서 이름이 로지스틱 회귀분석

  • 오드비 (Odd Ratio) 사용.

    = p / (1-p)

    = 특정 사건 발생 확률과 발생하지 않을 확률 간의 비율

  • 로지스틱 회귀식 : 일반 회귀식 y = b0 + b1 * x 이 자리의 ‘y’ 대신 오드비에 자연로그를 취한 값을 대신 넣으면 됨.

    즉, ln(p / (1-p)) = b0 + b1 * x

** 그렇다면 회귀분석과의 차이는? 기울기 해석방법이 조금 다른 듯. 발생확률 / 발생하지 않을 확률 간 비교이기 때문.

B1 > 0 : x가 증가할수록, 특정사건이 발생하지 않을 확률보다, 발생할 확률이 더 높다 (1일 확률이 높다)

B1 < 0 : x가 증가할 수록, 특정사건이 발생할 확률보다, 발생하지 않을 확률이 더 높다 (0일 확률이 더 높다)

  • 로지스틱 회귀분석 대표 가설 → 회귀분석과 동일

  • 모형적합도

    → 로지스틱 회귀분석에서는 일반 회식분석에서 ‘설명량’을 활용한 것 과 달리, ‘모형적합도’ 개념 사용

    = 모형이 적절하게 만들어 졌는지를 보여주는 지표

    = 모형에 포함된 독립변수들에 의해 종속변수가 설명되는 부분 (설명량과 일맥상통하는 개념인듯, 다만 이분법적인 느낌)

    = 즉, 발생할 확률과 발생하지 않을 확률을 얼마나 (0과 1) 잘 설명하는지. 발생할 가능성으로 표현한다는 점이 일반 회귀분석곽 다름.

    예) 대표적으로 카이제곱수치 , -2log우도 등 사용된다고 함


조절효과와 매개효과

  • 독립변수와 종속변수 이외의 제3의 효과 고려하여 분석하는 방법
  1. 조절효과 : 독립변수가 종속변수에 미치는 영향이 조절변수에 의해 달라지는지 알아보는 분석
  • 영향을 미치면 화살표로 표시.

    예) 자율성 → 직무성과, 공정성은 이 화살표에 대해 ↑인 경우?

    = 이는 자율성이 직무성과에 영향을 미치며, 공정할수록 더욱 영향이 커지는 것을 의미. 공정성 = 조절변수. 이에 의해 영향의 크기가 달라질 수 있다.

  • 조절효과 유형 : 독립변수와 종속변수의 관계를 나타낸 그래프에서 기울기를 통해 파악 가능. 기울기가 클 수록 영향이 큼 의미

  1. 매개효과 : 독립변수와 종속변수 간의 직접적인 인과관계 이외에도 매개변수를 통한 간접적 인과관계가 존재하는지 알아보는 분석 방법
  • 독립변수 → 종속변수 이면서

    독립변수 → 매개변수 → 종속변수 로 영향을 끼치게 되는 경우.

  • 총 효과 = 직접효과 + 간접효과 (매개효과)

  • 예) 자율성 → 직무성과 이면서

    자율성 → 동기 → 직무성과 이렇게 될 수도.

  • 매개효과 유형

    1. 부분매개모형 : 독립변수 → 종속변수 &독립변수 → 매개변수 → 종속변수
    2. 완전매개모형 : 독립변수 → 매개변수 → 종속변수

구조방정식모형

다수준 분석