기술통계와 추리통계

기술통계 : 대상 속성파악 by 수집한 자료 분석
1. 중심 경향 값 : 전체 자료를 대표할 수 있는 수치들
  - 평균, 중앙값, 최빈값
2. 분산도 : 전체 자료가 얼마나 퍼져 있는지를 알 수 있는 수치들
  - 분산 : 각 자료가 평균으로부터 떨어진 거리(편차)를 제곱한 수치들의 총합을 전체 자료 수로 나눈 수치
  - 표본편차 : 분산의 제곱근
3. 상관계수 : 두 변수 간 관계의 크기
4. 회귀계수 : 원인이 결과에 얼마나 영향을 미치는지 그 영향의 크기 (즉, 독립변수가 종속변수에 얼마나 영향을 미치는지!)
추리통계 : 표본의 기술통계를 이용해 모집단의 속성 유추
- 이 때, 확신할 수 없고 오류도 있을 수 있음
- 신뢰구간 : 추리통계에서 예측한 모집단 특성이 위치할 가능성이 높은 구간. 신뢰수준 95, 99 등에 따라 달라짐.
- 신뢰수준이 높아질 수록 정확성이 높아짐. 신뢰구간이 더 넓게 됨.

모집단과 표본

모집단 : 연구 / 분석이 이루어지는 전체 대상.
- 전수 조사가 쉽지 않기에 모집단 대표할 수 있는 표본 추출
표본 : 모집단의 일부. 모집단 속성 유추하는 데 사용
- 확률표본추출 방법 : 무작위로 표본 추출. 모집단 대표할 가능성이 높다
- 비확률표본추출 : 조사자의 판단에 의해 표본 추출. 대표성을 띄지 못할 수 있다.
  
  → 그럼 표본은 어떻게 뽑을까?
  1. 표본이 30 이상으로 충분히 클 때
    - 모집단의 분포와 상관없이, 표본은 정규분포를 따른다고 본다
    - 표본의 평균 = 모집단의 평균
    - 표본의 분산 = 모집단 분산 / 표본의 수 (n)
  2. 자유도 : 평균을 유지하면서 , 자유롭게 어떠한 값도 가질 수 있는 사례의 수 (N-1)
    - 검색을 통해 비유 예시를 찾아봤다.
      
      : 월화수목금 에 티셔츠 5장을 입는다면, 월화수목에 아무거나 4장 입을 수 있지만, 금요일에 입을 수 있는 티셔츠는 남은 한 장으로 정해져 있다.

척도

척도의 원칙
1. 포괄성 : 척도 안에 모든 경우의 수가 포함되어야 하는 원칙
2. 상호배타성 : 척도 안에 중복되는 경우의 수가 없어야 한다. (100만원 이하 / 100만원 이상 ~ → 중복됨)
척도의 유형
1. 명목척도 : 항목들이 상호배타적 특성만을 가진 척도 (예) 성별 - 여자, 남자)
2. 서열척도 : 명목척도 중 항목 간 서열이나 순위 존재. (예) 학력)
3. 등간척도 : 서열척도 중 항목 간 간격이 일정 (예) 전혀 만족 못함 . 거의 만족 못함. 보통 ..)
4. 비율척도 : 등간척도 중 아무것 도 없는 상태를 ‘0’으로 정할 수 있음. Nan 값을 0으로 표시 가능하냐 못하냐 이런 의미인듯
  - 예) 당신의 연령은 ? 항목에 없을 경우 ‘0’ 이렇게 할 수 있지만, 현재 온도는 ? 0도 이렇게 쓸 수 없다. 온도는 등간척도
  명목척도, 서열척도 → 이산형
  
  등간척도, 비율척도 → 연속형

도수분포표, 막대그래프, 히스토그램

도수분포표 : 자료 표로 정리, 특정 항목 / 범위에 해당하는 빈도수 나타냄
막대그래프 : 비연속형 변수에 사용 (명목척도, 서열척도), 각 항목의 빈도수 나타냄
히스토그램 : 연속형변수에 사용 (등간척도, 서열척도), 일정 범위에 속하는 빈도수 나타냄
- 막대그래프와 달리 직사각형이 붙어있음. X축은 연속형 변수이므로, 각 범위의 시작과 끝은 만난다는 것을 의미
선그래프 : 히스토그램의 끝 부분을 선으로 연결

데이터 특성에 따라 어떤 그래프 쓸지 잘 알아두자 ~

공분산과 상관계수

공분산 (covariance) : 두 변수가 함께 각자의 평균으로부터 멀어지는 정도

즉, 한 변수가 자신의 평균으로부터 멀어질 때 - 다른 변수가 자신의 평균으로부터 멀어지는 정도

(Ai - A평균)(Bi - B평균) 다 더하여 n으로 나눔

즉, 편차를 곱하여 서로 같이 변하는 정도를 알 수 있다.

범위 : -무한대 ~ +무한대
상관계수 (r) : 두 변수 간의 관계로, 하나의 변수가 변화함에 따라 다른 변수가 변화하는 정도를 의미

공분산 / A의 표준편차 * B의 표준편차 : 표준화 해주는 것임.

** 표준화 : 평균 0, 표준편차 1로 해주는 것.

범위 : -1 ~ 1 사이의 범위를 가짐

양의 상관관계 : 한 변수 증가에 따라 다른 변수도 증가

음의 상관관계 : 한 변수 증가에 따라 다른 변수는 감소

무의미한 상관관계

가설과 신뢰수준, 유의확률

영가설 (H0) : 연구가설과 반대되는 가설. 실제 분석이 이루어지는 가설
연구가설 (H1) : 분석을 통해 알아보고자 하는 내용으로 이루어진 가설

합쳤을 때 발생할 수 있는 모든 경우의 수 포함되어야.

예) H0 : 두 집단간 평균 차이가 없다. H1 : 두 집단간 평균 차이가 있다.

H0 : 변수1이 변수2에 아무런 영향을 미치지 못할 것. H1 : 유의미한 영향을 미칠 것이다.

유의확률 : 실제로는 영가설이 참임에도 불구하고, 영가설을 거짓(기각)으로 판단할 가능성. (P-value)

즉, 연구결과가 실제 현상을 반영하지 못할 가능성.
신뢰수준 : 실제로는 영가설이 참이고 & 분석결과도 영가설을 참 (채택)으로 판단할 가능성.

즉, 실제현상에서 발생하지 않는 연구가설을 기각할 가능성.

신뢰수준이 높아질수록 영가설이 채택될 가능성 높아짐. & 연구가설이 채택될 가능성이 낮아짐

→ why? 실제 현상에서는 영가설의 현상이 일반적이여서 그런가?

= 우리 정규분포 모양의 그래프 그리면, 가운데가 영가설인거 기억나지? 95% vs 99% 하면 당연히 99% 면적이 영가설, 더 넓겠지?

참고! 무죄추정의 원칙 이라고, 아무리 대립가설을 주장하고 싶어도 ‘영가설이 진실’이라는 원칙을 가정으로 연구한다고 함.

즉, 신뢰수준 높아질수록 연구가설이 실제현상 반영할 가능성 높아짐.

신뢰수준 95% (유의확률 0.05 미만) : *

99% (유의확률 0.01로 미만) : **

99.9% (유의확률 0.001 미만) : ***

90% (유의확률 0.1 미만) : 십자가 모양, 양측검정 관련

양측검정과 단측검정

양측 검증 : 방향성 고려 x 연구가설 (H1) 설정할 때 사용하는 검증법
- 예) 두 집단 간 평균에는 차이가 있을 것이다
- 예) 변수1이 변수2에 미치는 영향의 크기는 ‘0’이 아니다
단측 검증 : 방향성 고려 연구가설 설정.
- 예) 집단1 보다 집단2의 평균이 더 클 것이다 (더 작을 것이다.)
- 예) 변수1이 변수2에 미치는 영향의 크기는 ‘0’보다 클 것이다 (작을 것이다)

양측 검증보다 단측 검증일 경우 연구가설 (H1)이 채택될 가능성이 높다.

→ 이 말이 무슨 말인고 하니,

같은 유의수준 0.05라도 양측이면 2.5% 95% 2.5% 인데

단측이면 95% 5% . 2.5 < 5 이니까

이론에 따라 양측 / 단측 검정 설정한다.

t분석

독립변수가 비연속형 변수 (명목척도 / 서열척도) ,

종속변수가 연속형 변수 (등간척도 / 비율척도) 일 때 사용
독립변수 집단이 2개 이하.
T분표 이용

독립변수가 1개의 집단인지 2개인지에 따라 방법이 달라진다.

일표본 t-분석 : 하나의 모집단에서 표본 추출할 때 사용.
- 표본평균이 예측한 특정수치와 같은지 다른지 검증할 때 사용
- 예) H0 : 국내 중학생 평균 키는 170.
  
  H1. (양측 검증) : 국내 중학생 평균키는 170이 아니다
  
  H1. (단측 검증) : 국내 중학생 평균키는 170보다 크다
독립표본 t-분석 : 두 개의 모집단에서 각 각 표본 추출할 때 사용.
- 두 집단 표본들의 평균이 서로 같은지 다른지 검증
- 예) H0 : 두 집단의 평균은 같다.
  
  H1 (양측 검증) : 두 집단의 평균은 다르다.
  
  H1 (단측 검증) : 집단1의 평균은 집단2 평균보다 크다.
- 두 집단의 분산이 동일한지가 중요. 대부분의 프로그램은 분산의 동질성 검증을 자동으로 계산해줌.
대응표본 t-분석 : 하나의 모집단에서 표본 추출, but 같은 표본에서 두 번의 측정이 이루어질 경우 사용

측정이 2번 이루어져서 두 집단이 다른 집단 같아보이지만, 측정은 하나의 집단에서 이루어졌기에 위 두 방법을 사용할 수 없다.
예) H0 : 사전 수치와 사후 수치는 같다.

H1 (양측 검증) : 사전 수치와 사후 수치는 다르다.

H1 (단측 검증) : 사전 수치가 사후 수치보다 더 크다.

분산 분석 (anova)

T분석과 마찬가지로, 독립변수가 비연속형 변수 (명목척도 / 서열척도), 종속변수가 연속형 변수 (등간척도 / 비율척도) 일 때 사용
독립변수 집단이 3개 이상일 때 사용
F-분포 사용

독립변수 집단이 2개일 때도 아노바 사용 가능하며, t-분석을 한 것과 결과는 동일하게 나온다.

분산분석 가설 예시

H0 : 집단들의 평균은 모두 같다.

H1 : 집단들의 평균은 서로 다르다 (한 집단이라도 차이가 있을 경우, 영가설 기각하고 연구가설 채택)

분산분석의 원리

집단 간 분산 vs 집단 내 분산

만일, 집단 간 분산 > 집단 내 분산 : 집단 간 차이가 있다고 보고

집단 간 분산 < 집단 ‘내’ 분산 : 집단 간 차이가 크지 않다고 본다.

→ 실제 분석은 (집단 간 분산) / (집단 내 분산) 이 비율을 본다.

세 집단의 평균이 모두 다른지, 혹은 한 집단의 평균만이 다른지 확인하는 것 ⇒ 사후분석

사후분석 : 어떤 집단 간 평균 차이가 발생하는지 알아보기 위한 분석 방법. 두 개씩 짝 지어 비교

추가적 분석이기에 가설을 설정하지 않는다. 두 집단 간 비교이므로 t-분석 활용

분산분석의 종류

1-way ANOVA : 독립변수 1개, 종속변수 1개
2-way ANOVA : 독립변수 2개, 종속변수 1개
3-way ANOVA : 독립변수 3개, 종속변수 1개
- 2-way 와 3-way에서는 독립변수 각각이 영향을 미치는지 뿐 만 아니라, 독립변수들이 합쳐져서 영향을 미치는지인 이 상호작용 효과도 알아볼 수 있다.
ANCOVA : 독립변수 1개, 종속변수 1개, 통제변수 1개 이상
- 독립변수가 종속변수에 미치는 영향이 ‘다른 변수’에 의해 달라질 경우. 이를 통제변수라고 하여, 독립변수가 종속변수에 미치는 독자적 영향을 알아보고자 할 때 이 ANCOVA 사용한다.
MANOVA : 독립변수 1개, 종속변수 2개 이상. 종속변수들 간의 관계도 고려할 수 있음.
MANCOVA : MANOVA + 통제변수 1개 이상.

회귀분석

독립변수, 종속변수 둘 다 연속형 변수 (등간척도 / 비율척도) 일 때 사용
추정방식 : OLS (ordinary least square) → 오차의 제곱을 최소화하는 직선

Y = b0 + b1* x + e

X : 독립변수, y: 종속변수

B0 : 절편

B1 : 기울기

E : 오차 (편차)

편차들의 제곱 최소화하는 직선.

회귀분석의 대표가설
- H0 : 독립변수가 종속변수에 미치는 영향 크기는 ‘0’이다 → 기울기가 0인지 아닌지.
- H1 : (양측 검증) 독립변수가 종속변수에 미치는 영향 크기는 ‘0’이 아니다.
- H1 : (단측 검증) 독립변수가 종속변수에 미치는 영향 크기는 ‘0’보다 크다.
회귀분석의 특징
1. 여러개의 독립변수를 포함할 수 있다.
  
  이 경우, 독립변수들은 서로 통제되어 자신의 독자적인 영향력으로 계산.
  
  이 말은 서로 함께 영향을 미치는 교집합 부분은 제외 → 즉, 변수들은 독립적임을 가정한다는 말인듯.
2. 설명량 (R^2) : 독립변수들에 의해 설명되는 종속변수의 분산. 한마디로 하면 “설명량”
  
  → 따라서, R^2이 증가할수록 회귀식에서 설명되지 못하는 오차는 감소.
  
  이 회귀식이 얼마나 설명할 수 있는지를 의미 . R^2는 클 수록 좋은듯 !
  - 증가된 설명량 (R^2)를 이용해 독립변수의 포함 여부를 결정한다
    
    → 이 말은, 만일 변수 x1, x2, x3 만 있는 식에서 x4가 추가될 경우, 추가되기 전의 설명량과 추가된 이후의 설명량을 비교.
    
    만일 추가된 이후 설명량 (R^2) 이 증가할 경우 (증가량이 0이 아닐경우),
    
    X4에 의해 설명되는 것이 크다. 그럼 X4를 회귀식에 포함하는 것이 좋다.

로지스틱 회귀분석

회귀분석과 거의 비슷, but 종속변수가 비연속형 변수

정리하면,

독립변수 : 연속형 변수 이지만, 종속변수는 비연속형 - 특히 이분형 변수인 경우 사용하는 분석방법

→ 이분형 변수 - 0과 1. 어떤 사건이 발생하거나 / 발생하지 않는 경우의 변수들.

예) 물건을 산다 / 안산다.
로그함수 모양으로 해야 오차가 적기에 로그함수 이용. 그래서 이름이 로지스틱 회귀분석
오드비 (Odd Ratio) 사용.

= p / (1-p)

= 특정 사건 발생 확률과 발생하지 않을 확률 간의 비율
로지스틱 회귀식 : 일반 회귀식 y = b0 + b1 * x 이 자리의 ‘y’ 대신 오드비에 자연로그를 취한 값을 대신 넣으면 됨.

즉, ln(p / (1-p)) = b0 + b1 * x

** 그렇다면 회귀분석과의 차이는? 기울기 해석방법이 조금 다른 듯. 발생확률 / 발생하지 않을 확률 간 비교이기 때문.

B1 > 0 : x가 증가할수록, 특정사건이 발생하지 않을 확률보다, 발생할 확률이 더 높다 (1일 확률이 높다)

B1 < 0 : x가 증가할 수록, 특정사건이 발생할 확률보다, 발생하지 않을 확률이 더 높다 (0일 확률이 더 높다)

로지스틱 회귀분석 대표 가설 → 회귀분석과 동일
모형적합도

→ 로지스틱 회귀분석에서는 일반 회식분석에서 ‘설명량’을 활용한 것 과 달리, ‘모형적합도’ 개념 사용

= 모형이 적절하게 만들어 졌는지를 보여주는 지표

= 모형에 포함된 독립변수들에 의해 종속변수가 설명되는 부분 (설명량과 일맥상통하는 개념인듯, 다만 이분법적인 느낌)

= 즉, 발생할 확률과 발생하지 않을 확률을 얼마나 (0과 1) 잘 설명하는지. 발생할 가능성으로 표현한다는 점이 일반 회귀분석곽 다름.

예) 대표적으로 카이제곱수치 , -2log우도 등 사용된다고 함

조절효과와 매개효과

독립변수와 종속변수 이외의 제3의 효과 고려하여 분석하는 방법

조절효과 : 독립변수가 종속변수에 미치는 영향이 조절변수에 의해 달라지는지 알아보는 분석

영향을 미치면 화살표로 표시.

예) 자율성 → 직무성과, 공정성은 이 화살표에 대해 ↑인 경우?

= 이는 자율성이 직무성과에 영향을 미치며, 공정할수록 더욱 영향이 커지는 것을 의미. 공정성 = 조절변수. 이에 의해 영향의 크기가 달라질 수 있다.
조절효과 유형 : 독립변수와 종속변수의 관계를 나타낸 그래프에서 기울기를 통해 파악 가능. 기울기가 클 수록 영향이 큼 의미

매개효과 : 독립변수와 종속변수 간의 직접적인 인과관계 이외에도 매개변수를 통한 간접적 인과관계가 존재하는지 알아보는 분석 방법

독립변수 → 종속변수 이면서

독립변수 → 매개변수 → 종속변수 로 영향을 끼치게 되는 경우.
총 효과 = 직접효과 + 간접효과 (매개효과)
예) 자율성 → 직무성과 이면서

자율성 → 동기 → 직무성과 이렇게 될 수도.
매개효과 유형
1. 부분매개모형 : 독립변수 → 종속변수 &독립변수 → 매개변수 → 종속변수
2. 완전매개모형 : 독립변수 → 매개변수 → 종속변수

Data Science Blog

[통계 기본] 패캠 데이터 분석 패키지 :: 통계 기본 총 정리