03. 통계분석기법 용어 정리
1. 빈도분석
1)개 요- 각 변수 값에 속한 분포의 특성을 찾아내는 분석기법 - 도수분포표, 집중경향치, 분산도, 히스토그램의 구성
2)기본원리- 도수분포표 - 빈도, 퍼센트, 유효비율, 누적백분율 등의 도표 - 집중경향치(central tendency) - 최빈값(mode), 중위수(median), 평균(mean) - 분산도(dispersion) - 범위(range), 변량(variance), 표준편차(standard deviation), 평균의 표준오차(S.E. mean)
3)사용방법- 통계분석(S)-> 기초통계(U)-> 빈도분석(U)-> 변수선택-> 통계량(S) -> 계속-> - 챠트도표(C)-> 계속-> 형식(F)-> 계속-> 완료
4)해석요점- 도수분포표 - 빈도, 퍼센트, 유효비율, 누적백분율 등의 도표 - 집중경향치 - 최빈값, 중위수, 평균 - 분산도 - 범위, 변량, 표준편차, 평균의 표준오차(S.E. mean)
2. 기술통계분석
1)개 요- 자료의 필요통계량을 간단히 산출하는 분석법. 요약통계량과 Z-점수 계산
2)기본원리- 기술통계량 - 평균, 표준편차, 최소값, 최대값, 빈도수, 분산, 범위, 평균 표준오차, 왜도, 첨도
3)사용방법- 통계분석(S)-> 기초통계(U)-> 기술통계-> 변수선택-> Z Score 고려-> 옵션(o)-> 계속-> 확인
4)해석요점- 평균, 표준편차, 최소값, 최대값, 빈도수, 분산, 범위, 평균 표준오차, 왜도, 첨도
3. 교차분석
1)개 요- 범주형 변수인 명목/서열자료의 변수간 상관관계인 독립성과 연관성의 분석
2)기본원리- 상관관계의 가설검증 - 카이제곱 검증, phi계수, Cramer V 및 분할계수 사용 -X2의 값 크면 -변수간 상관관계 높고 관찰과 기대빈도간 차이 큼
3)사용방법- 통계분석(S)-> 기초통계(U)-> 교차분석(C)-> 변수선택(행,열)-> 통계량(S)-> 계속-> 셀선택(C)-> 계속-> 형식(F)-> 계속-> 확인
4)해석요점- 귀무가설 선택, 연구가설 기각 : x2계산치 유의도 ≥≥ αα값(0.05) - 변수간 독립적 phi계수, Cramer V, 분할계수 - 0.20 이하(경미한 상관), 0.20-0.40(낮은 상관), 0.40-0.70(상당한 상관), 0.70-0.90(높은 상관), 0.90이상(매우 높은 상관)
4. 신뢰도분석
1)개 요- 동일개념을 독립 측정방법에 의한 측정결과가 비슷한지의 일관성의 측정 - 설문지의 신뢰성 측정과 요인분석시 추출인자의 신뢰성 측정
2)기본원리- 반복측정법 - 동일대상의 반복측정시에 유사/동일한 결과가 있도록 하는 측정 - 측정오차분석법 - 측정상에 측정오차의 정도 파악. 측정오차 적음- 자료신뢰도 증가 - 측정도구검증법 - 신뢰성의 근본 분석
3)사용방법- 통계분석(S)-> 척화도분석(A)-> 신뢰도분석(R)-> 변수선택-> 모형(M)선택-> 통계분석(S)-> 계속-> 실행
4)해석요점- 알파값 ; 신뢰도계수Cronbach's x값) > 0.6 - 신뢰도 존재 - 해당변수(A) 제거 문자값 > αα값 - A변수 제거시 신뢰도 증대 - F값과 확율(P) ; F값< 유의도(αα=0.01, 0.05) - 귀무가설 기각, 연구가설 채택
5. 상관관계분석
1)개 요- 분석대상 변수들간의 관련정도, 관계의 방향(정(+)의 방향, 부(-)의 방향), 상관계수에 대한 가설의 검증
2)기본원리- Pearson, Spearman의 상관계수(r) ; -1≤≤r≤≤1, r=1(완벽상관), r=0(무상관) - 단순상관관계 - 두 변수간 상관관계, 다중상관관계 - 하나의 변수와 둘 또는 두 개 이상 변수간 상관, 편상관관계 - 제3의 변수 통제하에 순수하게 두 변수간의 상관관계의 표현
3)사용방법- 단순/다중상관관계 : 통계분석(S)-> 상관분석(C)-> 이변량 상관계수(B)-> 상관계수,유의성검정 표시-> 옵션(O)-> 계속-> 확인 - 편상관관계 : 통계분석(S)-> 상관분석(C)-> 편상관계수(R)-> 변수선택(V)-> 통제변수(C)-> 옵션(O)-> 통계량선택-> 계속-> 확인
4)해석요점- 가설검증 : 귀무가설 상관계수 = 0 - 귀무가설 기각, 변수간 상관관계 존재 - 상관계수: r=1 완전상관, r=0 무상관, 약한 상관 0.0-0.3, 보통상관0.3-0.7, r.>0.7 강한 상관
6. 회귀분석
1)개 요- 종속변수와 독립변수의 관련성의 강도 파악 - 독립변수 값의 변화에 따른 종속변수 값의 변화를 예측하는 데 사용
2)기본원리- 선형의 회귀방정식을 도출하여 종속변수를 예측 - 회귀방정식 ; 단순회귀 - Y(종속변수) = a + b1x(독립변수) + e(오차) - 다중회귀식 - Y = a + b1x1 + btxt + e
3)사용방법- 단순회귀분석 : 통계분석(S)-> 회귀분석(R)-> 선형(L)-> 종속변수(D)-> 독립변수(I)-> 방법(M)-> 케이스 설명(C)-> 분석 선택사항(S)-> 계속-> 확인
4)해석요점- 회귀식의 성립여부 판정 : 자유도와 신뢰수준(95%) 계산된 F값> 기준 F값 - 통계적 의의존재(회귀식 성립). 변량분석 F값 < 유의수준 F값 0.05 - 회귀식 성립 - 상관성 : r=1 완전상관, r=0 무상관, 약한 상관 0.0-0.3, 보통상관0.3-0.7, r.>0.7 강한 상관 - 적합도 : 상관성(multiple)의 제곱값인 적합도(R square) 값 판단 - 통계적 의미변수 : sig t 값 < 0.05 - 독립변수와 종속변수는 통계적 의미존재 - 표준화된 회귀계수(beta)의 절대값이 큰 변수일수록 설명력이 높은 변수
7. T-검정
1)개 요- 독립된 두 집단간의 평균의 차이가 통계적으로 유의한 지를 검증
2)기본원리- T값 (제1평균-제2평균/표준오차)과 자유도를 구한후 가설검증 - 신뢰수준 결정(95%), 신뢰수준의 T값의 T분포표에서 구함. 계산된 T값> 기준 T값 - 통계적인 유의미한 차이 존재
3)사용방법- 통계분석(S)-> 평균비교(M)-> 독립표본 T검정(T)-> 검정변수(T)선택-> 집단변수(G) 선택-> 집단정의(D)-> 계속-> 옵션(O)-> 계속-> 확인
4)해석요점- 집단의 동질성 여부판단 : F값> P값(95% 신뢰수준) - 집단이 동질적 - T 검정 : T 검정도 값<0.05 - 95%의 신뢰수준 귀무가설 기각, 연구가설 채택
8. 분산분석
1)개 요- 두 집단 이상의 평균 차이를 검증하는 데 사용, 일원분산분석과 다원분산분석
2)기본원리- 종속변수 전체분산 가운데 독립변수와 함께하는 분산이 어느 정도인지를 측정함. - 요인분산 분석(두 변수의 분산효과 분석)과 공분산 분석(외생변수 효과 통제와 나머지 집단간 평균차이의 검증)
3)사용방법- 일원분산분석 : 통계분석(S)-> 평균비교(M)-> 일원배치 분산분석(O)-> 종속변수(D)-> 요인선택(F)-> 대비(C)클릭-> 계속-> 사후분석(post hoc..) - 단일요인 분산분석 : 통계분석(S)-> 일반선형모형(G)-> 단순요인 분산분석(S)-> 종속변수(D)-> 요인선택(F)-> 범위지정(E)-> 계속-> 공변량(C)-> 옵션(O)-> 계속
4)해석요점- 가설검증 : 귀무가설(u1=u2= --uk) - F값 < 0.05 신뢰수준 95% 귀무가설 기각, 연구가설 채택 -상호작용(독립변수간 관련성 검증) - F값 > 0.05 95% 신뢰수준 독립변수간 상호작용 존재
9. 다변량분석
1)개 요- 종속변수가 2개 이상시 종속변수간 평균값의 차이 검증, 독립변수가 어떤 종속변수에 더 많은 영향을 미치는 지 파악
2)기본원리- 독립변수의 종속변수에 대한 공헌도와 종속변수들간의 상관관계를 고려하여 분석하는 기법
3)사용방법- 통계분석(S)-> 일반선형모형(G)-> GLM-다변량(M)-> 종속변수(D)-> 모수요인(F)-> 공변량(C)-> 대비(N)-> 모형선택(F)-> 계속옵션(O)-> 계속-> 확인
4)해석요점- 메노바 모델 성립에 관한 규정 : Pillai 값 이용 - 통계적 의미 존재 - 분석가능 - 분산의 공분산 동질성검증 : Box M값을 F값과 카에제곱값 환찬 > 유의수준(P>0.05) - 산포도 행렬 동질성 구비 - 종속변수에 대한 독립변수의 영향력 검증 : sig. F값 < 유의수준 0.05 - 종속변수는 독립변수에 영향 받음(통계적 의미 존재) - 종속변수간 상관관계 검증
10. 판별분석
1) 개 요- 독립변수의 역학관계를 바탕으로 종속변수(집단구분)를 추정하는 통계기법 - 집단 판별의선형판별함수 생성과 집단구분에 영향 미치는 변수 발견
2)기본원리- 정량자료의 독립변수를 이용하여 명목자료의 독립변수집단의 구분시에 오류를 최소화하는 함수 즉 판별식의 발견
3)사용방법- 통계분석(S)-> 분류분석(Y)-> 판별분석(D)-> 집단변수(G)-> 범위지정(D)-> 독립변수(I)-> 통계분석(S)-> 분류(C)-> 변수저장-> 확인
4)해석요점- Wilks lamda(그룹간 평균차 분석도구) : 평균차가 없음 1, 차이가 큼 0. - 고유값(Elgen value) : 클수록 좋은 판별함수 - cannonical correlation(eta 값) : 높을수록 판별함수 설명력 증대 - tolerance level(독립변수의 선형적 관계표현) : 크면 독립변수의 추가와 설명력 의미- 신변수 추가 - standardize canonical determinant function coeefient : 평균 0, 표준편차1의 표준판별함수. 종속변수와 가장밀접한 변수의 파악
11. 요인분석
1)개 요- 변수들 상호간의 상호의존도를 분석하여 서로 유사한 변수들 끼리 묶어주는 방법
2)기본원리- 변수를 몇 개의 공통요인으로 묶어 자료요약, 변수구조 파악, 불필요한 변수제거, 측정도구의 타당성 검증, 추가분석에 요인점수 인용, 대상을 묶는 데 유용성 등의 기능 제공
3)사용방법- 통계분석(S)-> 데이터 축소(D)-> 요인분석(F)-> 변수선택(V)-> 기술통계(D)-> 요인추출(E)-> 요인회전(T)-> 요인점수(S)-> 옵션(O)-> 계속-> 확인
4)해석요점- 상관행렬 파악, 공통성(communality)의추출, 변수들의 공분산 및 고유치 - 고유치 스크리 도표, 회전전의 성분행렬, 회전된 성분행렬, 성분변환행렬, 회전공간의 성분도표 검토, 성분점수 계수행렬
12. 군집분석
1)개 요- 대상 속성들의 유사한 성향을 바탕으로 동질적인 집단으로 묶어 동일집단내에 속하는 공통특성을 찾음.
2)기본원리- 변수들의 유사성 평가시 오류를 피하기 위한 변수선정이 중요한 문제 - 군집화의 공통원칙은 군집내 대상들간 유사성의 극대화, 군집간 유사성은 극소화 계층적 군집화 방법이 보편적이며,
3)사용방법- 통계분석(S)-> 분류분석(Y)-> 계층적 군집분석(H)-> 변수선택(V)-> 통계량(T)-> 도표(O)-> 방법(M)-> 계속-> 저장-> 확인
4)해석요점- 상관계수(coefficient)가 클수록 대상 속성들이 들어 있는 군집간의 이질성이 큼.
A. 하나의 변수에 대한 분석 - 기술적 분석
척도의 종류 |
명목, 서열척도(질적분석) |
구간, 비율척도(양적분적) |
통계량 |
비율, 최빈치, 사분위, 범위, 첨도, 왜도 등 |
평균, 표준편차, 최빈치, 첨도, 왜도 등 |
B. 두 변수들간의 분석
|
독립변수 |
종속변수 |
적용 가능한 통계기법 |
다변량 분석 |
명목 |
명목 |
카이자승, 빈도분석 |
명목 |
구간 |
T-test, 분산분석(ANOVA, F 검정), 회귀분석(더미변수 이용) |
구간 |
명목 |
Logit 모형, Proit 모형 |
구간 |
구간 |
상관분석, 회귀분석, 평상관계수 |
명목 |
명목 |
로그선형모형 |
명목 |
구간 |
MANOVA |
구간 |
명목 |
로지스틱 분석, 판별분석 |
구간 |
구간 |
다변량 회귀분석 |
독립변수 종속변수 구분이 없는경우 |
주성분분석, 요인분석, 군집분석 |
척도의 특징과 척도간의 관계
서열척도로부터 얻어진 자료로는 극히 제한된 분석방법을 적용할 수밖에 없으므로 되도록 등간척도 이상의 자료를 얻고자 노력하여야 한다. 척도에 따라 통계분석기법은 크게 모수통계와 비모수통계로 나누어 볼 수 있다. 모수통계는 등간척도나 비율척도로 측정된 경우에 적용할 수 있는 기법이고, 비모수통계 기법은 변수가 명목척도나 서열척도로 측정된 경우에 적용할 수 있는 기법이다.
척도 |
비교방법(숫자부여방법) |
평균의 측정 |
적용가능분석방법 |
예 |
명목척도 |
확인, 분류 |
최빈치 |
빈도분석 비모수통계 교차분석 |
성별분류 상품유형별분류 시장세분구역분류 |
사열척도 |
순위비교 |
중앙값 |
서열상관관계 비모수통계 |
상표선호순위, 상품품질순위도 사회계층, 시장지위 |
등간척도 |
간격비교 |
산술평균 |
모수통계 |
태도, 의견, 온도, 광고인지도 상호선호도, 주가지수 |
비율척도 |
절대적 크기 비교 |
기하평균, 조화평균 |
모수통계 |
매출액, 구매확률, 무게 소득, 나이, 시장점유율 |