먼저 스타워즈 자료 분석 중 상호작용 분석이 필요한 부분이 나왔습니다. 원래 이 부분은 나중에 다루려고 해서 중간에 생각이 바뀌었어요. 이번 포스트에서는 상호작용의 의미와 실제로 어떻게 다루어야 하는지 알아보겠습니다.첨부 파일 interact.sav 파일 다운로드 내 컴퓨터 저장네이버 MYBOX에 저장첨부파일은 X, Y1, Y2, grp의 4가지 변수로 이루어진 자료입니다.먼저 X와 Y1의 관계를 살펴보겠습니다.무엇을 하려고 하는지, 눈에 보이신 분들도 있겠지만…… X와 Y1의 관계는 특별한 경향을 보이지 않습니다.선형 회귀 분석 결과도 Y1에 X는 유의하지 않은 것으로 나타납니다.하지만 grp 변수를 고려하면 상황이 달라집니다.어때요? grp 변수를 중심으로 보면 뚜렷한 경향을 보이고 있는 것을 알 수 있어요. 먼저 문장에서 선형 회귀를 Y=aX+b+error라고 했는데 위 그림을 보면 grp 변수에 따라서 a와 b가 달라졌다는 것을 알 수 있습니다.grp변수에 따라서 각각 회귀분석을 해보면grp 변수가 1인 경우 Y=0.970X+0.0402인 경우 Y=-1.034X+4.116입니다. 이 경우 grp에 따라 a와 b가 모두 달라지므로 상호작용을 고려해야 합니다. 대부분의 경우 논문을 쓸 때 변수를 보정하면 상호작용까지는 고려하지 않는다는 것을 알 수 있습니다.그럴 경우 어떻게 진행되는지 살펴보겠습니다. (이산된 형태의 grp 변수가 추가되므로 앞으로는 선형 회귀 대신 일반 선형 모델로 분석합니다.)선형 회귀에서 연속 변수 형태가 아닌 이산형 변수를 보정하려면 더미 변수로 전환해야 합니다. 그보다 일반 선형 모델에서 고정 요인으로 넣어주면 굳이 더미 변수화할 필요가 없습니다. (일반 선형 분석은 선형 회귀 + ANOVA입니다.)이것이 다른 논문에서 자주 변수를 보정해 주었다는 결과값입니다. Y=-0.032X+ 2.135-0.114(if grp=1)위의 회귀분석 결과를 시각화하면 바로 위의 그림과 같습니다. 기울기 a는 같고 절편인 b만이 차이를 보인다는 것을 알 수 있습니다.여기서 다중 회귀 분석에서 보정 변수를 추가하는 것은 기울기는 같고 절편이 다른 직선을 추가하는 것임을 알 수 있습니다. 하지만 상호작용을 고려하면 결과가 달라집니다.일반 선형 회귀 항목에 들어가서 grp와 X를 입력한 후 grp와 X의 상호작용 항목을 입력시킵니다.그 후 결과를 확인하면grp 변수가 1일 때와 2일 때 기울기 변수와 절편을 따로 계산합니다. if grp=1, (2.004-1.034)X+4.116-4.075 2, 2.004X+4.116상호작용을 고려할 필요가 있는 경우는 상당히 일반적으로 발생합니다. 의학 연구에서는 주로 성별과 인종이 상호작용을 일으키는 주요 원인이 됩니다. 위의 예에서 X와 Y1은 상호작용을 고려하지 않고 봤을 때 통계적으로 유의하지 않지만 grp라는 변수를 인식하는 순간 통계적으로 유의하게 됩니다. 대개 이런 관계는 논문에서도 밝히지 못하고 숨겨져 있는 경우가 많습니다. 이런 부분들을 명확히 한다면 그 자체로 좋은 논문이 될 수 있습니다.다음 예시를 살펴보겠습니다.grp 변수에 따른 X와 Y2 변수의 관계입니다. 아까 설명드린 부분을 생략하고 본론을 보면… Y=aX+b+error라는 식을 고려해 보면 두 직선의 기울기 a는 차이를 보이고 X가 0일 때 위치인 b는 차이가 없어 보입니다.grp가 1인 경우와 2인 경우 기울기 a의 차이는 0.97 vs.1.98로 상당히 큰 차이를 보이지만 절편 b인 경우는 0.03 vs. 0.115로 큰 차이는 없습니다. 이런 경우 모형에서 grp에 의한 절편의 차이를 보지 않고 기울기의 차이만을 고려할 수도 있을 것입니다.위의 보형에 비해서 아래의 모델의 설명력은 비슷하지만 투입된 변수의 수가 작고 더 좋은 모델입니다.그러나 SPSS의 경우 모형 간 비교가 너무 귀찮아요.원래는 수치로 어느 보형이 더 좋은지 통계적인 p-value를 찾을 수 있나요.그럼에도 불구하고 설명하자 양쪽 항목에서 조각 부분의 p-value는 주의하지 않습니다.다는 것은 조각 부분이 없어도 모형의 설명력이 그만큼 힘들다는 뜻입니다.그리고 상기의 모델에서 grp가 1때의 절편도 통계적으로 유의하지 않습니다.이것도 역시 없어도 큰 무리는 아니라는 것입니다. 그래서모형에서 절편을 제외하는 모형도 생각할 수 있습니다.R로 모형 비교한 결과입니다. 모형이 간단해져도(Model 1–>3) 모형의 설명력(Pr(Chi))은 차이가 없다(p-value 0.594, 0.266). SPSS와 결과 양식이 달라 보여서 어색할 수 있지만 익숙해지면 보기 쉬워집니다. 이렇게 비교할 수 있다고 하니 참고하시고 SPSS에서 사용할 경우 변수별로 p-value로 판단하는 것이 좋습니다. 첨부파일 star2.sav파일 다운로드 내 컴퓨터 저장네이버 MYBOX에 저장마지막으로 먼저 본 스타워즈 자료를 다시 한번 살펴보겠습니다. 먼저 자료와 동일하지만 이상치 및 결측치를 제외하고 키 140 기준으로 High라는 변수를 만들었습니다.마지막으로 먼저 본 스타워즈 자료를 다시 한번 살펴보겠습니다. 먼저 자료와 동일하지만 이상치 및 결측치를 제외하고 키 140 기준으로 High라는 변수를 만들었습니다.결과를 보면 온몸 장군(Hige=0)의 경우 mass=0.564*height-27.868로 큰 키 군의 경우 mass=0.834*height-72.661이지만, 저 키 군과 큰 키 군 a와 b의 차이가 통계적으로 유의하지 않습니다.(p-value 0.427,0.709)이 결과로 보면 낮은 키 군의 기울기 a와 절편 b가 모두 통계적으로 유의하지 않는 것이 아니기 때문에 최종 모델에서는 제외하는 것이 옳습니다.그러나 작은 키의 키 차이가 작지 않은 것, 그리고 예전의 자리에서 잔차 도표의 양상 등에서 하면, 실제로 의미 있는 차이가 나도록 보입니다.이런 경우 연구 대상자가 조금 더면 통계적으로도 유의된다고 생각됩니다.그동안 상호 작용에 대해서 배웠습니다.상호 작용은 솔직히 이해하기 쉬운 부분은 아닙니다.그러나 여러 차례 읽고 나면 앞으로의 연구에 매우 도움이 되는 개념인 것으로 숙지하는 게 좋겠죠.다음은 예정대로 정규 분포하지 않는 자료의 분석을 채택합니다.