🔍 가설검정? 그게 왜 중요한 건데?
통계 공부를 하다 보면 꼭 등장하는 개념, 바로 가설검정이다.
솔직히 처음 들었을 땐 좀 어렵게 느껴졌다. "귀무가설이니 대립가설이니..." 개념부터 정리가 안 됐으니까.
하지만 이걸 제대로 이해하면 실험 결과를 해석하는 눈이 완전히 달라진다.
그래서 지금부터 이야기해보려고 한다. 특히 '유의수준(α)'과 p-값의 의미에 대해.
🧠 가설검정의 기본 : 귀무가설과 대립가설
가설검정은 말 그대로 어떤 주장이 통계적으로 타당한지를 검증하는 과정이다.
여기엔 두 가지 가설이 항상 등장한다.
- 귀무가설(H₀): '차이가 없다', '효과가 없다'는 식의 보수적인 전제
- 대립가설(H₁): '차이가 있다', '효과가 존재한다'는 주장의 반대편
예를 들어, "신약이 기존 약보다 효과가 있다"를 검정하려면
귀무가설은 "신약과 기존 약은 효과에 차이가 없다"가 된다.
우리는 이 귀무가설을 기각할 수 있느냐를 중심으로 판단하게 된다.
⚠️ 제1종 오류와 유의수준 α
자, 이제 중요한 개념 등장.
바로 제1종 오류(Type I Error).
이건 귀무가설이 사실인데도 우리가 그것을 기각하는 실수다.
다시 말해, 원래는 '효과 없음'이 진실인데, 우리가 통계적으로는 '효과 있다'고 결론 내려버리는 오류.
그리고 이 제1종 오류를 범할 확률을 우리는 유의수준(α)이라고 부른다.
가설검정에서 가장 많이 쓰는 값은 0.05, 즉 5%의 오차를 허용한다는 것이다.
이 말은 곧, 20번 실험을 하면 1번쯤은 잘못된 결론을 낼 수도 있다는 뜻이다.
정확도를 더 중요시할 경우엔 0.01(1%) 같은 더 낮은 유의수준을 설정하기도 한다.
🧪 p-값과 유의수준의 관계
많은 사람들이 헷갈려하는 부분이 바로 p-값(p-value)과 유의수준의 관계다.
요약하자면 이렇다:
- p-값 < α: 유의수준보다 작으면 → 귀무가설 기각! (통계적으로 유의미함)
- p-값 ≥ α: 유의수준보다 크면 → 귀무가설 기각 못 함 (증거 불충분)
즉, p-값은 '귀무가설이 맞다는 전제하에 지금처럼 극단적인 데이터가 나올 확률'을 의미한다.
그래서 p-값이 작을수록, '귀무가설 맞는 거 아닌 것 같은데...'라는 생각이 드는 거다.
결국 유의수준은 이 판단을 내리는 기준점 역할을 한다.
📉 유의수준은 왜 0.05일까?
정답은 없다.
0.05는 경험적으로 가장 널리 쓰이는 관례적 수치일 뿐이다.
그러나 여기에는 논리가 있다.
- 너무 낮게(예: 0.001) 설정하면 → 귀무가설을 기각하기 어려워지고
- 너무 높게(예: 0.1) 설정하면 → 엉뚱한 가설을 받아들일 위험이 커진다.
결국 유의수준은 상황과 판단에 따라 조정 가능한 값이다.
신약 개발처럼 실수가 크나큰 결과를 초래하는 경우에는 더 낮은 유의수준을 선택하고,
마케팅 캠페인처럼 실험 비용이 낮고 리스크가 작으면 조금 높은 유의수준도 가능하다.
🎯 유의수준의 결정 기준 : '귀무가설에 대한 신뢰'
사실 유의수준은 어떤 확신을 기반으로 설정하느냐에 달려 있다.
- 귀무가설이 참일 가능성이 높다고 생각된다면 → 낮은 유의수준(α = 0.01)
- 대립가설이 더 설득력 있다고 생각된다면 → 조금 높은 유의수준(α = 0.1)
즉, 유의수준은 주관적인 판단이 개입된 실용적 수치다.
완전한 수학이 아니라, 경험과 리스크를 반영한 통계적 판단 기준이라고 보면 된다.
📌 p-값과 유의수준을 오해하지 말자
여기서 꼭 짚고 넘어가야 할 오해 몇 가지:
- p-값은 귀무가설이 맞을 확률이 아니다.
→ p는 '지금의 데이터가 나올 확률'이지, 가설의 참/거짓을 직접 말해주지 않는다. - p-값이 작다고 무조건 의미 있는 건 아니다.
→ 표본 크기가 너무 크면 의미 없는 차이도 유의해질 수 있다. - p-값이 크다고 가설이 옳다는 것도 아니다.
→ 기각하지 못했을 뿐, 귀무가설이 맞다는 '확정'은 아님.
💬 마무리하며 : 통계는 단정이 아니라 '판단'이다
나는 통계를 처음 접했을 때 너무 수학처럼 다가와서 겁부터 났다.
근데 가만히 들여다보니, 이건 사실 '판단의 기술'이었다.
확률적 사고를 통해 더 나은 선택을 하도록 돕는 도구였던 거다.
그래서 이제는 p-값이 작다고 무조건 '오~ 의미 있네' 하고 받아들이지 않는다.
유의수준을 어떻게 설정했는지, 샘플 크기는 어떤지, 제1종 오류의 리스크는 어떤지,
이런 것들을 종합적으로 보고 나서 판단한다.
그게 바로 성숙한 통계적 사고 아닐까.
그리고 이 글을 읽고 있는 당신도, 지금 그 첫걸음을 뗀 거다.
'기술사의 품질 수행록' 카테고리의 다른 글
8D 리포트, 품질의 위기를 구조화된 기회로 바꾸는 도구 (4) | 2025.05.01 |
---|---|
자동차 개발 프로세스 완전 정리 : Model Fix부터 SOP까지의 전 과정 (1) | 2025.04.30 |
ISO 9001:2015, 품질경영의 시작을 다시 보다 (1) | 2025.04.28 |
📌 정규분포, 통계의 중심을 말하다 (0) | 2025.04.22 |
IATF 16949 vs VDA 6.3 : 자동차 품질 관리의 두 축을 비교하다 (1) | 2025.02.10 |