디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

통계분석을 이용한 연구의 두가지 형태 - 관측연구와 실험연구

통갤러(141.214) 2023.11.30 05:14:47
조회 146 추천 0 댓글 1
														

통계분석을 이용한 연구를 크게 두 가지 분류할 수 있다.

첫번째는 관측연구 (observational study) 이고, 둘째는 실험연구 (experimental study)이다.

이 두 연구형태는 여러가지 차이점이 있지만 통계이론과 관련된 큰 차이점은 변동의 근원(source of randomness)이다.


관측연구에서는 대개 특정한 모집단이 있고, 그 모집단에서 표본을 뽑는 과정에서 변동이 발생한다. 예를 들어 10만명의 사람이 포함된 모집단에서 1000명을 뽑아서 모집단에 대한 추론을 하면 10만에서 1000명을 뽑는 랜덤 샘플링 방법에 따라 최적의 추정량이나 통계방법이 달라진다. 가장 단순한 Simple Random Sampling도 있고, 층화추출(stratified sampling)이나 포아송 샘플링 (poisson sampling) 등등 여러가지 방법이 있다. 이에 대한 이론을 연구하는 분야가 표본조사론 (survey sampling)이다. 하지만, 현실에서는 단순히 무한모집단에서 독립이고 같은 분포를 가진 (independent and identically distributed, iid) 표본을 뽑았다는 가정하에 만들어진 모수적 방법을 이용해서 분석하는 경우가 대부분이다. t검정, ANOVA, 회귀분석 등이 이에 속한다. 유한모집단으로 부터 뽑힌 표본은 iid 표본이 아니라는 점에서, 모수적 방법은 관측연구에서 발생하는 변동을 정확히 반영하는 모형은 아니다. 그러나, 모집단이 크기가 크고 표본 크기가 모집단의 크기에 비해 상대적으로 많이 작은 경우 모수적 방법을 쓰는 것이 더 엄밀한 통계적 방법들과 근사한 결과를 낸다는 것이 알려져있다.


만약, 표본추출이 랜덤하게 이루어진 것이 아니라 누군가 확률과 상관없이 그냥 정한 거라면 통계적 방법을 뒷받침하는 변동이 없기 때문에, 통계분석을 하는 것 자체가 틀렸거나, 분석 결과를 모집단 전체로 확장하는 것이 무리가 있다. 예를 들어, 연구자가 친구들이나 친척들을 모아놓고 성별과 당뇨병에 관계에 대해서 조사했더니, 남자가 당뇨병에 유의미하게 더 많이 걸렸다. 그렇다고 해서 한국인 전체, 혹은 인류 전체로 이 결과를 확장해서, 일반적으로 남자가 당뇨병에 더 많이 걸린다고 결론 내릴 수는 없다. 단순히, 연구자의 주변인 집단에서는 이런 경향이 있었다는 정도의 결론을 내릴 수 있을 뿐이다.


실험연구에서는 물론 피험자들을 모집단에서 뽑는 과정에서의 변동도 발생하지만, 결정적인 변동은 피험자에 대한 처리 할당이다. 예를 들어, 20마리의 실험 쥐를 10마리씩 나누어 신약과 구약을 투여하여 비교할 때, 신약 그룹과 구약 그룹을 어떻게 나눌지를 랜덤하게 정한다. 이런 랜덤 할당이 실험연구에서의 주된 변동이다. 실험연구에서 표본을 뽑는 과정에서의 변동이 없는 예로, 특정 쥐실험에 쓰이는 쥐들은 쌍둥이들의 유전적 유사성에 준할 정도로 유전적으로 동질한 쥐들을 사용한다. 쉽게 말해 쌍둥이 쥐 20마리를 10마리 실험군, 10마리 대조군으로 나눠 실험하는 거나 마찬가지다. 이러한 실험 연구의 변동을 엄밀하게 반영한 통계적 방법으로 Fisher's Randomization Test가 있다. 그러나, 현실에서는 단순히 모수적방법이 대신 사용되고 있다.


관측연구든 실험연구든 그의 주된 변동 혹은 랜덤 매커니즘과 모수적방법이 가정하는 무한모집단에서 iid random sample을 뽑았다는 가정과 어느정도 괴리가 있다. 그러나, 우리가 흔히 쓰는 t검정, ANOVA, 회귀분석 같은 모수적 방법들은 가정이 약간 맞지 않아도 p-value나 신뢰수준, 점추정량 같은 것들을 신뢰할 수 있을 정도로 근사값을 준다. 이런 성질을 통계이론에서는 Robustness라고 부른다.


George Box는 "All models are wrong, but some are useful"이라고 했다. 빈도주의의 방법이나 베이지안의 방법이나 비모수적 방법이나 현실의 문제를 풀 수 있는 문제로 단순화시키는 과정에서, 엄밀함을 어느 정도 희생했다. 각자 50보 100보일 뿐 어느정도 틀린 것이다. 따라서, 어느 방법이 더 엄밀하냐 정확하냐도 특히 통계전공자라면 탐구할만한 주제이지만, 그에 못지 않게 중요한 것은 어느 통계적 방법이 우리가 가진 문제를 푸는데 더 유용(useful)한가? 일 것이다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
4866 통계 미박 TOP5면 어디어디냐 [5] 통갤러(14.34) 23.12.22 356 0
4865 가설검정과 표본수 질문 통갤러(222.109) 23.12.22 70 0
4864 통계학과 1학년 겨울방학때 공부할 것 [3] 통붕이(39.7) 23.12.22 273 0
4863 요즘 Hot한 분야가 있음? [4] ㅇㅇ(58.236) 23.12.22 345 0
4862 통계학과에게 필요한 해석개론은 어디까지임? [11] 통갤러(175.192) 23.12.21 325 0
4861 이거 역코딩 해야하나요? [1] 통갤러(58.72) 23.12.21 106 0
4860 R 과 파이썬 누가이길까? [4] 통갤러(220.87) 23.12.21 306 0
4859 데이터 공부하는데 코드 봐주실분 [5] 통갤러(168.126) 23.12.21 159 0
4858 큰 수의 법칙은 시행횟수가 엄청 클 때의 통계적 확률은 항상 옳다? [3] 통갤러(183.103) 23.12.21 125 0
4857 늦게 정신차렸는데 타대 대학원 가능? [2] 통갤러(223.39) 23.12.20 348 0
4855 통계학 지식하고 프로그램돌리는거 하고 어떻게 연결되는거야? [1] 통갤러(220.87) 23.12.20 123 0
4854 확률과 통계 순열과 조합 그리고 이항정리까지 [2] ㅇㅇ(223.39) 23.12.19 99 0
4853 표본분산 관련 질문인데 도와주세요.. [4] 통갤러(106.101) 23.12.18 152 0
4852 졸업한지 5년 정도 됐는데 [3] ㅇㅇ(211.234) 23.12.18 195 0
4851 islr 은 타겟 수준이 어느정도임? [3] ㅇㅇ(172.226) 23.12.18 299 1
4850 형님들 고3인데 부경대 데이터사이언스 [5] ㅇㅇ(124.54) 23.12.17 323 0
4849 통계 복전 노베인데 어떻게 준비하는게 좋나요? [2] 통갤러(115.88) 23.12.17 198 0
4848 중복조합이 같은 것이 있는 순열로 나타낼 수도 있는거라서 ㅇㅇ(223.39) 23.12.16 54 0
4847 통계대학원은 시험만 잘치면 들어간다는 이미지가 있던데 [6] 통갤러(114.70) 23.12.16 408 0
4846 [고2 확률과 통계] 중복조합은 수식이 직관적으로 이해가 안 가넴.. [2] ㅇㅇ(223.39) 23.12.16 69 0
4845 통계학은 국박이 어떻게 살아남는 거냐 [10] 통갤러(222.110) 23.12.16 666 0
4843 수능 수학 2등급 (미적) 나왔는데 통계 학부 수준 [4] ㅇㅇ(118.235) 23.12.15 259 0
4842 통계학 배우면서 도메인 지식은 어떻게 키우나요? [1] 통붕이(39.7) 23.12.15 186 0
4840 되게 간단한 확률 문제 하나만 알려줘 [2] 통갤러(89.187) 23.12.15 112 0
4839 비전공 공대 통계대학원 [2] 통갤러(211.246) 23.12.15 268 0
4838 퍼지이론에 대해 아시는분 있나요 [1] ㅇㅇ(123.254) 23.12.14 105 0
4837 보통 통계학과 커리가 어떤가요? [10] ㅇㅇ(123.254) 23.12.14 649 0
4836 예측prediction만 한다치면 다중공선성 개무시해도됌? [5] 통갤러(210.106) 23.12.14 190 0
4835 SAS 질문 통갤러(223.39) 23.12.14 48 0
4834 [중3 산점도] 두 변량이 서로 관계가 있는지를 알아보기 위해 산점도를 [3] 통갤러(14.44) 23.12.13 123 0
4833 [중3 산점도] 실제론 그래프를 그린다 = 산점도를 그린다 인거죠? [1] ㅇㅇ(223.39) 23.12.13 67 0
4832 정렬하기 전과 후의 상관계수 [3] 통갤러(183.180) 23.12.13 132 0
4830 [중3 산점도] 자료의 개수가 무척 많은 경우에도 일일이 다 찍어주나요? [5] 통갤러(183.103) 23.12.12 89 0
4829 이거 설명해주실분 [8] ㅇㅇ(211.178) 23.12.12 196 0
4828 베이지안 통계쪽은 석사로는 택도 없음?? [1] tpptpp갤로그로 이동합니다. 23.12.11 377 0
4827 변량의 중심을 알아야 산포도도 결국 나오는거군요... [1] 통갤러(14.44) 23.12.11 67 0
4826 대푯값의 정의에 왜 자료의 중심을 나타낸다는 말이 들어가는거지 [4] ㅇㅇ(223.39) 23.12.11 76 0
4825 중앙값이 대푯값이 될 수 있는 이유는 뭔가 납득이 안 감 [7] ㅇㅇ(223.39) 23.12.11 119 0
4824 패널 공부를 위해선 시계열 공부가 필수인가? [5] 통갤러(110.35) 23.12.11 179 0
4822 elasticnet이랑 lasso로 regression 돌렸는데 [4] 통갤러(220.87) 23.12.11 163 0
4820 회귀분석 rencher랑 박성현 뭐바야함? [1] ㅇㅇ(223.38) 23.12.11 185 0
4819 산술평균이 대푯값 중에 하나인 이유는 이것 때문인가요?? [4] 통갤러(183.103) 23.12.11 78 0
4818 통계학과 2학년인데 시뮬레이션(?)을 통해 성능비교 [2] 학부(1.225) 23.12.11 144 0
4817 통계학?기하학? 질문 [6] 통갤러(106.102) 23.12.11 152 0
4816 혹시 범주형 변수가 종속변수면 사용해야 하는 회귀분석 기법이 따로 있나 [9] 건전여우갤로그로 이동합니다. 23.12.11 156 0
4814 카셀라 김우철 호그 연습문제 있잖아 [2] ㅇㅇ(211.226) 23.12.10 205 0
4813 gre 부활 가능성 몇%? [7] 통갤러(223.39) 23.12.10 215 0
4812 연습문제 풓만한거 [1] 통갤러(112.154) 23.12.09 122 0
4811 중앙대 대학원 시험 치신분들 [2] 통갤러(118.235) 23.12.09 394 0
4810 그림 한장으로 보는 1종오류와 2종오류 건전여우갤로그로 이동합니다. 23.12.09 157 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2