검색하기 전 자주 묻는 질문을 살펴보세요

조사담(調査談)

한국갤럽, 조사인, 조사 이야기

한국갤럽 데일리 오피니언 표본설계
2020/10/15
  • [한국갤럽데일리오피니언_표본설계보고서.pdf] 다운로드
● 2020년 10월 15일 공개 | 문의: 02-3702-2571/2621/2622

한국갤럽 데일리 오피니언 표본설계


1. 서론

한국갤럽 데일리 오피니언(이하 ‘데일리 오피니언’)은 2012년 1월부터 한국갤럽이 매주 운영해온 전화조사 프로그램으로, 2020년 5월 통권 제400호를 넘어섰다. 대통령 직무수행평가와 정당 지지도를 비롯한 기본 국정 지표와 주요 정치 현안, 경제, 사회, 생활, 문화 등 다방면에 관한 한국인의 생각을 물어 집계·분석한 결과를 매주 금요일 오전 10시 홈페이지에 공개한다. 한국갤럽이 자체 기획하고 비용을 부담하며, 관심 있는 사람이면 누구나 무료로 조사 결과를 활용할 수 있다.

데일리 오피니언의 대외적 역할은 더 많은 일반 시민이 조사 결과에 쉽게 접근하고 활용할 수 있게 하는 것이며, 대내적 역할은 조사 과정의 질적 향상에 필요한 데이터를 축적하는 것이다. 이를 위한 데일리 오피니언 운영의 기본 원칙은 세 가지다: 정치권, 이해 관계자, 특정 언론 의뢰가 아닌 독립적인 조사로 어느 한쪽에 치우침 없이 공정할 것(중립성), 여론의 변화를 상시 추적할 것(지속성), 모집단의 특성을 최대한 반영할 것(대표성).

모집단 대표성 확보를 위해서는 표본설계가 핵심 요건이다. 본 문서는 데일리 오피니언의 표본설계와 실행 방법을 구체적으로 기술한 보고서다. 표본설계의 일반적 절차에 따라 (1) 모집단 정의, (2) 표본추출틀 설정, (3) 표본크기 결정, (4) 층화변수 설정, (5) 층별 배분, (6) 표본추출, (7) 모수추정을 순차적으로 설명한다.


2. 표본설계

(1) 모집단 정의
데일리 오피니언의 목표 모집단은 대한민국 유권자, 즉 만 18세 이상(이하 연령은 모두 만 나이) 국민이다. 유권자의 정의는 공직선거법 제15조1항(‘18세 이상의 국민은 대통령 및 국회의원의 선거권이 있다.’ 등)에 따른다. 대통령선거, 국회의원선거, 지방선거 등 전국 단위 선거가 있는 해에는 선거일을 기준으로, 전국 단위 선거를 앞두지 않았거나 선거가 없는 해에는 조사일을 기준으로 18세 이상을 가린다.
2020년 1월 공직선거법 개정으로 유권자 하한 연령이 기존 19세에서 18세로 하향했다. 그에 따라 데일리 오피니언의 목표 모집단도 2019년까지는 19세 이상, 2020년부터 18세 이상 국민으로 하게 됐다.

목표 모집단 전체 규모는 행정안전부 주민등록인구현황(이하 2020년 3월 시점) 기준 18세 이상 전국 인구 43,980,160명이다. 모집단 분포 특성을 성별로 보면 남성 21,810,037명(49.6%), 여성 22,170,123명(50.4%)이다. 연령대별로는 18~29세 7,957,687명(18.1%), 30~39세 7,006,749명(15.9%), 40~49세 8,375,429명(19.0%), 50~59세 8,662,400명(19.7%), 60세 이상 11,977,895명(27.2%)이다. 모집단의 시/도별, 성별, 연령대별 인구수와 구성비는 <표 1>에 정리했다.



(2) 표본추출틀
데일리 오피니언은 우리 사회 전반의 현안과 관심사를 추적하고자 연중 상시 운영한다. 주간 단위로 지속적이고 안정적으로 진행 과정을 관리할 수 있으면서 모집단 대표성을 최대한 확보할 수 있는 조사방법은 전화조사다. 따라서, 데일리 오피니언의 조사 모집단은 무선 또는 유선전화를 통해 조사 가능한 18세 이상 국민으로 정의한다.

2020년 현재 전화조사에 주로 활용하는 표본추출틀(sampling frame)은 유선전화 RDD 번호, 무선전화 RDD 번호, 무선전화 가상번호 등이다. 각각의 장·단점은 <표 2>에 정리했다. RDD(Random Digit Dialing)는 무작위 생성한 전화번호를 활용하는 방식을 의미한다. 무선전화 가상번호는 공직선거법이 허용하는 선거여론조사에 한해 이동통신 3사(SKT, KT, LG U+)가 유료 제공하는 번호로, 2016년 제20대 국회의원선거 직전 최초 도입됐다. 지역·성별·연령대 정보를 포함하지만 문자 안내 등은 불가한 한시적 임시 번호다. 다만, 무선전화 RDD로는 전국이 아닌 시/도/구/군 등 특정 지역 한정 조사가 어려우므로 지역 정보를 포함한 무선전화 가상번호 활용이 불가피하다(국회의원선거, 기초자치단체장선거 등).



데일리 오피니언의 기본 표본추출틀은 무선전화 RDD 번호다. 구체적인 생성 방식은 다음과 같다.

① 010 번호 이하 7,000개 유효 국번별로 0000에서 9999까지 10,000개씩 총 70,000,000개 번호를 생성한다. 2012년부터 2015년까지는 01X, 즉 011~019 이동통신사 식별번호도 사용했다. 그러나, 2016년 들어 01X 사용자 비중이 5%를 밑돌게 되면서 번호 대역 대비 유효율·접근성이 크게 낮아져 그해부터 010 번호만으로 조사한다.
② 이 중 무작위로 조사대상 번호를 추출한다. 2020년 10월 현재 데일리 오피니언은 최근 일정 기간 내 사용한 번호를 제외하고 매주 21,000개를 추출하여 사용한다.

무선전화 RDD 표본추출틀은 010 번호 무선전화 이용자 전수를 포함한다. 무선전화 이용자라면 누구나 RDD 방식의 조사 대상으로 선정될 수 있다. 다만, 무선전화 RDD 번호는 순수하게 난수 발생한 숫자 조합인 탓에 번호의 유효성뿐 아니라 이용자 정보가 전무하다. 실제로 전화를 걸어보기 전에는 결번(유효하지 않은 번호, 무선전화 RDD 번호의 약 30%) 여부를 알 수 없고, 통화 연결 후 거주지·성별·연령 등을 확인하기 전에는 해당 번호 이용자가 어떤 사람인지 알 수 없다. 따라서 무선전화 RDD 번호에는 전체 번호 대역에서 단순확률추출 또는 계통추출을 적용해야 한다. 대표적인 확률표본추출 방식에는 단순확률추출, 계통추출, 층화추출, 집락추출 등이 있는데 이중 층화추출이나 집락추출은 주요 특성에 대한 사전 정보가 필요하다.

무선전화 가상번호는 선거여론조사기관(정당, 조사회사 등)이 중앙여론조사심의위원회를 통해 이동통신 3사에 요청하여 제공받는 번호다. 이동통신 3사는 자사 이용자의 기존 정보를 바탕으로 요청받은 조건(지역·성별·연령대)에 맞게 번호를 제공한다. 무선전화 가상번호에는 주요 특성에 따라 층별 표본배분 후 각각의 층에서 번호를 추출하는 층화추출을 적용할 수 있다. 이러한 층화추출은 분산을 줄여 이론상 조사에 정교성을 더할 수 있다.

데일리 오피니언이 무선전화 가상번호를 활용하지 않는 이유는 몇 가지 제한점과 불확실성 때문이다.

첫째, 현시점 무선전화 가상번호는 이동통신 3사만 제공하므로 국내 전체 무선전화 회선의 약 10%를 차지하는 MVNO(가상이동통신망사업자, 일명 ‘알뜰폰’) 서비스 이용자가 원천적으로 배제된 표본추출틀이다. 또한, 이동통신 3사 이용자는 자신의 가상번호 제공을 거부할 수 있다. 이들 역시 조사 대상에서 제외된다. 이러한 포함률(coverage) 차원의 제한점은 향후 이동통신 사업 분화나 MVNO 비중, 가상번호 제공 거부하는 이동통신 3사 이용자가 늘어남에 따라 더 확대될 가능성이 적지 않다.

둘째, 무선전화 가상번호의 이동통신 3사 배분은 부정확한 정보를 바탕으로 하며 시장점유율 변화를 반영하기 어렵다. 이동통신 3사는 자사 이용자의 세부 특성 분포를 공개하지 않는다. 그럼에도 선거여론조사기관은 이동통신 3사 각각에 지역·성별·연령대 특성에 따라 필요한 수의 가상번호를 요청한다. 업계의 어림법(rule of thumb)에 따라 SKT:KT:U+를 대략 5:3:2 비율로 나누며, 3사 각각의 지역·성별·연령대 분포는 알려진 바 없으므로 동일하게 적용한다. 앞으로도 이동통신 3사가 고객 특성 분포를 공개할 가능성은 낮아 보인다. 가상번호 제공은 그들의 주요 업무가 아니고, 고객 특성은 일종의 영업 비밀이라고 볼 수도 있기 때문이다.

셋째, 데일리 오피니언은 한국갤럽이 자체적으로 기획·운영·공표하는 조사 프로그램이다. 진행 과정을 철저히 관찰·기록하여 조사회사뿐 아니라 유관 분야 연구자들이 학습하고 전문 지식을 향상하는 데도 기여하고자 한다. 무선전화 가상번호는 표본추출을 전적으로 이동통신 3사 각각에 의존하므로, 과정상 확인할 수 없는 맹점이 존재한다.

넷째, 무선전화 가상번호는 언론 공표 목적의 선거여론조사에만 쓸 수 있다. 이외의 전국 단위 조사에는 무선전화 RDD 번호를 쓴다. 조사회사 입장에서 지속적으로 여론을 추적하고 비교·분석하기 위해, 선거여론조사 이외에도 활용 가능한 자체 노하우를 축적하기 위해서는 무선전화 가상번호보다 안정성과 범용성 높은 조사 방식을 우선시한다.

데일리 오피니언은 무선전화 RDD 번호를 기본으로 하되, 유선전화 RDD 번호를 보완적으로 사용하는 이중추출틀(dual-frame sampling)로 조사한다. 무선전화 RDD의 제한점 때문이다. 무선전화 RDD는 이론상 무선전화 이용자라면 누구나 같은 확률로 추출 가능하지만, 이용자 특성에 따른 응답률(접촉 대비 조사 참여 완료 비율) 불균형성이 존재한다. 무선전화 조사에서는 지역적으로 도(道) 거주자, 성별로는 여성의 구성 비율이 낮은 편인데 이들 특성에는 유선전화 접근이 상대적으로 유용하다. 한국갤럽이 유·무선전화 RDD 연구를 시작한 2000년대 중반부터 지금까지 일관된 경향을 보인다. 유선전화 RDD는 전국민 대표성을 보완하며, 그 비율은 15%로 제한한다.

(3) 표본크기
데일리 오피니언의 주간 단위 목표 표본크기는 1,000명이다. 단순확률추출 가정 시 표본크기에 대한 목표 표본오차는 ±3.1%포인트(95% 신뢰수준)다. 표본크기 1,000명의 통계치는 대체로 안정적이다. 중앙선거관리위원회의 선거여론조사 기준에서도 전국 단위 조사의 최소 표본크기를 1,000명으로 한다. 표본크기별 표본오차는 <표 3>에 제시했다.



(4) 층화변수 선정
무선전화 RDD 번호로는 이용자 특성별 층화 후 표본을 추출하는 층화추출을 할 수 없다. 그래서 모집단 분석을 통해 층화변수를 설정하고 층별 기대 표본크기를 배분한다.
층화변수는 거주지, 성별, 연령대로 한다. 거주지는 전국 17개 광역자치단체를 분석에 적절한 인구수, 지리적 인접성을 고려해 8개 권역으로 구분한다(서울, 인천/경기, 강원, 대전/세종/충청, 광주/전라, 대구/경북, 부산/울산/경남, 제주). 연령대는 10세 단위를 기준으로 하되 18, 19세는 20대와 통합하여 18~29세로 하며, 60세 이상을 최고령대로 한다. 다만, 고령화 추세에 따라 60세 이상 비율이 30%가 넘는 시점에서 60대와 70세 이상을 구분할 예정이다. 전국 권역, 성별, 연령대 기준 모집단 인구수와 구성비는 <표 4>와 <표 5>에 정리했다.





(5) 층별 표본배분
층별 표본배분에는 층화변수를 기준으로 모집단 인구수에 비례하는 비례배분법을 적용한다. 1,000명의 표본을 배분한 결과는 <표 6>에 제시했다.



또한, 세부적인 시/도 비율을 일치시키기 위해 인구수를 기준으로 비례 배분한다. 17개 시/도별 배분 결과는 <표 7>에 제시했다.



(6) 표본추출
데일리 오피니언 주간 단위 목표 표본크기 1,000명 중 무선전화 표본에 850명, 유선전화에 150명을 배분한다. 우선, 전체 무선전화 RDD 번호에서 조사대상 표본으로 21,000개를 단순확률추출한다. 무선전화 RDD 유효번호 중 응답 성공 비율 6%, 전체 무선전화 RDD 번호 중 유효 비율 70%를 근거로 850명을 조사하려면 매주 약 21,000개 번호가 필요하다.
21,000개 번호에 5회 이상 콜백(callback)을 원칙으로 접촉 시도하며, 끝까지 조사에 참여한 사람을 최종 응답 표본으로 간주한다. 층별 표본배분은 조사 중 목표 할당으로 관리하며, 각 셀별 응답 표본이 목표 할당의 1.1배를 넘지 않도록 한다.

유선전화 RDD 번호에서는 지역별 인구비례에 따라 조사대상 표본으로 30,000개를 단순확률추출한다. 유선전화 RDD 유효번호 중 응답 성공 비율 2%, 유효번호 비율 50%를 근거로 150명을 조사하려면 매주 약 15,000개 번호가 필요하다. 유선전화는 지역을 한정하므로 예상 사용 번호의 2배를 추출한다.
무선전화 RDD 표본 850명에서 17개 시/도별 목표 할당 기준 완료되지 않은 지역의 유선전화 번호로 150명을 조사한다. 이때도 시/도별 목표 할당의 1.1배를 넘지 않도록 한다.

(7) 모수추정
유·무선전화 RDD 번호를 단순확률추출해 조사한 후에는 응답자의 거주지(17개 시도, 8권역), 성별과 연령을 알 수 있다. 이렇게 파악한 정보를 층화변수로 사용해 모비율이나 모평균을 추정하면 더 정확한 추정치를 얻을 수 있다. 대규모 표본을 단순확률추출로 선정하여 조사한 후에 응답자 특성을 사전에 알고 있는 모집단 층화변수와 연계하여 분석하는 것을 사후층화(post-stratification)라고 한다. 데일리 오피니언에도 사후층화 추정법을 적용할 수 있다. 아래는 사후추정 가중치와 모수추정에 대한 설명이다.

① 가중치 산정
가중치는 표본으로 추출하여 조사된 응답자와 모집단의 구조적인 특성을 나타내는 상수로 표현된다.



② 모수추정식




3. 결론

이상으로 모집단 정의부터 모수추정까지 데일리 오피니언 표본설계의 모든 과정을 설명했다. 데일리 오피니언 표본설계는 확률추출이라는 과학적 절차를 최대한 준수하여 표본오차를 최소화하는 동시에, 무응답 등 현실에서 발생할 수 있는 비표본오차 영역까지 고려하여 보완하고자 했다. 특히 무선전화 RDD 중심의 유·무선전화 혼합, 셀별 목표 할당 관리, 조사원 인터뷰, 콜백을 통해 접촉률 확보 등 데일리 오피니언이 채택한 조사 방식은 장기간 실증적·학술적 검증을 거쳐 설계에서 추정까지의 정교함, 적용의 범용성을 겸비한 방법론이라 할 수 있다.

오차는 조사 실행 전 과정에서 발생할 수 있다. 이 과정을 체계적으로 관리함으로써 전반적인 조사의 정확성을 높일 수 있다. 조사의 정확성 제고를 위해서는 표본추출틀의 포함률, 응답률(접촉성공률과 협조율)1)을 높이는 조건, 표본이 모집단과의 모사(模寫)라는 측면에서 대표성을 높일 수 있는 방법을 채택해야 한다. 이와 더불어 현 시대의 여론을 정확히 측정하기 위해서는 적절한 조사표(질문지) 작성, 분석 과정의 엄밀성까지 요구된다.


__
참고문헌
박무익, 이계오, 이기재 (2017) 여론조사의 이해. 한국방송통신대학교출판문화원
이계오, 박진우, 이기재 (2013) 표본조사론. 한국방송통신대학교출판문화원
통계청 (2008) 표본오차 매뉴얼
통계청 (2020) 2020년 국가통계 품질관리 매뉴얼(조사통계)
중앙선거여론조사심의위원회 (2020) 선거여론조사기준
Kish, L. (1965) Survey sampling. New York, NY: John Wiley & Sons
Sharon L. Lohr (1999) Sampling: Design and Analysis. Duxbury Press

____
1) 현재 중앙선거관리위원회 선거여론조사 기준에 따른 응답률은 접촉자 중 응답성공률, 즉 협조율이다. 학술적으로 응답률은 조사대상 중 접촉성공률과 협조율을 포괄하는 개념이며, 2020년부터는 선거여론조사 기준 변경에 따라 응답률(협조율임)과 별도로 접촉성공률을 공개한다.