방금 올라온 따끈한 소식입니다. 지난 번 1차 논문을 더욱 보강해서 2차논문을 mebane 교수님이 올렸네요! 더욱 강한 어조로 강력하게 선거 데이터 조작이 의심된다고 말했고 사실상 부정선거라고 강조했습니다.
다음은 mebane 교수님의 논문을 페이스북에 소개한 와세다 대학의 '정 훈' 교수님의 페이스북 글입니다.
(속보) Walter Mebane 교수님이 조금 전에 한국의 이번 21대 총선을 다시 분석한 '업데이트'된 결과보고서를 보내주셨습니다. 새로 업데이트된 보고서의 제목은 "2020년 한국의 의회선거에서 나타난 통계적 이상수치와 선거부정(Anaomalies and Frauds in the Korea 2020 Parliamentary Election)"입니다.
업데이트된 보고서는 다음의 링크에서 누구나 다운 받으실 수 있습니다:
이번에 새로 업데이트된 보고서에서는 그동안 서울대 박원호 교수님과 카이스트의 이병태 교수님 등이 지속적으로 지적해주신 '잘못된 데이터를 사용한 문제(이른바 "garbage in, garbage out" 문제)'를 해결하기 위해, Mebane 교수님이 보다 완전한 데이터(updated complete data, p.1)를 사용하였고, 통계분석결과의 타당성 강화를 위해 여러가지 추가적인 통계적 테스트도 수행하였습니다.
결론은 기존에 제기되었던 이번 21대 총선에서의 선거부정 의혹은 재확인되었고 (오히려) 강화되었다는 것입니다. (이메일 내용 중: "The suspicious picture is reinforced.")
[선요약]
1. 한국의 21대 총선에 대한 기존의 통계적 분석 결과를 보강하기 위해서, 보다 완전한 데이터를 가지고 통계분석을 다시 시도하였다. 아울러, 그러한 분석 결과의 타당성 검토를 위해 여러가지 통계적 테스트를 추가적으로 실시하였다.
2. 그 결과 기존 페이퍼에서 제기되었던 선거부정 의혹은 재확인되었고, 오히려 강화되었다.
3. 여러가지 통계적 테스트를 실행해본 결과, 한국의 21대 총선에서 나타난 여러 통계적 이상 수치(anomaly)들은 자연적인 방식으로 발생했다고 보기에는 혹은 유권자들의 전략적 투표행위 등에 의해 설명되기에는 그 수치가 지나치게 벗어나 있다.
4. 이상을 종합적으로 고려할 때, 한국의 이번 2020년 의회선거에서는 선거 데이터가 조작되었을 것이라는 의혹이 ‘강하게 (strongly suggest)’ 제기된다. (“Taken together the eforensics estimates and EFT and spikes tests exhibit anomalies that strongly suggest the Korea 2020 legislative election data were fraudulently manipulated.”, p. 18)
5. 이와 같은 통계적 분석 이후에는 반드시 추가적인 정보수집과 조사가 이루어져야 할 것이다. 왜냐하면 통계적 분석 결과만으로는 선거에서 실제로 무슨 일이 일어났는지에 대한 ‘결정적 증거(definitive evidence)’로 작용할 수 없기 때문이다.
(많은 공유 부탁드립니다.)
[내용 정리] (기존 내용과 겹치는 부분들이 있습니다.)
0.도입부
이번 페이퍼에서는 보다 완전한 데이터를 사용하였고, 여러가지 추가적인 통계적 테스트를 수행하여, 기존에 공개한 페이퍼를 개선한 것이다.
그 결과 통계모형의 추산치와 테스트의 결과 모두 이번 21대 총선 데이터가 조작되었다(fraudulently manipulated)는 의혹을 준다.
1. '선거부정 탐지 통계모형(eforensics)'에 의한 분석
본 페이퍼에서 사용된 “선거부정 탐지 통계모형” (https://github.com/UMeforensics/eforensics_public)은 이번에 실시된 한국의 21대 총선에서 선거의 결과를 바꿀 수 있었던 “부정투표(fraudulent votes)”가 존재했을 수 있다는 의혹/증거(evidence)를 제공한다.
통계프로그램에서 정의하는 “선거부정” 혹은 “부정투표”는 다음과 같다. (1) 제조된 표(manufactured votes): 기권/무효표를 가지고 특정 후보자의 표를 새롭게 만들어 주는 행위, (2) 훔친 표 (stolen votes): 다른 후보자의 표를 빼앗아서 그것을 당선자에게 주는 행위.
중요한 점은 통계모형에서 추정하고 있는 이러한 “선거부정”이 반드시 현실세계에서 일어난 부정 혹은 불법행위의 결과로 나오게 된 것이 아닐 수도 있다는 것이다. 통계모형의 결과는 그 자체로 선거부정이 발생했다는 것에 대한 ‘확증적 증거 (definitive evidence)’가 될 수 없으며, 정말로 한국의 21대 총선에서 불법적인 선거부정이 발생했는지는 추가적인 조사를 통해서 밝혀져야 할 것이다.
Figure 4 (민주당 후보가 승리한 지역구)와 Figure 5 (당 무관하게 당선자가 승리한 지역구)는 (a) 당일투표(지역구), (b) 당일투표(투표소), (c) 재외투표, (d) 사전투표와 같은 4개의 투표방식에서 부정투표가 나타난 비율을 산점도로 나타낸 것이다. ‘파란 점’은 ‘정상투표’를 나타내고, ‘빨간 점’은 ‘부정투표’를 나타낸다.
민주당 후보자가 승리한 지역구에서 부정투표가 발견된 비율은 다음 순서로 높았다: 사전투표 (43.1%), 당일투표(지역구) (3.14%), 당일투표(투표소) (0.925%), 재외투표에서는 부정투표가 발견되지 않았다. (Figure 4 참조)
정당과 무관한 지역구의 당선자에게 초점을 맞추게 될 경우, 부정투표가 발견된 투표소의 비율은 다음 순서로 높았다: 사전투표 (22.6%), 당일투표(지역구) (2.09%), 당일투표(투표소) (0.92%), 재외투표에서는 부정투표가 발견되지 않았다. (Figure 5 참조)
에서 설명한 '반사실적 추론(counter factual) 방법'으로 (95%와 99% 신뢰도구간으로) 계산된 부정 투표수는, 민주당이 승리한 지역구의 경우, 전체투표수의 9.6% (1,030,562개의 표)가 부정투표에 의한 것으로 나타났으며, 정당과 무관한 지역구 당선자 지역에서는, 전체투표수의 8.7% (1,105,458개의 표)가 부정투표에 의한 것으로 나타났다.
아울러, 총 253개의 지역구 중, 무려 27개의 지역구에서 부정투표에 의해 당선자가 뒤바뀌었다는 결과가 나타났다. 이 중에서 14개의 지역구는 민주당이 승리를 가져갔고, 11개의 지역구는 통합당이 승리를 가져갔으며, 2개의 지역구에서는 무소속 후보가 승리를 가져가게 되었다.
주의: 다시 한번 강조하지만, 통계모형에서 추정하고 있는 이러한 “선거부정” 혹은 “부정투표가”가 반드시 현실세계에서 일어난 부정 혹은 불법행위의 결과로 나타난 것은 아닐 수 있다. 사전투표와 당일투표 사이에 존재하는 현저한 투표양상의 차이는 불법적인 선거부정 때문이 아니라, (전략적 투표행위와 같은) 다른 사회적 요인으로부터 비롯되었을 가능성도 분명 있다. 따라서, 통계모형의 결과는 이번 21대 총선에서 불법적인 선거부정이 일어났다는 것에 대한 확증적인 증거가 될 수는 없다. 하지만, 이러한 통계적 결과는 21대 총선에서 실제로 불법적인 선거부정이 일어났는지에 대해 조사를 해볼 필요성을 제기한다.
2. 타당성 검토를 위한 여러 통계적인 테스트
Election Forensics Toolkit (EFT)에 포함된 여러 테스트를 통해서 통계분석 결과의 타당성을 검토해보았다. EFT 테스트 결과는 선거결과가 조작되었다는 의혹을 더욱 강화한다. (The EFT results add to the impression that the election results are manipulated. p. 14)
투표율에 대한 DipT 테스트는 다수의 최빈값이 존재하는(multimodal한) 분포를 뚜렷하게 보여주고 있다. (필자주: Mebane교수의 통계모형에서는 다수의 최빈값이 존재하는 분포를 선거부정으로 감지한다.)
P05 테스트 결과는 0.2라는 기대되는 수치에 비해 수치가 상당히 낮으며, 이러한 수치가 자연적 현상에 의해 발생했다고 생각하기는 힘들다. (“it is difficult to think of natural processes that would produce frequencies of percentages that end in 0 or 5 that are too low”, p. 14). 투표율과 투표에 있어서 통계적으로 유의미하게 나온 이상수치(anomaly)들이 상당수가 나타났다는 것은 선거데이터가 (인위적으로) 조작되었다는 것을 함축한다. (“The many significant P05s statistics suggest the data are artificial”, p.15)
2BL 테스트에서는 4.187이라는 기대수치에 비해 상당히 차이를 보인 건 사실이나, 이러한 수치는 다당제 상황에서의 전략적 투표 행위를 통해서도 발생할 수 있기 때문에, 이것 자체만으로는 선거부정이 있었다는 가설을 지지해준다고 보기는 어렵다. 하지만, Figure 6에 나온 2BL 테스트의 산점도를 보면, 유권자들의’ 전략적 투표행위 (필자주: 민주당 유권자들이 사전투표에 결집하고 통합당 후보들이 당일투표에 결집하는 행위)’에 의해 설명되기에는 그 수치가 지나치게 크거나 지나치게 작은 수치가 다수 발생했다는 것을 보여준다.
LastC 테스트의 결과 역시 상당한 수치들이 지나치게 크거나 (too-large) 지나치게 작다 (too-small)는 것을 보여준다.
Spikes 테스트의 결과(Figure 7 참조)는 P05 테스트 결과를 재확인시켜준다.
3. 결론
1절에 소개된 ‘선거부정 탐지 통계모형(eforensics)’으로부터 도출된 부정투표 추산치 결과들과, 2절에서 시행된 EFT와 spikes 과 같은 여러가지 통계적 테스트에서 나타난 통계적 이상수치(anomalies)를 종합적으로 고려할 때, 한국의 이번 2020년 의회선거에서는 선거 데이터가 조작되었을 것이라는 의혹이 ‘강하게(strongly suggest)’ 제기된다. (“Taken together the eforensics estimates and EFT and spikes tests exhibit anomalies that strongly suggest the Korea 2020 legislative election data were fraudulently manipulated.”, p. 18)
이와 같은 통계적 분석 이후에는 반드시 추가적인 정보수집과 조사가 이루어져야 할 것이다. 왜냐하면 통계적 분석 결과만으로는 선거에서 실제로 무슨 일이 일어났는지에 대한 ‘결정적 증거(definitive evidence)’로 작용할 수 없기 때문이다.
(많은 공유 부탁드립니다.)
논문 출처: http://www-personal.umich.edu/~wmebane/Korea2020.pdf
https://youtu.be/qvIA9RR3TL8
닥터 미베인 교수 인터뷰 영상입니다.
https://youtu.be/ItVV7gsQYGI
https://youtu.be/Eu_BeCNq_Pc
미베인 교수의 5월 12일 새롭게 업데이트를 소개한 정훈교수의 글입니다.
[업데이트(2020.05.12): Mebane 교수님이 서울대 박원호 교수님의 조언에 따라 새로 업데이트된 데이터를 받게 되었다고 합니다. 새 데이터에는 사전투표에서 더이상 (그동안 문제로 지적되었던) '대각선 상 데이터''가 없다고 합니다. 현재 새 데이터로 통계분석을 돌리고 있는데, 완료되는 데는 하루 정도 걸릴 거라고 합니다.]
새로운 분석이 나오는대로 소개해드리겠습니다.
댓글 없음:
댓글 쓰기