어제 밤 늦게 프듀 투표 데이터에 대해서 폰으로 글 썼었는데 생각보다 많은 사람들이 관심 가져주고 객관적으로 봐주고 여러 궁금한점 물어보길래 컴퓨터로 조금 더 자세하게 써보려고해.
그리고 바로 결론만 보고 싶은 사람들위해서 내 생각을 미리 쓰자면 나는 주작이라고 생각을해.
일단 본문으로 들어가기 앞서서 몇가지 내 얘기를 하자면..
--- TMI --- 일단 내 픽은 생방송은 물론 3차순위식때도 없었어. 그래서 만약 마지막 순위가 주작이라면 어느 연습생이 주작인지 아닌지 큰 관심은 없고 다만 주작이라면 지금까지 모든 101명의 연습생 또는 이전 시전들의 연습생들까지 꿈을 가진 많은 연습생들이 방송사의 돈벌이에 이용했다는 점에 크게 화가 날꺼 같아서 이번 일에 관심을 가졌어.
나는 데이터 분석을 전공 하진 않았지만 지금 일 하는 분야가 빅데이터를 가지고 하는 일이라서 모든 프로젝트의 처음 시작은 데이터 수집/정리/분석/향후 발전 가능성 분석을 무조건 해. 그래서 자연스럽게 데이터 쪽을 공부 많이하고 주위에 컴퓨터공학 데이터분석을 전공한 사람들과 자주 일하는 편이야.
그리고 지금 일하는 회사도 방송국/미디어/통신사 이런쪽은 아예 아니라서 내가 생각하는 방향이 무조건 맞다고 단정지을수 없어. 또 그렇다고 아예 이런쪽을 안해본건 아니야. IoT 스마트쪽 프로젝트 몇번했었어. 여하튼 이런 점 감안하고 읽어주길 바라.
--- 본문 ---
프듀 투표수 조작 의혹이 처음 얘기가 나오고나서 엠넷은 지금까지 여러번 말을 바꿨던거로 기억해. 자기들도 신기했다는둥 반올림 어쩌고 저쩌고 해서 그렇게 투표수가 나온거라는둥 어느 하나 자세한해명은 없었지.
주작이다 vs 주작이 아니다 논란 글올라올때마다 나는 어느정도 중립을 지키고 어느쪽이 더 타당한 증거를 댈까 자세히 읽어보고 생각해봤어. 지금까지 "주장이 아니다" 쪽의 글을 읽어봤었을때 개인적인 생각으로 제일 타당한 증거를 제시한 글의 내용은
"투표수가 생방송때 공표한 숫자가 아닐 수 있다. 하지만 순위는 조작되지 않았다. 생방송으로 진행됐던 프듀 마지막화에서는 실시간으로 문자 투표수를 받았고 몇십만이 넘는 문자 투표를 받고 순위 기록을 하기 위해서 Front End, 즉 데이터 관리자가 어떤 연습생이 투표를 많이 받았고 순위가 어떻게 되는지 알기위해 만든 Dashboard, 에서는 단순히 연습생의 순위, 그리고 연습생들끼리의 순위 격차가 대강 얼마나 큰지 정도만 나오게 했을것이다. 문자 투표가 종료되고 짧다면 짧은 시간내에 투표수를 알려주기 위해 제일 낮은 표를 받은 토니의 투표수와 Front end에서 보여주는 순위 (퍼센테이지) 그리고 순위간의 격차를 이용해서 단순 수학으로 계산해 공표했을 것이다. 고로 투표수는 진짜 문자 투표수와 맞지 않을 수는 있지만 순위는 조작된게 아니다."
였어.
조금 어렵다고 느낄 수 도 있을거 같아서 최대한 쉽게 설명을 해볼게.
생방송을 하면서 제작진은 몇십만이 넘는 문자 투표를 받았을거야. 1초에 몇백개의 문자 투표를 받겠지. 회사마다 그리고 어떤 프로그램을 쓰느냐 그리고 어떤 루트로 데이터 (문자투표)를 받느냐에 따라 다 다르겠지만 일반적으로 실시간으로 데이터가 들어올때는 Real-Time Analysis Data Tool 이라는걸 통해서 클라우드/데이타베이스/데이타 스토리지 (데이타가 저장되는 공간)에 저장이 되. Real Time Analysis Data Tool 를 지남으로서 매순간 들어오는 데이타가 어느정도 분석이 되고 스토리지에 저장이 되는거야.
자 그럼 매 순간마다 몇백개씩의 투표수가 들어오면 그 데이터를 관리하는 사람이 연습생 한명 한명의 투표수를 확인하고 순위가 어떻게 바뀌는지 보기 힘들겠지? 예를 들어서 엑셀에 20 X 2 의 테이블이 있고 각 행에 연습생의 이름이 가나다 순으로 써있고 열에 각 연습생의 투표수가 계속 기록되면서 바뀐다고 해봐. 매 초 마다 투표수가 계속 바뀌는데 순위가 어떻게 되는지 파악하기 힘들꺼아냐. 중간에 사분할도 내야되는데?
그래서 데이터 분석가들이 만드는게 Front End (Visualization, Dashboard)야. 이거는 쉽게 말하면 데이터를 관리하는 데이터 관리자가 자기가 보고싶은 제일 중요한 정보만 한번에 볼 수 있게 만들어 놓는 대쉬보드 라는거지.
예를 들어서 프듀에서 제일 중요한거는 실질적인 투표수 보다는 순위가 제일 중요하겠지? 일단 1위부터 10위까지는 정확한 투표수 보다는 누가 1위고 누가 2위고 ... 누가 10위인지가 중요한거니까. 그러니까 대쉬보드에 그냥 실시간으로 바뀌는 막대 그래프나 원형차트로 투표수의 몇%가 어느 연습생의 투표고 그래서 어느 연습생이 몇위인지 이렇게만 쉽게 파악 할 수 있도록 해놨을거야. 그래서 정확한 투표수를 공표하기 보다는 제일 낮은 연습생의 투표수를 가지고 그 연습생의 투표 비중은 몇 퍼센트 였는지, 다른 연습생과 차이가 몇퍼센트 였는지 이런걸 따져서 대충 수학적으로 계산해서 반올림 이러쿵 저러쿵해서 공표를 했을꺼야.
자 그러면 순서가 이렇게 되겠지1. 한 사람이 어떤 연습생의 이름을 문자로 보내고 그게 엠넷 투표 기록하는 프로그램으로 들어온다2. Real time Analysis data tool (엠넷이 쓰는 프로그램이 뭔지는 모르겠지만 보통 다 있어 요즘엔)이 문자로 온 이름을 인식하고 어느 연습생의 이름인지 파악하고 연습생의 투표수를 올리던지 확인하던지 함 ㅇㅇ3. 데이터 (문자투표)가 클라우드/데이타베이스/데이타 스토리지에 저장됨 --> Raw Data (로우 데이타)4. 2번과 3번을 이용해서 Front End & Dashboard로 보기좋게 기록5. 4번의 기록/그래프로 순위 공표.
그러므로 투표수가 이상하게 됐을수도 있음.
여기 까지 생각을 했을때만 해도 나는 순위가 조작되지 않았다고 생각했어. 여기까지는.
그럼 왜 내가 주작이라고 생각이드냐
1. 나는 프듀 지금까지 매 시즌 챙겨봤었고 이번에 처음 생긴 X 순위 연습생을 생각을 못했었어. 만약에 프론트앤드/대쉬보드의 그래프 결과값만 가지고 투표수와 순위를 파악하고 공표했다고 하면은 1위부터 10위까지는 말이 되는데 X순위를 알아낼때는 지금까지 누적 투표수 그리고 문자투표까지 정확하게 기록해서 따져야되는데 그러기엔 1위-10위에서 하는 방식이랑 너무 다름. X순위 연습생만 바로 갑자기 투표수를 정확하게 기록했으려나? 그건 모르겠어.
2. 주작이 아니라면 Raw Data (로우 데이타)를 바로 공개 할 수 있어야함. 지금 프듀는 순위 조작 의혹으로 팬들의 질타는 물론 언론의 질타까지 받고 있는 상황인데 억울함을 풀기 위해서는 Raw Data를 푸는게 가장 확실한 방법이야. 그런데 엠넷은 프듀가 끝난지 일주일이 넘은 지금도 로우 데이타를 안내놓고 있지. 데이타를 지웠을수도 있다고 하는 사람도 있던데 보통 대기업 회사들은 데이터를 바로 지우지 않아. 회사의 사업은 단순 경력/노하우로 되는게 아니야. 무조건 데이터를 기반으로 계획중인 사업이 사람들이 찾을만한 사업인가, 경쟁력이 있는 사업인가, 이득인 사업인가를 판단하고 사업을 시작해. 프로듀스101도 한 방송사의 한 사업이고 시청자 몇만명 또는 몇십만명의 데이타를 아무 이유없이 지울리가 없어.
그렇다면 투표수 또는 순위 조작을 안했다면 왜 로우 데이타를 공개를 안할까? 안하는게 아니라 못하는거 아닐까? 시청자들이 로우 데이타를 공개하라고 한적이 없던것도 아니고 처음 부터 계속 요청하고 데이타 공개하면 믿겠다 하는데도 공개안하는거는 뭔가 잘못했다는거겠지.
프론트 앤드 / 대쉬보드의 결과값을 투표수로 생방때 공표했다 하더라도 로우 데이타를 공개 안하는거는 말이 안돼. 프론트앤드/대쉬보드가 어떻게 만들어지냐면 앞에 말 했듯이 로우 데이타를 기반으로 그걸 그냥 실시간으로 바뀌는 그래프로 나타낸거야. 말 그대로 제작진이 어느 연습생이 몇등을 했는지 한 눈에 보기 위해서 만든 단순 Visualization 이라는거지. 어느 연습생이 몇등을 했는지 쉽게 알기위해. 그렇다면 프론트앤드/대쉬보드가 로우 데이타 기반으로 만들었기 때문에 로우 데이타는 절때 어느 조작도 있으면 안되고 어느 데이타 일부분이 삭제되어서도 안되고 그냥 문자투표 그 자체여야되. 그러므로 로우 데이터 공개를 안하는 프듀 제작진은 뭔가 잘못한거라는거지.
내가 받았던 질문 중에...
1. 검찰 경찰이 데이타를 내놓으라고 하면 엠넷이 무조건 내놔야할까?- 음 나는 이과계열이고 솔직히 법쪽은 거의 몰라서 잘은 모르겠어. 근데 보통 대기업들은 데이터 공개를 절때 안해. 데이터야 말로 회사의 1급 사업기밀이거든. 앞서 말했듯이 모든 사업은 데이터를 기반으로 제작되니까. 근데 데이터 특정 기밀 사항들 (예를 들어 문자를 보낸 전화번호, 문자를 보낸 사람의 성별 나이대 등등)을 뺀 단순 투표수는 검찰 경찰이 요구를 하면은 무조건 내줘야 하지 않을까 생각해.
2. 엠넷이 투표수 데이터를 조작할 가능성?그럴 가능성도 충분히 있다 생각해. 그래도 하기 쉽진않을꺼야. 지금까지 국프들이 찾아낸 많은 의혹들 그리고 엠넷이 자기들이 말해놓은 이상한 변명들이 다 맞는 투표수로 조작하기 힘들꺼고 거기에 조작이 완벽하게 되려면 데이터가 들어오는 루트의 최대한 앞부분부터 들어오고 나가는걸 다 조작해야 하기때문에.
3. 만약 엠넷이 투표수 데이터를 조작해서 검찰 경찰에 넘긴다면?그렇다면 검찰 경찰이 얼마나 자세하게 투표수 데이터를 검사하냐에 따라 달라지겠지.. 단순히 데이터를 받고 곧이 곧대로 믿으면 그리고 엠넷이 투표수 데이터를 조작했다면 '순위 조작 아니였다'로 단순하게 수사 끝나는거고 아니면 검찰 경찰이 정말 자세하게 하나하나 다 파고들거나 아니면 국프들이 문자를 보내고 그 문자를 엠넷으로 전송시킨 통신사에 수사에 도와달라고 부탁해서 통신사가 그 데이터를 공개한다면.. 그게 제일 강력하고 정확한 데이터가 아닐까 싶어.
이 글을 믿느냐 안믿느냐는 모든 국프들의 자유야. 그냥 데이터를 많이 다루는 사람으로서 한번 내 생각을 써봤어. 긴 글 읽어줘서 고마워