1. 내부데이터가 존재하는 것부터가 불공정하다2. 외부데이터, 내부데이터가 다른 점이 뭔가3. 외부데이터를 내부데이터가 뒤집는 것이 가능한가
간단하게 추리면 이렇게 돼
첫번째부터 보자면 멜론이 주장하는 것과 내 뇌피셜을 동반해 나온 결과는내부데이터=빅데이터야 빅데이터의 정의를 살펴보자
[빅데이터란 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. ]
쉽게 설명하자면, 외부데이터는 말 그대로 멜론이 우리에게 공개한 자료, 그러니까 연간 몇위, 일간몇위 이런 걸 말해 우리가 볼 수 있는 정보들! 반대로 내부데이터는 빅데이터를 말하는 것이지 빅데이터를 조금 더 알기 쉽게 설명하면
AA 가 2017년 뫄뫄시 뫄뫄분 뫄뫄초에 봄날 을 N회 플레이했습니다 AA 가 뫄뫄년 뫄뫄시 뫄뫄분 뫄뫄초에 방탄소년단과 팬을 맺었습니다AA 가 뫄뫄년 뫄뫄시 뫄뫄분 뫄뫄초에 방탄소년단을 검색했습니다
이것뿐만이 아니라 구매정보, 로그인 정보 등등도 포함이야 멜론에서 이용할 수 있는 모든 '서비스'에 관한 정보들을 말하는거야 인터넷 쇼핑몰 같은데서 쇼핑하다보면 추천상품이 뜨거나 할 때 있잖아? 그것도 누구누구님이 이 종류의 상품에 몇초동안 머물렀고, 몇번의 클릭을 했다 이런 정보들을 토대로 추천상품 등등이 나오는 거야 그것과 같아 멜론 이용자수가 몇백만명이나 되는데 그 이용정보가 모이면... 정말 설명할 수 없을 정도의 양의 정보가 모이겠지
그리고 이것들을 종합해보면 AA는 방탄소년단의 팬, 방탄소년단의 음악을 즐겨듣는다는 사실을 도출해낼 수 있어. 이렇게 모여서 나온 데이터기 때문에 산출과정을 공개하기도 애매한 거지 빅데이터가 생겨난 이유가 서비스를 위함인데, 그 서비스 이용 수치(예를 들자면 아지톡, 팬맺기 등)을 멜론에선 내부데이터라 칭하는 거지.
이게 빅데이터를 어떻게 분석하는지에 대한 개념도야 한 사람의 멜론 이용정보에서 저렇게 많은 과정을 통해 또 정말 많은 데이터를 산출해내고 또 합치고, 분석하고 또 합치고 분석하고 이렇게 해서 나온 게 '내부데이터' 다 이런 말이지!!
이렇게 보니까 어때 외부데이터를 내부데이터로 뒤집는 게 가능한가? 당연히 가능해... 또 수상기준 살펴보니까 투표도 1차 투표 2차 투표 나뉘어 있더만
그냥... 주말 저녁에... 할 거 없어서 끄적인 글이야...
추가로 정보가 더 필요하다 싶으면
https://aws.amazon.com/ko/emr/details/hadoop/
하둡에 관련된 자료야
http://www.ciokorea.com/news/24119
빅데이터-하둡 상관관계 다룬 글이고