제1절 빅데이터의 이해
1. 정의
빅데이터는 단순히 용량이 방대한 것이 아니라 복잡성도 증가해서 기존의 데이터 처리 애플리케이션이나 관리 툴로는 다루기 어려운 데이터세트의 집합을 지칭. 빅데이터의 정의는 다양하며, 일반적인 정의는 다음과 같다.
“빅데이터는 일반적으로 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터다(McKinsey, 2011)”
“빅데이터는 다양한 종류의 대규모 데이토로부터 저렴한 비용으로 가치를 추찰하고 데이터의 초고속 수집/발굴/분석을 지원하도록 고안된 차세대 기술 및 아케텍처다(IDC, 2011)”
“빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.(Mayer-Schonberger&Cukier, 2013)”
가트너그룹(Gartner Group)의 더그래니(Doug Laney)가 정리한 것으로 빅데이터를 세가지 측면, 즉 데이터의 양(Volume), 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상.
[그림 I-2-1] 빅데이터 정의의 범주 및 효과
빅데이터 정의 요약
- 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
- 데이터 자체 뿐 아니라 처리, 분석 기술적 변화까지 포항하는 중간 범위의 정의
- 인재, 조직 변화까지 포함해 빅데이터를 넓은 관점으로 정의하는 방식
3. 출현 배경
- 정보가 지속적으로 축적되면서 기업들이 보유한 데이터가 ‘거대한 가치 창출이 가능할 만큼 충분한 규모’에 도달했고, 빅데이터와 같은 질적 변화를 일으킬 기술이 접목됨으로써 거대 가치를 창출할 수 있는 기획를 맞이함.
- 거대한 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들도 지속적으로 발전하고 있음.
- 디지털화의 급진전, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅 보편화
- 아날로그의 디지털로의 전환은 데이터의 생산/유통/저장의 편리성을 획기적으로 개선
- 인터넷 발전이 빅데이터에 기여. 인터넷에서 돈을 만들어 주는 모델로 각광 받는 것은 광고. 사용자 로그(log)를 활용
- 모바일 시대가 도래하면서 더 빠르게 진화. 사용자들이 깨어있는 거의 모든시간에 SNS로 자신들의 ‘감정’ 데이터를 쏟아내고 있음
- 클라우드 컴퓨팅. 빅데이터의 처리 비용을 획기적으로 낮춤. 클라우드 분산 병렬처리 컴퓨팅은 빅데이터와 같은 대용량 데이터 처리 비용을 맵리듀스(MapReduce)와 같은 혁신적 방식을 통해 획기적으로 줄임.
3. 빅데이터 기능
- 차세대 산업혁명에서 석탄과 철 역할을 할 것. 빅데이터 역시 제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화/생활 전반에 혁명적 변화를 가져올 것으로 기대.
- 21세기의 원유. 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 ‘정보’를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망.
- 렌즈 역할. 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것. 구글의 ‘Ngram Viewer’
- 플랫폼 역할. 플랫폼이란 ‘공동 활용의 목적으로 구축된 유무형의 구조물’을 의미. 다양한 사업자들이 공동으로 상요하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상.
4. 빅데이터가 만들어 내는 본질적인 변화
- 전처리 -> 사후처리
- 표본조사 -> 전수조사
- 질 -> 양
- 인과관계 -> 상관관계
가. 사전 처리에서 사후 처리 시대로
사전처리의 대표적인 예로는 지금도 사용되고 있는 표준화한 문서 포맷. 사전에 정한 포맷으로 인쇄된 문서를 통해 자신들이 원하는 정보만 수집하고, 기타 개개인의 특수한 상황을 반영하는 세세한 정보의 수집을 포가함으로서 정보 관리비용을 줄임.
빅데이터 시대에는 이미 가치가 있을 것이라고 정해진 특정한 정보만 모아서 처리하는 것이 아니라, 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄.
나. 표본조사에서 전수조사로
전수조사의 장점은 샘플링이 주지 못하는 패턴이나 정보를 제공해 주는 것임. 샘플링은 기본적으로 분석하고자 하는 바를 정하고, 그에 필요한 정보를 수집하는 것이기 때문에 질문이 바뀌면 데이터를 바뀐 질문에 맞도록 다시 수집.
다. 질보다 양으로
빅데이터가 만들어 내는 마법의 상당 부분은 엄청난 용량이 질적으로 전환되는 과장에사 나타남. 또한, 데이터 수가 증가함에 따라 사소한 몇 개의 오류데이터가 ‘대세에 영향을 주지 못하는’ 경향이 늘어남. 기존의 샘플에 의존하던 시대에는 될 수 있으면 정확하고 모든 조건을 충족시키는 사례만을 데이터 세트에 넣어 분석. 그러나 모든 조건을 충족하는 데이터세트는 상당부분의 사례를 제외시키는 결과를 낳음.
라. 인과관계에서 상관관계로
기존의 과학적 발견법은 이론에 기초해서 수집할 변인을 결정하고 엄격한 실험을 통해 잘 정제된 데이터를 얻고 이를 정교한 이론적 트렝 맞춰 분석한 후 변인간의 인과관계(causation)을 찾으려 했음. 그러나 이러한 접근법은 데이터를 얻는데 드는 비용이 매우 비쌈. 빅데이터 시대에는 데이터 획득 비용이 기하급수적으로 감소하고, 모든 곳에서 데이터가 넘쳐남.
이론의 종말이라는 말처럼 인과관계가 완전히 불필요한 것은 아님. 왜냐하면 변인들간의 인과관계를 많이 알수록 현상에 대한 애히의 폭과 깊이가 깊어지기 떄문. 그러나 신속한 의사결정을 원하는 비즈니스에서는 실시간 상관관계 분석에서 도출된 인사이트를 바탕으로 수익을 창출할 수 있는 기회가 점점 늘어나고 있음.
제2절 빅데이터의 가치와 영향
1. 빅데이터의 가치
빅데이터 시대에서는 특정 데이터의 가치를 측정하는 것이 쉽지 않음.
- 데이터 활용방식
- 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제/누가/어디서 활용할지 알 수 없음. 데이터의 창조적인 조합은 기존에 풀 수 없는 문제를 해결하는데 도움을 줌. 데이터가 점점 다용도로 개발됨.
- 새로운 가치 창출
- 데이터가 ‘기존에 없던 가치’를 창출함에 따라 그 가치를 측정하기 어려움.
- 분석 기술 발전
- 분석 기술의 발달로 데이터의 가치에 영향을 줌. 예전에는 분석 비용이 높아 분석할 수 없던 빅데이터를 클라우드 분산 컴퓨팅에서 저렴한 비용에 분석하면서 점점 그 활용도가 증가하는 것이 대표적인 사례임.
2. 빅데이터의 영향
맥캔지는 빅데이터 보고서(2011)를 통해 빅데이터가 가치를 만들어 내는 방식으로 크게 다섯가지를 들고 있음.
- 투명성 제고로 연구개발 및 관리 효율성 제고
- 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
- 고객 세분화 및 맞춤 서비스 제공
- 알고리즘을 활용한 의사결정 보조 혹은 대체
- 비즈니스 모델과 제품, 서비스의 혁신
빅데이터의 영향
-
기업에서는 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴할 수 있다. 또 빅데이터를 원가절감, 제품 차별화, 기업활동의 투명성 제고 등에 활용하면 경쟁사보다 강한 경쟁력을 확보하는데 도움이 된다.
-
정부의 빅데이터 활용 부분은 크게 환경탐색, 상황분석, 미래대응으로 나누어 볼 수 있다.
-
개인은 아직까지 대부분 빅데이터 활용 대상의 위치에 머물러 있지만, 빅데이터를 서비스로 제공하는 기업들이 출현하고 비용이 지속저긍로 하락하면서 빅데이터 활용사례가 나타나고 있다.
제3절 비즈니스 모델
1. 빅데이터 활용 사례
-
기업 혁신에 빅데이터의 대표적인 사례로는 구글의 검색. 구글은 사용자 로그 데이터를 활용하면서 기존의 페이지랭크(PageRank) 알고리즘을 혁신했으며, 이후에도 꾸준히 다양한 차원의 신호(signal)를 추가해 검색 결과를 개선하고 있음.
-
정부는 대국민 서비스를 개선하기 위해 빅데이터를 활용. 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방서비스를 위한 모니터링 등이 모두 환경 탐색에 해당되며, NSA(National Security Agency)가 소셜미디어, CCTV, 통화기록, 문자 통화 내역 등의 모니터링과 분석 결과를 국가 한전 확보 활동에 활용하는 것이 상황분석에 해당됨.
-
개인 차원의 대표적인 빅데이터 활용사례로서 정치인과 가수를 들 수 있음.
2. 빅데이터 활용 기본 테크닉
- 연관규칙 학습 : ‘커피를 구매하는 사람이 탄산음료를 더 많이 사는가?’라는 문제에 답하고자 할 때 주로 사용하는 기법. 이것은 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법.
- 유형분석 : ‘이 사용자는 어떤 특성을 가진 집단에 속하는가?’와 같은 문제를 해결하고자 할때 사용.
- 유전알고리즘 : ‘최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?’와 같은 문제 해결. 즉 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등 과같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 기계학습 : ‘기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?’와 같은 문제 해결.
- 회귀분석 : ‘구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?’와 같은 질문에 답할 때 사용. 분석가는 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보면 두 변인의 관계를 파악.
- 감정 분석 : ‘새로운 환불 정책에 대한 고객의 평가는 어떤가?’를 알고 싶을 때 활용. 이 기법에서는 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석.
제4절 위기 요인과 통제 방안
1. 위기 요인
사생활침해
- 거의 모든 혁신 기술이 출현할 때마다 끊임 없이 논란이 됐던 사항임. 빅데이터 시대에는 그 어느 때보다 우려사항이 부각. M2M(Machine to Machine) 시대가 본격화 되면서 우리를 둘러싼 정보 수집 센서드르이 수가 점점 늘어나고 있다는 점과 개인 정보의 가치가 증가함에 따라 보다 많은 사업자가 개인정보 습득에 보다 많은 자원을 투자하고 있다는 점.
- 특정 데이터가 본래 목적 외에 가공처리돼 2차/3차 목적으로 활용될 가능성이 증가하면서 위험의 성격도 사생활침해를 넘어 사회/경제적 위협으로 변형될 수 있다는 점에서 더 큰 우려를 내포. 이러한 상황을 방지하기 위해 익명화(anonymization) 기술이 발전되고 있으나 아직 충분하지 않음.
책임 원칙의 훼손
- 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라감. 특정인이 빅데이터의 분석 결과에 따라 특정한 행위를 할 가능성이 높다는 이유만으로 처벌 받는 것은 행위 결과에 대해서만 책임을 묻는다는 민주주의 사회 원칙을 크게 훼손할 수 있음.
빅데이터 활용자의 과신
- 빅데이터는 일어난 일에 대한 데이터에 의존함. 그것을 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없음.
- 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있음. 주어진 데이터에서 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실을 불러 올 수 있음.
2. 통제방안
동의에서 책임으로
- 동의제를 책임제로 전환하자는 아이디어는 빅데이터의 특성과 밀접하게 관련돼 있음. 사용자 정보는 수집된 후 한 번 사용하고 폐기되는 것이 아니라 1차적 목적 외에도 2차, 3차적 목적으로 가공/유통/활용됨. 따라서 개인 정보의 활용에 대해 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적이며, 가능하지도 않은 상황도 다수 발생할 수 밖에 없음. 이 시스템 하에서는 개인정보 사용으로 발생하는 피해에 대해서는 사용자가 책임을 지므로 개인정보 사용 주체가 보다 적극적인 보호 장치를 강구하게 하는 효과가 발생할 것으로 기대됨.
결과 기반 책임 원칙 고수
- 책임원칙 훼손위기 요인에 대한 통제 방안으로는 기존의 책임 원칙을 좀 더 보강하고 강화할 수 밖에 없음. 지금까지 민주주의 사회에서는 특정인을 ‘성향’에 따라 처벌하는 것이 아니라 ‘행동 결과’를 보고 처벌.
알고리즘 접근 허용
- 데이터 오용의 위기 요소에 대한 대응책으로는 알고리즘에 대한 접근권 제공이 중요한 이슈로 부상. 구글의 검색 알고리즘의 부당한 적용으로 피해를 입은 사례. 이러한 문제를 해결하기 위해 알고리즘에 대한 접근권을 보장해야 한다는 목소리가 높아짐. 나아가 객관적인 인증방안 도입. 알고리즘의 부당함을 반등할 수 있는 방법을 명시해 공개할 것을 주문
제5절 미래의 빅데이터
- 데이터 : 모든 것의 데이터화(Datafication)
- 기술 : 진화하는 알고리즘, 인공지능(Artificial Intelligence, AI)
- 인력 : 데이터 사이언티스트, 알고리즈미스트(Algorithmist)
미래의 빅데이터는 데이터, 기술, 인력이라는 세가지 측면에서 살펴 볼 수 있음. 미래의 데이터는 M2M이나 IoT 등이 확산되면서 모든 곳의 센서에서 밠애하게 될 것임. 그리고 이렇게 생산된 데이터가 활용되면서 다양한 사업자의 비즈니스 모델이 제품판매에서 서비스 판매로 변하게 될 것임. 기술 측면에서는 알고리즘이 더욱 혁신으로 진화하고 결과적으로 인공지능이 빅데이터를 분석하는 시대로 나아가게 될 것임. 끝으로 인력 측면에서는 빅데이터의 가치를 실현해 줄 데이터 사이언티스트의 혁할이 중요해 질 것이고 그러한 빅데이터가 발생시키는 문제를 중간자 입장에서 중재하며 해결해 주는 알고리즈미스트도 새로운 직업으로 부상하게 될 것임.
[그림 I-2-14] 데이터 사이언티스트의 역량과 조건