문명세계의 변화는 눈부실 정도로 급물살을 타고 있다. 최근 가장 주목받고 있는 키워드는 “빅데이터(Big Data)”란 용어다. 과거 초기 생성 환경에 비해 그 규모가 방대하고 생성주기도 짧을 뿐 아니라 그 형태도 수치, 문자, 영상 등 대규모 데이터를 망라하고 있다. ‘빅데이터’는 이제 인간 생활의 갖가지 분야에 깊숙이 파고들어 우리 생활을 눈에 보이지 않게 지배하고 있는 바, 인생의 주요대사인 상∙장례 분야는 그 아날로그적 특성으로 인해 언제까지 초연할 수 있을지 궁금한 가운데, 우리 업계에는 이미 사람의 일생 빅데이터를 활용한 추모컨텐츠가 개발되어 보급단계에 와 있는 "한국미래장례문화개선연구원" 이란 기관도 있지만 업계 모두가 최소한 그 예비지식 정도에는 관심을 두어야 할 것으로 본다. [편집자-주]
빅데이터의 정의와 등장 배경
디지털 경제의 확산으로 우리 주변에는 규모를 가늠할 수 없을 정도로 많은 정보와 데이터가 생산되는 '빅데이터(Big Data)' 환경이 도래하고 있다. 빅데이터란 과거 아날로그 환경에서 생성되던 데이터에 비하면 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. PC와 인터넷, 모바일 기기 이용이 생활화되면서 사람들이 도처에 남긴 발자국(데이터)은 기하급수적으로 증가하고 있다. 쇼핑의 예를 들어 보자. 데이터의 관점에서 보면 과거에는 상점에서 물건을 살 때만 데이터가 기록되었다. 반면 인터넷쇼핑몰의 경우에는 구매를 하지 않더라도 방문자가 돌아다닌 기록이 자동적으로 데이터로 저장된다. 어떤 상품에 관심이 있는지, 얼마 동안 쇼핑몰에 머물렀는지를 알 수 있다. 쇼핑뿐 아니라 은행, 증권과 같은 금융거래, 교육과 학습, 여가활동, 자료검색과 이메일 등 하루 대부분의 시간을 PC와 인터넷에 할애한다. 사람과 기계, 기계와 기계가 서로 정보를 주고받는 사물지능통신(M2M, Machine to Machine)의 확산도 디지털 정보가 폭발적으로 증가하게 되는 이유다.
사용자가 직접 제작하는 UCC를 비롯한 동영상 콘텐츠, 휴대전화와 SNS(Social Network Service)에서 생성되는 문자 등은 데이터의 증가 속도뿐 아니라, 형태와 질에서도 기존과 다른 양상을 보이고 있다. 특히 블로그나 SNS에서 유통되는 텍스트 정보는 내용을 통해 글을 쓴 사람의 성향뿐 아니라, 소통하는 상대방의 연결 관계까지도 분석이 가능하다. 게다가 사진이나 동영상 콘텐츠를 PC를 통해 이용하는 것은 이미 일반화되었고 방송 프로그램도 TV수상기를 통하지 않고 PC나 스마트폰으로 보는 세상이다. 트위터(twitter)에서만 하루 평균 1억 5500만 건이 생겨나고 유튜브(YouTube)의 하루 평균 동영상 재생건수는 40억 회에 이른다. 글로벌 데이터 규모는 2012년에 2.7제타바이트(zettabyte), 2015년에는 7.9제타바이트로 증가할 것으로 예측하고 있다(IDC, 2011). 1제타바이트는 1000엑사바이트(exabyte)이고, 1엑사바이트는 미 의회도서관 인쇄물의 10만 배에 해당하는 정보량이다(Lynman, P., & Varian, H., 2003). 주요 도로와 공공건물은 물론 심지어 아파트 엘리베이터 안에까지 설치된 CCTV가 촬영하고 있는 영상 정보의 양도 상상을 초월할 정도로 엄청나다. 그야말로 일상생활의 행동 하나하나가 빠짐없이 데이터로 저장되고 있는 셈이다. 민간 분야뿐 아니라 공공 분야도 데이터를 양산 중이다. 센서스(Census)를 비롯한 다양한 사회 조사, 국세자료, 의료보험, 연금 등의 분야에서 데이터가 생산되고 있다. 스마트워크의 본격화도 데이터 증가를 가속화할 전망이다(방송통신위원회, 2011).
빅데이터의 특징과 의미
빅데이터의 특징은 3V로 요약하는 것이 일반적이다. 즉 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)을 의미한다(O'Reilly Radar Team, 2012). 최근에는 가치(Value)나 복잡성(Complexity)을 덧붙이기도 한다. 이처럼 다양하고 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원으로 활용될 수 있다는 점에서 주목받고 있다. 대규모 데이터를 분석해서 의미있는 정보를 찾아내는 시도는 예전에도 존재했다. 그러나 현재의 빅데이터 환경은 과거와 비교해 데이터의 양은 물론 질과 다양성 측면에서 패러다임의 전환을 의미한다. 이런 관점에서 빅데이터는 산업혁명 시기의 석탄처럼 IT와 스마트혁명 시기에 혁신과 경쟁력 강화, 생산성 향상을 위한 중요한 원천으로 간주되고 있다(McKinsey, 2011). 기업은 보유하고 있는 고객 데이터를 활용해 마케팅 활동을 활성화하는 고객관계관리(CRM, Customer Relationship Management) 활동을 1990년대부터 시작했다. CRM은 기업이 보유하고 있는 데이터를 통합하는 데이터웨어하우스(Datawarehouse), 고객 데이터 분석(Data Mining)을 통한 고객유지와 이탈방지 등과 같은 다양한 마케팅 활동을 진행하는 것을 뜻한다. 기업의 CRM 활동은 자사 고객 데이터뿐 아니라 제휴회사의 데이터를 활용한 제휴 마케팅도 포함한다. 최근에는 구매 이력 정보와 웹로그(web-log) 분석, 위치기반 서비스(GPS) 결합을 통해 소비자가 원하는 서비스를 적기에 적절한 장소에서 제안할 수 있는 기술 기반을 갖추었다.
이러한 고객분석은 빅데이터 시대를 맞이해 전환점을 맞고 있다. 분산처리방식과 같은 빅데이터 기술을 활용해서 과거와 비교가 안 될 정도의 대규모 고객정보를 빠른 시간 안에 분석하는 것이 가능하다. 데이터의 규모가 중요하다는 것을 확인시킨 사례로는 구글의 자동번역 시스템이 있다. 구글은 수천만 권의 도서 정보와 유엔과 유럽의회, 웹 사이트의 자료를 활용해 64개 언어 간 자동번역 시스템 개발에 성공했다. IBM도 캐나다 의회의 문서를 활용해 영어·불어 자동번역 시스템 개발을 시도했으나 실패한 경험이 있다. 이는 기술의 차이보다는 사용 데이터의 규모 차이에 의한 결과로 평가한다. 서울시장 보궐선거도 새로운 데이터 분석의 효과를 입증한 사례다. 전통적인 여론조사 결과는 선거 당일까지 '박빙'의 승부를 예상했지만, 트위터 분석은 당선자 측의 우위를 예측했기 때문이다. 기업의 빅데이터 활용은 고객의 행동을 미리 예측하고 대처방안을 마련해 기업경쟁력을 강화시키고, 생산성 향상과 비즈니스 혁신을 가능하게 한다(McKinsey, 2011).
인공지능 기술이 진화됨에 따라 인공지능 기반 기술 개발에서 타산업의 핵심기술로 프레임이 변화 되고 있다. 1956년 인공지능 이론이 논의되기 시작된 이후 최근 알고리즘과 데이터 처리 기술의 발전으로 가속화 되고 있다. 인터넷의 발달로 데이터량이 풍부해지면서 인공지능에 필요한 방대한 양의 데이터가 구축되고 있다. 인공지능 기반기술에서 타산업으로 융합화 되면서 자동차 의료, 로봇, 게임 분야의 핵심 기술로 부상하고 있고 글로벌기업을 중심으로 AI분야 투자, 관련기업 인수 및 전문 인력 확보에 총력을 기울이고 있다. 미국은 물론, 일본 및 중국 등 국가차원 프로젝트를 수립하기로 했으며, 장기간 집중 지원에 나선 상황이다.
공공기관에서의 활용
공공 기관의 입장에서도 빅데이터의 등장은 시민이 요구하는 서비스를 제공할 수 있는 기회로 작용한다. 이는 '사회적 비용 감소와 공공 서비스 품질 향상'을 가능하게 만든다. 미 대통령 과학자문위원회는 2010년 발간한 '디지털 미래 전략(Designing a Digital Future)' 보고서에서 '모든 연방정부 기관은 빅데이터 전략이 필요함'을 강조했다. 2012년에 열린 다보스 포럼에서도 위기에 처한 자본주의를 구하기 위한 '사회 기술 모델(Social and Technological Models)'을 제시하고 '빅데이터'가 사회현안 해결에 강력한 도구가 될 것으로 예측했다(Vital Wave Consulting, 2012). 우리나라 국가정보화전략위원회도 2011년 '빅데이터를 활용한 스마트 정부 구현(안)'을 보고했다. '빅데이터'는 민간 기업은 물론 정부를 포함한 공공 부문의 혁신을 수반하는 패러다임의 변화를 의미한다.
@ 정부 빅데이터 공개계획 확대, “미래 성장동력 되도록”
정부는 2월 1일 국민생활과 산업에 파급효과가 큰 식의약품 정보와 국가재난관리 정보 등 국가 중점개방 데이터 22개 분야를 올해 조기 개방한다고 발표했다. 빅데이터 산업 활성화를 위한 조치다. 황교안 국무총리는 이날 오전 정부서울청사에서 ‘공공데이터 전략위원회’ 제6차 회의를 주재하고 “정부3.0 가치를 바탕으로 보다 선제적이고 개방적인 공공데이터 개방 정책을 통해 국가경쟁력을 강화해 나가야 할 시점”이라며 “공공데이터 개방과 활용이 새로운 시장과 서비스 발굴, 고용창출로 이어져 미래 성장동력이 될 수 있도록 위원회가 지속적으로 노력해달라”고 당부했다. 이날 회의에서는 ‘2016년 국가 중점데이터 개방 추진계획’과 ‘공공데이터 품질관리 추진계획’, ‘공공 빅데이터 운영활성화 추진계획’ 등이 심의·확정됐다. 지난해까지 건축물 정보, 지자체 인허가 정보, 상권·부동산 정보 등 11개 분야 공공데이터 개방을 완료한 정부는 당초 올해 12개 분야 데이터를 개방할 예정이었지만, 민간의 추가 공개 수요가 늘어나고 파급효과 제고 등을 위해 22개 분야 전면 개방으로 확대했다.
.
정부는 “2013년 1기 공공데이터전략위원회 출범 후 공공데이터 개방 건수는 1만6000여건으로 3배 이상 증가했고, 데이터 이용 건수도 2013년 1만4000여건에서 지난해 78만여건으로 56배나 증가했다”면서 시장의 폭발적인 수요를 전했다. 정부는 구체적으로 ▲지방재정 ▲부동산거래관리 ▲국가법령정보 ▲식의약품종합정보 ▲도로명주소 ▲산업재산권정보 ▲건강진료정보심사 ▲노동보험 ▲국가통계통합 ▲국가재난관리정보·생활안전지도 ▲국가공간정보통합체계 ▲공간정보오픈플랫폼(브이월드) ▲교육행정정보·학교알리미 ▲고용보험 ▲폐기물 ▲음식물쓰레기 ▲도시계획정보 ▲해운항만물류정보 ▲수출입무역통계 ▲국가종합전자조달 ▲해양공간정보 ▲국민연금 ▲날씨예보자료 ▲국가과학기술연구 ▲산업기술정보 등 22개 분야 데이터베이스(DB)를 개방한다. 아울러 정부는 공공데이터 품질관리 추진계획에 따라 대용량 공공데이터를 대상으로 ‘데이터 품질등급제’를 도입·시행하는 등 민간의 데이터 활용을 보다 편리하게 개선키로 했다. 또 교통, 민원 등 활용성이 높은 분야에 빅데이터 표준모델을 개발해 확산에 나설 계획이다.
@ 경찰, 빅데이터 활용 범죄 분석·예측
경찰이 국가통합 형사사법정보시스템 '킥스(KICS)'에 저장된 데이터베이스와 인터넷상의 정보 등 '빅데이터'를 활용해 수사와 범죄 예측에 활용할 수 있도록 연구개발(R&D) 사업을 추진한다. 경찰청은 올해 치안과학기술 신규 R&D 사업의 하나로 '빅데이터 기반 범죄 분석 프로그램 개발 및 플랫폼 구축'을 정하고 1일부터 사업 수행자를 공개모집하고 있다고 5일 밝혔다. 연구개발 기간은 3년이며 예산은 52억여원이 배정됐다.
@ "이젠 영업도 과학"…빅데이터 활용하는 은행들
주요 은행들이 새로운 고객관계관리(CRM) 시스템을 도입하고 있다. 할당량을 주고 ‘알아서 채우라’는 식으로 관리하던 기존 영업방식 대신 빅데이터 등을 활용해 짜임새 있게 고객관리를 하기 위해서다. 신한은행은 지난해 11월 본점에 CRM 개선 전담팀을 신설해 새로운 영업관리 시스템을 개발 중이다. 오는 4월 전국 영업지점에 적용할 예정인 새 CRM은 공급자 시각의 기존 CRM과 차별화한 고객 관리 프로그램이다. 기존 CRM은 고객 연락처나 거래 실적, 교차 거래 여부 등 정량적 데이터를 근거로 영업하는 데 초점을 맞췄다. 예금 거래만 하는 고객에게 연락해 무작정 카드를 만들 것을 권유하는 식이었다. 이와 달리 새 CRM은 빅데이터로 고객들의 성향을 꼼꼼히 파악한 뒤 맞춤형 영업을 하는 형태다. 예를 들어 활자보다는 이미지를 더 잘 이해하는 고객층을 분류한 뒤 텍스트 대신 이미지로 상품을 설명하는 식이다.
@ 빅데이터, 자동차 산업마저 삼킨다
“빅데이터는 앞으로 5년 뒤 자동차 비즈니스의 신 차 개발, 마케팅, 판매, 서비스 판도를 재편할 것이다.” 지금도 자동차 회사들이 전통적인 소비자 조사에 여러 데이터 세트를 결합하고 있지만 5년 뒤 다룰 수 있는 정보의 양과 다양성은 유례 없이 폭발적으로 증가할 것”이라고 최근 발간한 TNS 엑스퍼트 리포트 ‘오피니언 리더’에서 밝혔다. 한국의 자동차 그룹 역시 글로벌 단위의 전략적 테크놀로지/디지털 파트너십을 구축할 필요가 있다고 조언했다. “현대나 기아 같은 한국의 OEM 기업과 LG는 자동차 산업에서 세계 최고 수준이다. 지난 1월 라스베가스 CES에서 현대가 자율주행차 개발 단계에서 선보인 다양한 보조 드라이빙 시스템이나 기아의 VR은 인상적이었다. 그러나 다른 글로벌 OEM과 마찬가지로 새로운 시대에 지속적으로 성공하려면 한국 자동차 기업도 글로벌 IT회사와의 제휴나 파트너십이 필요할 것”이라고 전했다. 그는 현재 모든 회사들이 몰두하고 있는 ‘커넥티드 카’의 개발도 중요하지만 이후 쏟아질 빅데이터의 활용 또한 이 못지 않게 중요하다고 강조했다.
@ 산불도 ‘스마트 기술’로 잡는다
우리 숲을 건강하고 안전하게 지키는 산림행정에도 첨단 스마트 테크놀로지가 총동원되고 있다. 산림청은 산불, 산사태, 병해충 등 ‘3대 산림재해’를 효율적으로 예방 관리하기 위해 올해 정보통신기술(ICT), 빅데이터, 무인항공기(드론) 등 첨단 기술을 현장 대처능력 업그레이드에 활용할 예정이라고 밝혔다. 또 그동안 인력에만 의존하던 병해충 예찰에도 드론이 본격 활용된다. 산림청은 드론을 동원한 병해충 피해목 조사 사업 면적을 지난해 4000㏊에서 올해 5만㏊로 대폭 늘렸다. 최병암 산림청 산림보호국장은 “산림 400㏊를 기준으로 인력예찰은 두 사람이 꼬박 열흘 정도 소요되는 데 비해 무인항공예찰은 하루면 충분하다”고 설명했다.
@ 빅데이터 활용, 예산절감 효과 기대
김천시는 `김천시 빅데이터 활용방안`이라는 주제로 연구보고회에서 김천시 빅데이터 활용을 위한 추진 전략으로 수요자 중심의 활용모델 개발, 안정적인 추진체계 구축, 데이터 개방과 공유, 데이터 활용문화 확산 및 정착을 제안했다. 이를 위해 준비(2016년), 실행(2017년), 정착 및 확산(2018년 이후) 등 3단계의 실행계획을 제시했다. 구체적인 활용 방안으로 스마트 농업 구현, 농산물 유통체계 개선, CCTV 설치 최적지 도출, 블랙박스를 활용한 불법주정차 단속, 버스노선 개편.인구관리, 폐기물 자원화 등 17개 세부 과제를 도출했다. 시는 이번 연구를 통해 정책수립 및 시행에 빅데이터를 활용함으로써 예산을 절감하고, 시민의 알권리를 충족하는 등 공공서비스 제고에 기여할 것으로 기대하고 있다.
@ 빅데이터로 홍수·가뭄 피해 줄인다
한국수자원공사는 '빅데이터를 활용한 수도운영시스템 고도화 구축 용역' 사업을 발주했다. 이 사업은 빅데이터를 활용해 물정보 통합관리 수도 위기 관리와 사고 대응 체계를 강화하기 위해 추진됐다. 공사는 수도통합지원센터에 빅데이터를 활용해 분석기반 사고 예측, 예방체계를 강화한다. 공사는 빅데이터 활용을 위해 지난해 관련 데이터베이스(DB) 신뢰도를 높이기 위한 관련 데이터를 통합, 개선하는 작업을 진행했다. 이를 통해 빅데이터를 활용한 사고 예측 분석, 신뢰성 향상을 기대할 수 있게 됐다. SW업계 관계자는 "홍수 등 자연재해 부문에 빅데이터를 도입하면 피해 예방 뿐 아니라 한정된 예산을 효과적으로 활용할 수 있다"며 "국내 공공기관에서 빅데이터 도입은 해외보다 늦어 적극적인 대응이 필요하다"고 말했다.
글로벌 기업들의 움직임
해외 기업들은 글로벌 기업들을 중심으로 AI 개발에 적극적인 움직임을 보이고 있다. 구글, 페이스북 등은 글로벌 기업들을 중심으로 전문가 영입 및 관련기업 투자 등을 통해 인공지능 분야 기술 개발에 집중하고 있다. IBM은 슈퍼컴 ‘왓슨’으로 오랜기간 인공지능 기술개발에 투자한 반면 최근들어 구글, 페이스북, MS와 중국의 바이두까지 적극적으로 가담하고 있는 상황이다. 구글은 스마트온도조절기 업체 ‘네스트(Nest, 32억 달러)’ 와 영국스타트업기업인 ‘딥마인드(Deep Mind, 6억달러)’에 인수했으며 바이두사도 3억 달러를 투자, 미국에 AI연구소를 설립한 바 있다. 애플은 인공지능을 차세대 핵심 기술로 보고 R&D 전문인력을 영입하고 관련 사업 확대를 위해 인공지능 기업들을 인수하고 있다. 이에 모바일 스트리밍 업체인 ‘스웰(Swell)’ 및 지능형 개인비서 앱개발업체인 ‘큐(Cue)’를 인수한 바 있다.
국내는 네이버와 카카오(다음카카오)를 중심으로 인공지능 연구 및 서비스가 출시됐으나 해외에 비하면 규모나 수준이 미약한 편이다. 네이버는 2012년부터 ‘네이버랩스’를 별도로 운영하고 있고 카카오도 인공지능에 대한 투자를 강화했으며, 엔씨소프트는 ‘AI랩’을 운영해 인공지능 기반의 게임개발에 집중하고 있다. 또한 음성인식 검색서비스와 ‘N드라이브’ 사진 분류서비스, ‘지식iN’서비스에 딥러닝 기술을 적용했고 카카오도 즉답검색서비스와 여행지 추천서비스에 ‘머신러닝’기술을 활용하고 있다. 삼성은 직접적인 개발보다는 해외 유망기업에 투자를 통해 인공지능 분야를 준비하고 있다. 올 초 세계최초 가정용 로봇 개발 벤처회사인 ‘지보(JIBO)’에 200억원 가량 투자했으며 인공지능 기술관련 벤처기업인 ‘비캐리어스’에도 투자를 결정했다. 정부과제 및 투자를 바탕으로 일부 스타트업기업들이 작지만 활발하게 연구가 이뤄지고 있고 대학 및 연구소는 ETRI와 KAIST를 중심으로 진행되고 있다. KAIST 출신의 루닛(구 클디), 엑소브레인 참여기관인 솔트룩스, 의료관련 기업인 디오텍 등이 정부 R&D 과제 및 투자 유치를 통한 본격적 연구 및 제품 개발에 집중하고 있다. 루닛은 소프트뱅크벤처스를 통해 20억 투자를 유치했으며 디오텍, 뷰노코리아, 마인즈랩 등은 의료분야에 특화된 기술 및 서비스 개발 중이다.