정의
빅데이터 (BigData)란 기존의 관리 및 분석체계로는 감당할 수 없을 정도의 거대한 데이터의 집합을 지칭하며 대량의 정형 또는 비정형 데이터세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미함.
빅데이터는 범람하는 정보 속에서 새로운 가치창출을 하고자 데이터를 저장하고 분석하는 과정으로 단순히 범람하는 정보를 처리·삭제하는 과정이 아니라 분석결과를 갖고 조직의 분석기획 담당자들이 자유롭게 이용할 수 있어야하며 이를 통해 나타난 복잡한 정보를 한눈에 볼 수 있도록 도표나 3D형태의 정보의 시각화가 이루어져야 그 가치가 높아짐.
2000년대 중반 다양한 온라인 서비스들이 본격적으로 등장하고 온라인 서비스 사업자들은 사용자가 얼마나 많은 양의 데이터를 생성하고 있는지 알게 되어 가던 시기에 Hadoop (빅 데이터 세트를 저장하고 분석하기 위해 특별히 개발된 오픈 소스 프레임워크)이 개발되었음. Hadoop (그리고 최근에는 Spark) 같은 오픈 소스 프레임워크의 개발은 빅 데이터를 보다 손쉽게 사용하고 저렴하게 저장할 수 있게 해준다는 점에서 빅 데이터의 성장에 필수적기술이 되었음.
대부분의 빅데이터는 방대한 비정형 데이터세트로 구성되며 서로 분리되고 일관되지 않은 소스로부터 제공되는데 이때 방대한 데이터의 저장에 관한 이슈가 발생하게 되며 이를 해결하기 위해 클라우드 스토리지 솔루션을 통해 빅데이터를 보관하고 분석하는 기반을 마련하고, AI와 머신러닝 기술을 적용하여 가치있는 데이터를 제공하는 것을 그 최종 목적으로 하고 있음.
빅데이터는 통상 아래 5가지 특징을 지니는 것으로 설명됨.
- VOLUME
빅 데이터의 가장 특징적인 속성인 볼륨(Volume)은 하루 종일 비즈니스를 통과하는 데이터의 양과 가치를 끌어내기 위해 비즈니스를 총체적으로 이해하기 위해 각 데이터 항목을 저장해야 하는 방법을 의미함. 여기서 데이터는 보전, 정형, 비정형, 반정형을 의미한다, 방대한 볼륨이 없으면 빅 데이터는 의미가 퇴색되며 빅 데이터의 가치는 Volume에 기반함.
- VELOCITY
빅 데이터에서 속도는 들어오는 데이터를 저장하는 중요한 특성을 나타내는데, 엄청난 속도로 비즈니스 생태계를 통해 방대한 데이터가 움직이고 있고 빅 데이터 시스템은 실시간의 속도로 이 데이터를 저장할 수 있는 환경을 갖추고 있음. 데이터가 들어오는 속도와 저장 속도가 일치하지 않으면 백로그가 자주 발생하여 궁극적으로 시스템의 부조화가 발생하며 이를 해결하기 위해 빅 데이터 시스템은 대규모의 지속적인 데이터 흐름을 처리하도록 설계되었음.
- VARIETY
비즈니스 생태계에서 가치 있는 모든 것을 포착하는 것이 빅 데이터의 특징으로써, 즉각적인 가치는 없지만 시스템에 인텔리전스를 구축하는 데 필요한 통찰력을 얻기 위해 고급 도구를 사용하여 추가로 처리할 수 있는 데이터가 포함됨. 비즈니스에 익숙한 정형 데이터 외에도 이미지, 비디오, 사운드, 플랫 파일, 이메일 본문, 로그 파일 등과 같은 비정형 데이터이며 고급 도구로 추출할 수 있는 반정형 데이터가 포함되어 있음. 빅 데이터 시스템은 비정형 및 반정형 데이터를 적시에 효율적으로 저장하도록 설계되었고 다양한 데이터 또는 이기종 데이터를 저장하는 것 외에도 속도 저하 없이 다양한 데이터 유형의 데이터 소스에 효율적으로 연결되어야 함을 의미함.
- VERACITY
빅데이터가 허용하는 양, 다양성 및 속도로 인해 데이터를 기반으로 구축된 모델은 반드시 신뢰할 수 있는 데이터 기반에서 관리되어야 하는데, 이는 소스 데이터의 신뢰성, 처리 후 파생된 데이터의 품질을 의미하며, 시스템은 데이터 편향, 비정상 또는 불일치, 변동성, 중복에 대한 처리방안을 고려해야 함.
- VALUE
결국 중요한 것은 어떤 가치를 지니는가에 대한 것으로 빅 데이터 시스템이 합리적인 시간 내에 전체 활동에서 가치를 도출할 수 없다면 비즈니스에 참여하는 것은 가치 있는 활동이 아니게 되므로 그 가치가 크든 작든 분석 팀과 연구 팀이 생각하고, 설계하고, 구축하고 제공하는 것이 중요함.
분류
ㅇ 데이터 형태에 의한 분류
- 정형 데이터
이 유형의 데이터는 조직화 및 검색이 가장 단순한데, 정량적이고 고도로 조직화되어 있고, 일반적으로 관계형 데이터베이스(RDBMS)에 저장되어 있으며, 미리 정의되어진 특징과 규격에 따라 관리되어야 함. 열 및 행의 레이아웃이 사전 정의된 엑셀 스프레드시트는 정형 데이터의 대표적인 사례이며, 이들 데이터의 구성요소는 범주화가 용이해 데이터베이스 설계자와 관리자가 검색 및 분석 알고리즘을 간단히 정의할 수 있지만 일반적으로 정형 데이터는 규모가 매우 크더라도 빅데이터라고 할 수는 없음.
- 비정형 데이터
이 범주에 속하는 데이터에는 소셜 미디어 게시글, 오디오 파일, 이미지, 주관식 고객 의견 등이 포함될 수 있으며, 이러한 유형의 데이터는 표준적인 행-열 관계형 데이터베이스로 관리하기 어렵기에 대량의 비정형 데이터를 검색, 관리, 분석하는 기업은 이를 처리하는데 많은 비용을 사용해야 하였으나 최근에는 스프레드시트나 관계형 데이터베이스 대신 데이터 레이크, 데이터 웨어하우스, NoSQL 데이터베이스에 저장됨.
- 반정형 데이터
반정형 데이터는 정형, 비정형 데이터의 하이브리드로 전자메일은 이러한 데이터의 좋은 예로, 메시지 본문에는 비정형 데이터가 포함되는 반면 발신자, 수신자, 제목, 날짜 등 구조화된 속성도 포함됨. GPS 테그, 타임스탬프, 시맨틱 태그 등을 사용하여 비정형 콘텐츠와 함께 정형화된 형태의 데이터를 제공할 수 있음.
주요동향
ㅇ 해외 동향
데이터양이 증가함에 따라, 해당 데이터를 처리해주는 기술인 빅데이터 및 데이터분석 시장의 규모도 점점 커지고 있음. 스태티스타의 조사에 따르면, 2015년 1,120억 달러를 기록한 빅데이터 및 데이터분석 시장은 2018년 1,688억 달러까지 성장하였으며, NIPA의 2019년 글로벌 빅데이터 시장 보고서에 따르면 2022년에는 2,743억 달러를 기록할 것으로 예상되고 있음.
ㅇ 국내 동향
국내의 경우 한국데이터산업진흥원이 조사한 “2020 데이터산업 현황조사”에 따르면 2020년 국내 빅데이터 산업 시장규모는 12,133억 원으로 전년 대비 35.4% 성장한 것으로 나타났으며, 2015년부터 2020년까지 연평균 증감률(CAGR) 35.8%를 기록하며 지속적인 성장세를 나타내고 있는 것으로 조사되었음.
특히, 매출 1,000억 원 이상 기업의 경우 35.0%로 전년 대비 2.7%p로 증가한 것으로 나타나 업종별로는 공공의 도입률이 52.3%로 가장 높게 나타났고, 민간기업에서는 금융(32.2%), 통신·미디어(21.7%), 유통·서비스(16.9%), 제조업(16.7%) 등의 순으로 높게 나타나 통신·미디어, 금융, 유통·서비스 등 이종산업간 데이터 결합, 가공을 위한 빅데이터 시스템 투자와 수요가 지속적으로 확대될 것으로 전망되고 있으며, 2019년 이후 정부의 적극적인 데이터 활성화 정책 추진의 영향으로 2019년에는 공공의 빅데이터 시장규모는 지속적으로 상승하였고, 민간시장에서도 빅데이터 시장규모가 전년대비 39.4%의 성장률로 크게 성장하였음. 2020년 전체 빅데이터 시장규모는 2019년 대비 35.4% 성장한 1조 2,133억 원이며, 2015년에서 2020년까지 연평균 증감률(CAGR)은 35.8%로 나타났음(한국데이터산업진흥원, 2020).
'아빠방 > Article' 카테고리의 다른 글
기계학습 기반 이미지 처리 유형 (0) | 2022.02.28 |
---|---|
블록체인 (0) | 2022.02.15 |
클라우드 컴퓨팅 (0) | 2022.02.07 |
언텍트 기반 컨퍼런스 : 시장전망 (0) | 2020.09.24 |
언텍트 기반 컨퍼런스 : 개요 (0) | 2020.09.24 |
댓글