정의


기존 DBMS Tool(데이터베이스 관리도구) 의 능력을 넘어서는 

수십 TB 의 정형 또는 심지어 데이터베이스 형태가아닌 비정형 데이터의 집합 조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술



2012년 가트너는 빅데이터 기존의 정의를 다음과 같이 개정하였다: 

“빅 데이터는 큰 용량(volume), 빠른 속도(velocity), 그리고(또는) 높은 다양성(veriety)을 갖는 정보 자산으로서 이를 통해 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.”



분석기법


빅 데이터의 분석, 활용을 위한 빅 데이터 처리 기법은 크게 분석 기술, 표현 기술로 나뉜다.


분석 기술


  • 텍스트 마이닝: 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공
  • 오피니언 마이닝: 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별
  • 소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정
  • 군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴


대규모의 정형/비정형 데이터를 처리하는 데 있어 가장 기본적인 분석 인프라로 하둡이 있으며, 데이터를 유연하고 더욱 빠르게 처리하기 위해 NoSQL 기술이 활용되기도 한다.


+ Recent posts