※ 공부 내용의 복습 개념으로 정리된 글입니다. - 출처 시나공
빅데이터(Big Data)
빅데이터는 기존의 관리 방법이나 분석 체계로는 처리하기 어려운 막대한 양의 정형 또는 비정형 데이터 집합으로, 스마트 단말의 빠른 확산, 소셜 네트워크 서비스의 활성화, 사물 네트워크의 확대로 데이터 폭발이 더운 가속화되고 있습니다.
- 빅데이터가 주목받고 있는 이유는 기업이나 정부, 포털 등이 빅데이터를 효과적으로 분석함으로써 미래를 예측해 최적의 대응 방안을 찾고, 이를 수익으로 연결하여 새로운 가치를 창출하기 때문입니다.
※ 사물 네트워크
사물 네트워크는 인간과 사물, 서비스 등 분산되어 있는 요소들이 인간의 개입 없이 상호 협력적으로 감지, 통신, 정보 처리 등 지능적 관계를 형성하는 네트워크입니다.
브로드 데이터(Broad Data)
브로드 데이터는 다양한 채널에서 소비자와 상호 작용을 통해 생성된, 기업 마케팅에 있어 효율적으고 다양한 데이터이며, 이전에 사용하지 않거나 알지 못했던 새로운 데이터나, 기존 데이터에 새로운 가치가 더해진 데이터를 말합니다.
- 브로드 데이터는 대량의 자료를 뜻하는 빅데이터(Big Data)와는 달리 다양한 정보를 뜻하는 것으로, 소비자의 SNS 활동이나 위치 정보 등이 이에 속합니다.
- IBM은 아시아 유통 데이터 분석 리포트를 통해 브로드 데이터의 중요성을 강조하기도 했습니다.
메타 데이터(Meta Data)
메타 데이터는 일련의 데이터를 정의하고 설명해 주는 데이터입니다.
컴퓨터에서는 데이터 사전의 내용, 스키마 등을 의미하고 HTML 문서에서는 메타 태그 내의 내용이 메타 데이터입니다.
방송에서는 방대한 분량의 저작물을 신속하게 검색하기 위한 촬영 일시, 장소, 작가, 출연자 등과 음원의 검색을 위한 작곡자나 가수명 등을 메타 데이터로 처리합니다.
- 메타 데이터는 여러 용도로 사용되나 주로 빠르게 검색하거나 내용을 간략하고 체계적으로 하기 위해 많이 사용됩니다.
디지털 아카이빙(Digital Archiving)
디지털 아카이빙은 디지털 정보 자원을 장기적으로 보존하기 위한 작업을 말합니다.
아날로그 콘텐츠는 디지털로 변환한 후 압축해서 저장하고, 디지털 콘텐츠도 체계적으로 분류하고 메타 데이터를 만들어 DB화하는 작업입니다.
- 디지털 아카이빙은 늘어나는 정보 자원의 효율적인 관리와 이용을 위한 필요한 작업입니다.
하둡(Hadoop)
하둡은 오픈 소스를 기반으로 한 분산 컴퓨팅 플랫폼입니다.
- 하둡은 일반 PC급 컴퓨터들로 가상화된 대형 스토리지를 형성하고 그 안에 보관된 거대한 데이터 세트를 병렬로 처리할 수 있도록 개발된 자바 소프트웨어 프레임워크로, 구글, 야휴 등에 적용되고 있습니다.
- 하둡과 관계형 데이터베이스(RDB) 간 대용량 데이터를 전송할 때 스쿱(Sqoop)이라는 도구를 이용합니다.
※ 스쿱(Sqoop)
스쿱은 하둡과 관계형 데이터베이스 사이에서 효율적으로 데이터를 이관하고 변환해 주는 명령줄 인터페이스 애플리케이션입니다.
맵리듀스(MapReduce)
맵리듀스는 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델로, 흩어져 있는 데이터를 연관성 있는 데이터 분류로 묶는 Map 작업을 수행한 후 중복 데이터를 제거하고 원하는 데이터를 추출하는 Reduce 작업을 수행합니다.
- Google에 의해 고안되었으며, 대표적인 대용량 데이터 처리를 위한 병렬 처리 기법으로 많이 사용되고 있습니다.
타조(Tajo)
타조는 오픈 소스 기반 분산 컴퓨팅 플랫폼인 아파치 하둡(Apache Hadoop) 기반의 분산 데이터 웨어하우스 프로젝트로, 우리나라가 주도하여 개발하고 있습니다.
- 타조는 하둡(Hadoop)의 빅데이터를 분석할 때 맵리듀스(MapReduce)를 사용하지 않고 구조화 질의 언어(SQL)를 사용하여 하둡 분산 파일 시스템(HDFS, Hadoop Distributed File System) 파일을 바로 읽어낼 수 있습니다.
- 타조는 대규모 데이터 처리와 실시간 상호 분석에 모두 사용할 수 있습니다.
※ 데이터 웨어하우스(Data Warehouse)
데이터 웨어하우스는 정보(Data)와 창고(Warehouse)의 합성어로, 기업의 의사결정 과정에 효과적으로 사용될 수 있도록 여러 시스템에 분산되어 있는 데이터를 주제별로 통합 · 축적해 놓은 데이터베이스입니다.
데이터 다이어트(Data Diet)
데이터 다이어트는 데이터를 삭제하는 것이 아니라 압축하고, 중복된 정보는 중복을 배제하고, 새로운 기준에 따라 나누어 저장하는 작업입니다.
- 데이터 다이어트는 인터넷과 이동통신 이용이 늘면서 각 기관 · 기업의 데이터베이스에 쌓인 방대한 정보를 효율적으로 관리하기 위해 대두된 방안으로, 같은 단어가 포함된 데이터들을 한 곳에 모아 두되 필요한 때 제대로 찾아내는 체계를 갖추는 것이 중요합니다.
데이터 마이닝(Data Mining)
데이터 마이닝은 데이터 웨어하우스에 저장된 데이터 집합에서 사용자의 요구에 따라 유용하고 가능성 있는 정보를 발견하기 위한 기법입니다.
- 대량의 데이터를 분석하여 데이터 속에 내재되어 있는 변수 사이의 상호관계를 규명하여 패턴화함으로써 효율적인 데이터 추출이 가능합니다.
OLAP(Online Analytical Processing)
OLAP는 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 분석하여 의사결정에 활용하는 방식입니다.
- OLAP 시스템은 데이터 웨어하우스나 데이터 마트와 같은 시스템과 상호 연관되는 정보 시스템입니다.
- OLAP 연산
- Roll-up, Drill-down, Drill-through, Drill-across, Pivoting, Slicing, Dicing
'정보처리산업기사' 카테고리의 다른 글
정보처리산업기사 - 프로그래밍 언어 활용 - 데이터 타입 (0) | 2024.08.09 |
---|---|
정보처리산업기사 - 정보 시스템 기반 기술 용어 - 네트워크 관련 신기술 (0) | 2024.08.06 |
정보처리산업기사 - 정보 시스템 기반 기술 용어 - HW 관련 신기술 (0) | 2024.07.29 |
정보처리산업기사 - 정보 시스템 기반 기술 용어 - SW / 보안 관련 신기술 (0) | 2024.07.28 |
정보처리산업기사 - 테스트 및 배포 - 빌드 자동화 도구 (0) | 2024.07.27 |