cyphen156
빅데이터 분석기사 1-1 빅데이터 개론 본문
※ 해당 과목에 대한 공부는 이렇게 기막힌 적중률 2025 빅데이터 분석기사 필기 기본서를 통해 수행하였습니다.
단순한 개념 정리 글입니다. 참고만 하시고 추가로 공부해주세요.
책에는 있지만 본문에 정리되지 않는 내용이 있습니다. 개인적으로 그냥 한번 개념 읽고 넘어가면 되겠다 싶은 부분이라 생각되어 생략한 것이니 주의해주세요.
1. 데이터
현실세계에서 관찰하거나 측정하여 수집한 사실
데이터의 유형
- 정량적 데이터 : 수학적 기호로 표현되는 데이터
- 정성적 데이터 : 텍스트로 표현되는 데이터 / 정보의 함축성을 가지고 있다.
데이터 수집 유형
- 정형 데이터 : 정해진 형식과 구조에 맞게 구성된 데이터, 연산 가능
- 반정형 데이터 : 정형 데이터와 비정형 데이터의 유형의 혼합형, 스키마 정보를 데이터와 함께 제공한다. 1
- 비정형 데이터 : 동영상, 이미지와 같이 구조가 정해지지 않은 대부분의 데이터, 연산 불가능
데이터 원본에 따른 분류(원본으로의 환원 가능 여부에 따른 분류)
- 가역 데이터 : 수집될 당시의 상황을 그대로 표현한 데이터
- 불가역 데이터 : 전처리, 프로파일 구성 등을 통해 어느정도 가공된 데이터를 말함. 메타 정보를 포함한다고 볼 수 있음.
데이터의 습득 경로에 따른 분류
- 암묵지 : 오랜 경험 등을 통해 개인에게 체화 되거나 외부에 표출되지 못하는 무형의 지식. 관습법, 무형문화재 등을 연상하면 된다.
- 형식지 : 형상화된 유형의 지식. 책 또는 성문법, 유형문화재 등을 연상하면 된다.
데이터의 창조 메커니즘 4순환 관계 / 정보의 발전 단계
- 공통화 : 서로의 경험이나 인식을 공유하여 한 차원 높은 암묵지로 발전시킨다.
- 표출화 : 암묵지가 구체화되어 외부로 표현되어 형식지를 형성한다.
- 연결화 : 형식지를 재분류하여 체계화 한다.
- 내면화 : 체계회돤 형식지를 다시 개인이 학습하여 암묵지가 된다.
지식 피라미드

2. 데이터베이스
수집한 데이터를 정보로 가공하기 전에 어딘가에 체계적으로 모아두고, 검색하여 사용할 수 있는 저장고
DBMS
데이터베이스를 편하게 사용하기 위해 만들어놓은 관리 시스템
DBMS 종류
- 관계형(Relational) DBMS : 행과 열을 통해 테이블의 구조로 데이터의 관계를 나타내는 유형
- 객체지향(Object Oriented) DBMS : 데이터를 객체로 표현하며, 관계형보다 유연한 개별 데이터에 초점이 맞춰진 유형
- 네트워크(Network) DBMS : 그래프 구조를 기반으로 표현된 유형
- 계층형( Hierarchical) DBMS : 트리 구조를 통해 계단식 구조로 표현되는 유형
데이터베이스의 특징
- 통합된 데이터 : 데이터의 중복을 최소화 하여 미래의 문제를 방지함
- 저장된 데이터 : 데이터가 어딘가에 저장되어 사용자가 접근하여 검색하고, 사용할 수 있음
- 공용 데이터 : 여러 사용자가 사용할 수 있도록 권한이 허용됨
- 변화되는 데이터 - 데이터 무결성 : 데이터는 수집된 시간의 상태를 나타내며 지속적으로 갱신될 수 있음을 의미, 변화를 항상 적용하여 데이터가 변질되는 일이 없도록 항상 갱신 시점의 데이터를 정확하고 일관되게 하여 무결성을 유지해야 한다.
데이터베이스의 활용
- OLTP (On-Line Transaction Processing)
- 정의
- 실시간으로 데이터의 입력, 수정, 삭제, 검색 등의 트랜잭션을 처리하는 시스템.
- 정보의 갱신에 목적이 있음.
- 주로 업무의 운영을 목적으로 사용되며, 빠른 응답 속도와 데이터의 일관성이 중요함.
- 특징
- 작고 빈번한 트랜잭션 처리에 최적화.
- 데이터는 최신 상태를 유지하며, 사용자는 실시간으로 데이터를 변경하거나 조회 가능.
- ACID 특성(원자성, 일관성, 고립성, 지속성)을 준수.
- 예
- 은행 시스템(계좌 이체, 잔액 조회).
- 온라인 쇼핑몰(주문 처리, 재고 관리).
- 정의
- OLAP (On-Line Analytical Processing)
- 정의
- 대량의 데이터를 기반으로 다차원적인 분석을 수행하여, 의사결정을 지원하는 시스템.
- 데이터는 보통 과거의 데이터를 집계, 요약, 분석하여 통찰력을 제공함.
- 특징
- 데이터의 읽기 전용 분석에 초점.
- 복잡한 쿼리를 수행하며, 다차원 모델링(OLAP 큐브)을 사용하여 데이터를 다양한 관점에서 분석.
- 대량의 데이터를 처리하며, 실시간보다는 분석의 정확성과 깊이가 중요.
- 예
- 경영 보고서(매출 분석, 고객 행동 패턴 분석).
- BI(Business Intelligence) 도구(파워 BI, 태블로).
- 데이터 웨어하우스에서 실행되는 분석 쿼리.
- 정의
SQL/NO-SQL
데이터베이스에 저장된 데이터를 효과적으로 검색하기 위한 도구, SQL은 주로 정형 데이터를, NO-SQL은 주로 비정형데이터를 다룬다.
데이터 웨어하우스
데이터 뿐만 아니라 데이터에 대한 분석 방법 까지 포함하여 조직 내 의사결정에 도움을 주기 위한 정보 관리 시스템(DBMS + Analystics)
데이터 웨어하우스 특징
- 주체지향성 : 고객, 제품과 같은 주제를 중심으로 그 주제와 연관된 데이터들로 구성한다.
- 통합성 : 모든 데이터는 항상 일관된 형태로 변환되어 통합된다.
- 시계열성 : 일정 기간 동안 특정 시점별(회차 분석)로 이어진다.
- 비휘발성 : 데이터가 일단 웨어하우스에 적재되면 일괄 처리에 의한 갱신 외에는 변경을 허용하지 않는다. -> 분석 무결성을 위한 제약
데이터 웨어하우스의 구성 요소

- 데이터 모델 : 주제 중심의 다차원 개체 - 관계 모델로 설계
- ELT : 데이터 추출, 전송, 적재의 과정
- ODS : Operation Data Store / 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리한다.
- DW 메타데이터 : 데이터 모델에 대한 스키마 정보와 비즈니스 측면의 활용 정보를 제공함
- OLAP : 사용자가 직접 다차원 데이터를 확인 할 수 있게 해주는 솔루션
- 데이터 마이닝 : 대용량 데이터에서 필요한 데이터만을 선별 할 수 있도록 만들어주는 방법론
- 분석 도구 : 데이터 마이닝을 활용하여 DW에 적재된 데이터를 분석할 수 있는 도구
- 경영 기반 솔루션 : KMS, DSS, BI와 같은 의사결정 지원 솔루션
- KMS : 지식 관리 시스템
- DSS : 의사 결정 지원 시스템
- BI : 데이터를 분석해 기업의 의사결정에 활용되는 일련의 프로세스
3. 빅데이터
기존 데이터베이스 체계로는 분석하기 힘들정도로 너무 방대한 데이터를 지칭한다.
대용량 데이터를 활용해 개별 데이터만으로는 얻을 수 없었던 새로운 통계적 가치를 추출한다.
빅데이터로 인해 생긴 변화
- 데이터의 처리 시점 : 사전 처리 -> 사후 처리
- 데이터의 처리 방식 : 중앙집중식 -> 분산 처리식
- 데이터 수집 범위 : 필요한 정보만 수집 -> 일단 많은 데이터를 수집, 조합 --> 숨은 정보를 추출
- 데이터의 가치 판단 : quality(질) -> quantity(양)
- 데이터 분석의 방향성 : 이론적 인과 중심 -> 단순한 상관관계
- 데이터 갱신 : 지속적인 데이터의 갱신과 추가는 통계적 가치와 정보 추론 결과를 더욱 확고하게 해줌
- 통계 추적을 통해 특정 현상의 발생 가능성을 예측 가능해짐
Gartner 그룹의 빅데이터 특징 :: 5V
- 규모(Volume)
- 유형(Variety)
- 속도(Velocity)
- 품질(Veracity)
- 가치(Value)
빅데이터 활용을 위한 3요소
- 자원
- 기술
- 인력
빅데이터 활용을 위한 대표 기술들
- 연관규칙학습
- 유형분석
- 유전 알고리즘
- 기계학습
- 회귀분석
- 감정분석
- SNS 분석
4. 빅데이터의 장/단점
- 장점
- 고객을 세분화하여 맞춤형 서비스를 제공할 수 있게됨
- 알고리즘을 기반으로 의사결정을 지원하거나 대신할 수 있음
- 시뮬레이션을 통한 수요 포착과 변수 탐색을 통해 경쟁력 강화, 비즈니스 모델, 제품 또는 서비스에 혁신을 가져옴
- 정보 가치의 투명성을 높여 R & D 및 관리의 효율성을 제고
- 단점
- 새로운 시장 진입 기업에게는 진입장벽의 역할을 하게 된다.
- 과도한 통계적 추정은 새로운 가치 창출을 저해하여 혁신을 오히려 방해할 수 있음
빅데이터 가치 측정이 어려운 이유
- 데이터의 활용 방식이 다양함
- 가치 창출 방식에 따라 다양한 핵심 가치가 창출된다.
- 현재는 의미없어보여도 분석방법론의 발전으로 인해 새로운 가치를 창출할 수 있다.
- 달성하려는 목적에 따라 데이터를 수집하거나 가공하는 비용이 달라진다.
5. 데이터 산업의 이해
데이터의 가치 발전도

- 데이터 처리 : 단순한 업무의 일종
- 데이터 통합 : 많아진 데이터를 효율적으로 관리하기 위한 필요성 대두 -> 데이터 모델링, DBMS 등장
- 데이터 분석 : 대규모 데이터 수집의 필요성 대두, 빅데이터 등장
- 데이터 연결 : 모든 것들이 항상 서로 영향을 주고받으며 새로운 가치를 창출하기 시작함.
- 데이터 권리 : 자신의 데이터에 대한 권리에 대한 인식 대두, My Data와 같은 ECMA대두
데이터 산업 구조
- 인프라
- 데이터 수집, 저장, 분석, 관리 등의 기능을 담당함
- 서비스
- 데이터를 활용하기 위한 교육이나 컨설팅, 솔루션을 제공
- 데이터 자체를 제공하거나 정보를 인프레에 제공
2025 이기적 빅데이터분석기사 필기 기본서 - 영진닷컴 온라인 서점
2025 이기적 빅데이터분석기사 필기 기본서
동영상 강의 무료 + CBT 온라인 문제집 제공
shop.youngjin.com
- 데이터의 구조 또는 표현 방법에 대한 정보를 말함 [본문으로]