1절. 분석 기획 방향성 도출
분석 기획의 특징
1) 분석 기획 : 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
2) 데이터 사이언티스트의 역량 : 수학/통계학적 지식, 정보기술, 비즈니스에 대한 이해와 전문성
분석 대상과 방법
분석의 대상(What)과 분석의 방법(How)에 따라 4가지로 분류
분석 주제 유형 | 분석의 대상(What) | ||
Known | Un-known | ||
분석의 방법(How) | Known | Optimization | Insight |
Un-known | Solution | Discovery |
목표 시점 별 분석 기획 방안
과제 중심적인 접근 방식 | 장기적인 마스터 플랜 방식 | |
1차목표 | Speed&Test | Accuracy&Deploy |
과제의 유형 | Quick&Win | Long Term View |
접근 방식 | Problem Solving | Problem Definition |
(+)Quick-Win? 즉각적인 실행을 통한 성과 도출
프로세스 진행 과정에서 일반적인 상식과 경험으로 원인이 명백한 경우 바로 개선함으로써 과제를 단기로 달성,추진
분석 기획 시 고려사항
- 분석의 기본인 가용 데이터에 대한 고려가 필요
- 데이터의 유형 분석이 선행적으로 이루어져야함 (정형인지, 반정형인지, 비정형인지)
- 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 유즈케이스 탐색이 필요
- 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립이 필요
- 일회성 분석에 그치지 않고 조직 역량 내재화를 하기 위해선, 충분하고 계속적인 교육 및 활용방안 등의 변화 관리 고 려 해야함!
(+)
데이터 유형
종류 | 정형 데이터 | 반정형 데이터 | 비정형 데이터 |
특징 | 데이터 자체로 분석 가능 RDB구조의 데이터 데이터베이스로 관리 |
데이터로 분석이 가능하지만 해석이 불가능하며 메타정보를 활용해야 해석 가능 | 데이터 자체로 분석이 불가능특정 프로세스를 거쳐 분석데이터로 변경 후 분석 |
유형 | ERP, CRM, SCM | 로그데이터, 모바일데이터 | 파일형태, 영상, 음성, 문자 |
데이터 저장 방식
종류 | RDB | NoSQL | 분산파일시스템 |
특징 | 관계형 데이터를 저장, 수정, 관리할 수 있게 해주는 데이터 베이스 | 비관계형 데이터 저장소 | 분산된 서버의 디스크에 파일 저장 |
유형 | Oracle, MSSQL, MySQL | MongoDB, Cassandra, Hbase, Redis | HDFS |
2절. 분석 방법론1
분석 방법론의 필요성
데이터 분석을 효과적으로 기업에 정착하기 위해 데이터 분석을 체계화하는 절차와 방법이 정리되 ㄴ데이터 분석 방법론 수립이 필요
분석방법론의 구성요소
- 상세한 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
기업의 합리적 의사결정을 가로막는 장애요소
- 고정관념(Stereotype)
- 편향된 생각(Bias)
- 프레이밍 효과(Framing Effect) > 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고
개인의 판단이나 선 택이 달라질 수 있는 현상
방법론의 적용 업무의 특성에 따른 모델
- 폭포수 모델(Waterfall Model)
단계를 순차적으로 진행하는 방법으로 이전 단계가 완료 되어야 다음 단계 진행 가능한 하향식 진행
문제점이 발견되면 전단계로 돌아가는 피드백 수행
- 프로토타입 모델(Prototype Model)
사용자의 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확하게 파악하기 힘들때 사용
고객의 요구가 맞는지 확인을 위해 일부분은 우선 개발 후 그 결과를 통한 개선작업
신속하게 해결책 모형제시, 상향식 접근
- 나선형 모델(Spiral Model)
반복을 통해 점증적으로 개발하는 방법
반복에 대한 관리 체계가 효과적으로 갖춰지지 못한 경우 복잡도가 상승하여 진행이 어려울 수 있다.
2절. 분석 방법론2
KDD 분석 방법론
Knowledge Discovery in Databases
데이터베이스로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
KDD 분석 절차
1) Selection - 데이터셋 선택
비즈니스 도메인에 대한 이해와 프로젝트 목표 설정을 먼저 하고, 목표데이터를 구성
2) Preprocessing - 데이터 전처리
앞에 데이터 셋에서 잡음, 이상치, 결측치 식별 및 처리
3) Transformation - 데이터 변환
정제된 데이터를 목적에 맞게 차원 축소 + 학습용 데이터, 검증용 데이터로 분리
4) DataMining - 데이터 마이닝
목적에 맞는 데이터 마이팅 기법을 선택하고 실행, 필요하다면 전처리와 변환 과정을 추가로 가진다.
5) Interpretation/Evaluation - 데이터 마이닝 결과 평가
결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
전통적인 분석 방법론
CRISP-DM 분석 방법론
1996년 유럽 연합에서 있었던 프로젝트에서 시작되었으며, 주요한 5개 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도. 계층적 프로세스 모델로서 4개의 레벨로 구성
CRISP-DM의 4레벨 구조
최상위 레벨은 여러 개의 단계(Phases)로 구성되고, 각 단계는 일반화 테스트(Generic Tasks)를 포함한다.
일반화 테스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이고 여러개의 세분화 테스크로 구성된다.
데이터 정제라는 일반화 테스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 테스크로 구성된다.
프로세스 실행은 데이터마이닝을 위한 구체적인 실행을 포함한다.
CRISP-DM의 프로세스
총 6단계로 구성되어 있다. 각 단계는 단방향으로 구성되어있지 않고, 단계 간 피드백을 통해 완성도를 높임.
1) Business Understanding 업무이해
-프로젝트의 목적과 요구사항 이해, 문제정의
업무 목적 파악 -> 상황 파악 -> 데이터 마이닝 목표 설정 -> 프로젝트 계획 수립
2) Data Understanding 데이터 이해
-데이터 수집 및 속성을 이해, 숨겨진 인사이트 발견
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3) Data Preparation 데이터 준비
-데이터 셋 선택 및 데이터 정제, 데이터셋 편성(KDD에서 데이터 전처리랑 비슷)
4) Modeling 모델링
-모델링 기법 사용, 최적화, 모델 평가
5) Evaluation 평가
-모델링 결과가 프로젝트 목적에 부합하는지 평가, 모델링 과정 평가, 모델 적용성 평가
6) Deployment 전개
-완성된 모델을 실 업무에 적용하기 위한 계획 수립, 유지보수 계획
빅데이터 분석 방법론
빅데이터 분석의 계층적 프로세스
1) 단계(Phase) : 프로세스 그룹을 통해서 완성된 단계별 산출물 생성, 기준선, 버전관리
2) 테스크(Task) : 단계를 구성하는 단위
3) 스텝(step) : WBS의 워크 패키지에 해당
빅데이터 분석 방법론의 5단계
1) 분석 기획
비즈니스 이해 및 범위 설정 | 분석 대상인 업무 도메인을 이해하기 위해 내부 업무 매뉴얼과 관련 자료, 외부의 관련 비즈니스 자료 조사 및 프로젝트 진행을 위한 방향 설정 프로젝트 목적에 부합하는 범위를 명확하게 설정, 구조화된 프로젝트 범위 정의서 SOW(Statement of Work)를 작성 |
프로젝트 정의 및 계획 수립 | 상세 프로젝트 정의서 작성 프로젝트 수행 계획서 작성, 프로젝트 목적, 배경, 기대효과, 추진조직 WBS작성 WBS : Work Breakdown structure, 작업 분할 구조도 |
프로젝트 위험 계획 수립 | 데이터 분석 위험 식별 위험에 대한 대응 방법 : 회피, 전이, 완화, 수용 |
2) 데이터 준비
데이터 정의 | 정형, 비정형, 반정형 등의 모든 내/외부 데이터를 포함하고 데이터의 속성, 데이터 오너, 데이터 관련 시스템 담당자 등을 포함하는 데이터 정의서 작성 ex) 메타데이터 정의서 ,ERD 포함 데이터 획득 방안 수립 내부데이터 : 부서 간 업무 협조와 개인정보보호 및 정보 보안과 관련한 문제점을 사전에 점검 외부데이터 : 시스템 간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 계획 수립 |
데이터 스토어 설계 | 정형데이터 스토어 설계 관계형 데이터베이스(RDBMS)를 사용하고, 데이터의 효율적 저장과 활용을 위해 데이터 스토어의 논리적 물리적 설게를 구분하여 설계함 비정형데이터 스토어 설계 하둡, NoSQL 등을 이용하여 비정형 또는 반정형 데이터를 저장하기 위한 논리, 물리적 데이터 스토어 설계 |
데이터 수집 및 정합성 점검 | 크롤링 등의 데이터 수집을 위한 ETL 등의 다양한 도구와 API, 스크립트 프로그램 등으로 데이터를 수집 수집된 데이터를 설계된 데이터 스토어에 저장 ETL : 다양한 데이터를 취합해 추출하고 변환해서 적재하는 과정을 지원하는 도구 데이터 정합성(무결성) 점검 데이터 스토어의 품질 점검을 통해 데이터 정합성 확보 |
3) 데이터 분석
분석용 데이터 준비 > 텍스트 분석 > 탐색적 분석 > 모델링 > 모델 평가 및 검증
4) 시스템 구현
-설계 및 구현, 시스템 테스트 및 운영
5) 평가 및 전개
-모델 발전계획 수립, 프로젝트 평가 및 보고
References
2021 ADsP 데이터 분석 준전문가, 윤종식 저
https://www.youtube.com/c/EduAtoZPython/videos
EduAtoZ - Programming
An extreme programming education channel
www.youtube.com
'Data analysis > ADsP' 카테고리의 다른 글
[ADsP][2과목] 1장. 데이터 분석 기획의 이해(2) (0) | 2021.08.20 |
---|---|
[ADsP][1과목]최신 빅데이터 상식 (0) | 2021.08.17 |
[ADsP][1과목]3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2021.08.15 |
[ADsP][1과목]2장. 빅데이터의 이해,가치,영향 (0) | 2021.08.15 |
[ADsP][1과목]1장. 데이터와 정보와 데이터베이스 (0) | 2021.08.15 |