1절. 데이터 분석 기법의 이해
보통 대기업은 DW나 DataMart에서 가져와 사용하지만 신규 데이터나 DW에 포함되지 못한 데이터의 경우, 그 이전 구역에서 데이터를 가져와서 DW에서 가져온 내용과 결합해서 활용하기도 함
하지만 이는 매우 위험한 일 이므로 가급적이면 ODS에서 들고와서 전처리해서 DW/DataMart에 있는 데이터와 결함해서 사용
2절. R소개
R이란?
R은 오픈소스 프로그램으로 통계, 데이터마이닝, 그래프를 위한 언어
통계분석 도구의 비교
구분 | SAS | SPSS | 오픈소스 R |
프로그램 비용 | 유료, 고가 | 유료, 고가 | 오픈소스 |
설치용량 | 대용량 | 대용량 | 모듈화로 간단 |
다양한 모듈 지원 및 비용 | 별도구매 | 별도구매 | 오픈소스 |
최근 알고리즘 및 기술반영 | 느림 | 다소 느림 | 매우빠름 |
학습자료 입수의 편의성 | 유료 도서 위주 | 유료 도서 위주 | 자료 많음 |
질의를 위한 공개 커뮤니티 | 없음 | 없음 | 매우 활발 |
R의 특징
- 오픈소스
- 뛰어난 그래픽과 성능
- 시스템 데이터 저장 방식
- 모든 운영체제 사용가능
- 표준 플랫폼
- 객체 지향 언어이면서 함수형 언어
R의 기초
기본적인 통계량 계산 함수
평균 : mean()
표준편차 : sd()
중간값 : median()
분산 : var()
공분산 : cov()
상관계수 : cor()
기본적인 연산자
연산자 | 뜻 | 사용예시 |
%any% | 특수 연산자 | %/% 나눗셈 몫, %% 나눗셈 나머지 %*% 행렬곱 |
$ | 요소 뽑아내기, 슬롯 뽑아내기 | a$coef |
입력과 출력
데이터의 입력과 출력
R에서는 텍스트 데이터 뿐만 아니라 데이터베이스나 다양한 통계 프로그램으로 부터 데이터를 불러들여서 분석 수행 가능!
R에서는 역슬래쉬(\)를 인식하지 못하므로 슬래쉬(/)나 이중 역슬래쉬(\\)로 파일 경로를 지정!
외부 파일 입출력
고정자리 변수파일 | read.fwf("파일명", width=c(w1, w2, w3 . . . )) |
구분자 변수파일 | read.table("파일명", sep="구분자") |
csv 파일 읽기 | read.csv("파일명", header=T) |
csv 파일 출력 | white.csv(데이터 프레임,"파일명") |
데이터 구조와 데이터 프레임
데이터 구조 종류
벡터 | 동질적 - 모든 원소는 같은 자료형 또는 모드를 가진다 인덱스 있음 - V[2]는 2번째 원소 원소 이름 부여 가능 |
리스트 | 이질적 - 여러 자료형의 원소가 포함 될 수 있다. 인덱스 있음 - L[[2]]는 2번째 원소 원소 이름 부여 가능 |
행렬 | 그냥 차원을 가진 벡터임 행렬이 3차원 혹은 n차원으로 확대되면 배열이라고 부른다. dim() |
데이터 프레임 | SAS의 데이터 셋을 모방해서 만들어진다. 데이터 프레임의 리스트의 원소는 벡터 또는 요인이다. 벡터와 요인들은 동일한 길이이다. 열에는 반드시 이름이 있어야 한다. |
요인(Factors) | 놀랍게도 수치형(Numeric)임 |
References
2021 ADsP 데이터 분석 준전문가, 윤종식 저
https://www.youtube.com/c/EduAtoZPython/videos
EduAtoZ - Programming
An extreme programming education channel
www.youtube.com
'Data analysis > ADsP' 카테고리의 다른 글
[ADsP][3과목] 4장. 통계분석의 이해 (0) | 2021.08.21 |
---|---|
[ADsP][3과목] 3장. 데이터 마트 (0) | 2021.08.20 |
[ADsP][2과목] 2장. 분석 마스터 플랜 (0) | 2021.08.20 |
[ADsP][2과목] 1장. 데이터 분석 기획의 이해(2) (0) | 2021.08.20 |
[ADsP][1과목]최신 빅데이터 상식 (0) | 2021.08.17 |