1절. 데이터 분석 기법의 이해

보통 대기업은 DW나 DataMart에서 가져와 사용하지만 신규 데이터나 DW에 포함되지 못한 데이터의 경우, 그 이전 구역에서 데이터를 가져와서 DW에서 가져온 내용과 결합해서 활용하기도 함

하지만 이는 매우 위험한 일 이므로 가급적이면 ODS에서 들고와서 전처리해서 DW/DataMart에 있는 데이터와 결함해서 사용

 

 

 

 


2절. R소개

R이란?

R은 오픈소스 프로그램으로 통계, 데이터마이닝, 그래프를 위한 언어

 

통계분석 도구의 비교

구분 SAS SPSS 오픈소스 R
프로그램 비용 유료, 고가 유료, 고가 오픈소스
설치용량 대용량 대용량 모듈화로 간단
다양한 모듈 지원 및 비용 별도구매 별도구매 오픈소스
최근 알고리즘 및 기술반영 느림 다소 느림 매우빠름
학습자료 입수의 편의성 유료 도서 위주 유료 도서 위주 자료 많음
질의를 위한 공개 커뮤니티 없음 없음 매우 활발

 

 

R의 특징

- 오픈소스

- 뛰어난 그래픽과 성능

- 시스템 데이터 저장 방식

- 모든 운영체제 사용가능

- 표준 플랫폼

- 객체 지향 언어이면서 함수형 언어

 

 

 


R의 기초

기본적인 통계량 계산 함수

평균 : mean()

표준편차 : sd()

중간값 : median()

분산 : var()

공분산 : cov()

상관계수 : cor()

 

 

 

기본적인 연산자

연산자 사용예시
%any% 특수 연산자 %/% 나눗셈 몫,
%% 나눗셈 나머지
%*% 행렬곱
$ 요소 뽑아내기, 슬롯 뽑아내기 a$coef

 

 

 

 

 

 


입력과 출력

데이터의 입력과 출력

R에서는 텍스트 데이터 뿐만 아니라 데이터베이스나 다양한 통계 프로그램으로 부터 데이터를 불러들여서 분석 수행 가능!

R에서는 역슬래쉬(\)를 인식하지 못하므로 슬래쉬(/)나 이중 역슬래쉬(\\)로 파일 경로를 지정!

 

 

 

외부 파일 입출력

고정자리 변수파일 read.fwf("파일명", width=c(w1, w2, w3 . . . ))
구분자 변수파일 read.table("파일명", sep="구분자")
csv 파일 읽기 read.csv("파일명", header=T)
csv 파일 출력 white.csv(데이터 프레임,"파일명")

 

 

 

 


데이터 구조와 데이터 프레임

데이터 구조 종류

벡터 동질적 - 모든 원소는 같은 자료형 또는 모드를 가진다
인덱스 있음 - V[2]는 2번째 원소
원소 이름 부여 가능
리스트 이질적 - 여러 자료형의 원소가 포함 될 수 있다.
인덱스 있음 - L[[2]]는 2번째 원소
원소 이름 부여 가능
행렬 그냥 차원을 가진 벡터임
행렬이 3차원 혹은 n차원으로 확대되면 배열이라고 부른다.
dim()
데이터 프레임 SAS의 데이터 셋을 모방해서 만들어진다.
데이터 프레임의 리스트의 원소는 벡터 또는 요인이다.
벡터와 요인들은 동일한 길이이다.
열에는 반드시 이름이 있어야 한다.
요인(Factors) 놀랍게도 수치형(Numeric)임

 

 

 


References

2021 ADsP 데이터 분석 준전문가, 윤종식 저

https://www.youtube.com/c/EduAtoZPython/videos

 

EduAtoZ - Programming

An extreme programming education channel

www.youtube.com

 

+ Recent posts