데이터베이스 관리시스템 종류
1) 관계형 DBMS
컬럼과 로우로 이루어져있고, 하나 이상의 테이블로 이루어져 있으며, 고유키로 각 로우를 식별한다.
2) 객체지향 DBMS
관계형 DBMS와 다르게 객체 형태로 저장
3) 네트워크 DBMS
레코드들이 노드로, 레코드 사이 관계가 간선으로 표현되는 그래프 기반 데이터베이스 모델
4) 계층형 DBMS
트리 구조를 기반으로 하는 계층 데이터 베이스 모델
Data에 관련된 기술들
1) 개인정보 비식별 기술 : 데이터에서 개인을 식별할 수 있는 요소를 전부/일부를 삭제/대체하는 기술
내용 | 예시 | |
데이터마스킹 | 데이터의 길이나 형식등은 유지하면서 익명으로 생성 | 홍길동, 35세, 서울 거주, 한국대 재학 -> 홍**, 35세, 서울 거주, **대 재학 |
가명처리 | 이름을 다른 이름으로 변경하되 일정한 규칙이 노출되지 않게 한다. | 홍길동, 35세, 서울 거주, 한국대 재학 -> 임꺽정, 30대, 서울 거주, 국내대 재학 |
총계처리 | 데이터의 총계를 보인다. | 홍길동 180cm, 임꺽정 170cm, 이콩쥐 160cm -> 키 합: 540cm, 키 평균: 170cm |
데이터값 삭제 | 필요없는 값이나 개인 식별에 중요한 값을 삭제 | 홍길동, 35세, 서울 거주, 한국대 재학 -> 35세, 서울 거주 |
데이터 범주화 | 데이터 값을 범주의 값으로 대체 | 홍길동, 35세 -> 홍씨, 30-30세 |
2) 무결성(Data integrity)과 레이크(Data Lake)
데이터 무결성 - 개체 무결성, 참조 무결성, 범위 무결성
데이터 변경,수정시 여러 제한을 두어 데이터의 정확성을 보증
데이터 레이크 - 수많은 정보에서 의미있는 내용을 찾기위해 방식에 상관없이 데이터를 저장하는 시스템
빅데이터 분석 기술
1) 하둡(Hadoop)
하둡은 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이다. 분산 파일 시스템을 통해 수 천대의 장비에 대용량 파일을 저장 할 수 있는 기능을 제공하고 맵 리듀스로 분산 파일 시스템에 저장된 대용량의 데이터들을 대상으로 SQL을 사용해 사용자의 질의를 실시간으로 처리한다.
2) Apache Spark
실시간 분산형 컴퓨팅 플랫폼으로 스칼라로 작성 되어있으나 스칼라, 자바, R, 파이썬 api를 지원
In-Memory방식을 사용하기 때문에 하둡보다 속도가 빠르다.
3) Smart Factory
공장 내 설비에 사물인터넷이 설치되어, 데이터가 실시간 수집되고 그 데이터에 기반한 의사결정을 한다.
4) Machine Learning & Deep Learning
인공신경망(ANN)을 기반으로 구축한 기계 학습중 하나
B2B와 B2C
B2B - 기업과 기업 사이의 거래를 기반으로 한 비즈니스 모델을 의미
B2C - 기업과 고객 사이의 거래를 기반으로 한 비즈니스 모델을 의미 ex) 이동통신사, 여행회사, 신용카드 회사
블록체인
- 블록체인 : 거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래 장부
- 기존의 금융회사의 경우 중앙 집중형 서버에 거래 기록을 보관하는 반면, 블록체인은 거래에 참여하는 모든 사용자에게 거래 내역을 보내 주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식을 사용
References
2021 ADsP 데이터 분석 준전문가, 윤종식 저
https://www.youtube.com/c/EduAtoZPython/videos
'Data analysis > ADsP' 카테고리의 다른 글
[ADsP][2과목] 2장. 분석 마스터 플랜 (0) | 2021.08.20 |
---|---|
[ADsP][2과목] 1장. 데이터 분석 기획의 이해(2) (0) | 2021.08.20 |
[ADsP][2과목] 1장. 데이터 분석 기획의 이해(1) (0) | 2021.08.17 |
[ADsP][1과목]3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2021.08.15 |
[ADsP][1과목]2장. 빅데이터의 이해,가치,영향 (0) | 2021.08.15 |