ADsP 자격증을 취득하기 위한 공부
ADsP는 데이터 분석 준전문가 자격증이다.
공부의 진행방식은 어렵다는 제3과목 먼저 진행하고 그다음 제1,2과목을 순차적으로 진행할 것이다.
시험은 가장 유명한 민트책으로 진행을 하고 이해하기 어려운 부분은 유튜브와 사전의 도움을 받아 진행을 할 것이다.
ADsP는 R을 이용해서 시험문제가 출제된다.
데이터 분석 프래그래밍 언어는 Python과 R이 많이 사용된다.
Python vs R 의 차이점
- R은 통계 분석에 최적화되어있어 파이썬보다 더욱 자세하고 명료하게 분석 결과를 제공해준다.
- R은 수행속도 측면에서 파이썬에 비해 느리다. (빅데이터 분석에 치명적인 단점)
- Python은 AI 알고리즘을 구현하는 환경에 적합함
3과목
EDA (탐색적 자료분석)
데이터 특성 → 시각화 분석 (이상점 식별 쉬움)
EDA 4가지
- 저항성의 강조, 2) 잔차 계산, 3) 자료변수의 재표현, 4) 그래프를 통한 현시성
기술통계: 모집단 → 표본 추출 → 정보를 하나의 숫자 또는 그래프 형태로 표현
추측통계: 모집단→ 추출된 표본통계량 →통계적으로 추론
데이터마이닝 모델링
- 고급 데이터 분석법, ex) 시뮬레이션
- 지나치게 통계적 가설이나 유의성에 집착하지 x
- 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단
- 반드시 다양한 옵션을 주어야 하는 것이 아님
as.vector 함수
행방향을 열방향으로 나열함
summary 함수
4분위수, 최소, 최대, 중앙값, 평균을 출력
데이터프레임 (df)
- 2차원 목록(list)데이터 구조
- 각 열이 다른 데이터 타입을 가질 수 있음
- data table
데이터 마트
- 데이터 웨어하우스와 사용자 사이의 중간층에 위치함
- 데이터 웨어하우스를 복제하거나 데이터 베이스를 이용해 구축
- 데이터 웨어하우스의 특정 사용자를 위한 데이터
데이터 베이스와 데이터 웨어하우스
데이터 베이스
데이터의 삽입, 삭제, 수정을 수행하는 트랜잭션 처리 중심으로 최신 데이터를 유지함
데이터 웨어하우스
데이터 베이스 관리 시스템을 효율적으로 통합하여 관리 효율적인 의사 결정 시스템을 위한 기초를 제공하는 실무적인 활용 방법론 올바른 의사 결정을 위해 현재의 데이터와 과거의 데이터를 함께 유지함.
결측값(na) 처리 방법
- completes analysis : 결측값 삭제
- 평균 대치법 : 결측값 ⇒ 데이터 평균으로 대치
- 다중 대치법 : 대치 → 분석 → 결합
이상값
ESD: 평균으로부터 3 표준편차 떨어진 값
사분위수 이용하기: Q1-1.5*(IQR)<data<Q3+1.5*(IQR)를 벗어나는 값
통계자료 획득
- 전수조사: 전체를 다 조사함 → 시간과 비용이 많이 소요
- 표본조사: 일부만 추출하여 모집단(표본이 포함된 전체 집단)을 분석
표본 추출 방법
- 단순랜덤 추출법: 랜덤하게 표본을 뽑음
- 계통추출법: 번호를 랜덤하게 부여한 후 특정한 간격별로 추출
- 집락추출법: 군집을 나눈 후 군집별로 랜덤하게 추출
- 층화추출법: 계층을 고루 대표할 수 있도록 표본 추출
표본 오차 & 표본 편의
- 표본 오차는 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로서 발생하는 오차
- 표본 편의는 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차를 의미. 확률화로 최소화하거나 없앨 수 있다.
척도 구분
- 명목척도: 어느 집단에 속하는지 분류(성명/ 성별)
- 순서(순위)척도: 서열관계가 있을 때 (만족도/ 학년/ 메달)
- 구간척도: 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간경이 의미가 있는 자료(온도, 지수 등) *절대적 원점 X
- 비율척도: 절대적 기준인 0이 존재하고 사칙연산이 가능함(무게/ 나이)
확률 변수
- 이산형: 0이 아닌 확률값을 갖는 셀 수 있는 실수 값
- 이산형 확률 변수: 베르누이, 이항, 기하, 다항, 포아송 분포
- 연속형: 확률이 함수형태로 주어져 있음
- 연속형 확률 변수: 균일 분포, 정규 분포, 지수 분포, t-분포, 카이제곱 분포, f-분포
- t-분포: 평균이 동일한지 알고자할 때 사용
- 카이제곱 분포: 모분산에 대한 가설 검정에 사용
- f-분포: 분산의 동일성 검정에 사용
조건부 확률(?)
추정
표본으로부터 모수(모집단의 특징)을 추측하는 것
- 점추정: 모수가 특정한 값일 것이라고 추정함
- 구간추정: 모수가 특정한 구간에 있을 것이라고 선언하는 것 추정량의 분포에 대한 전제가 주어져야 하고 구해진 구간 안에 모수가 있을 신뢰구간이 주어져야 한다.
가설검정
대립가설 은 검정을 통해서 입증하고 싶은 주장을 나타내며 영가설 은 대립가설을 무효화하는 주장이다. 일반적으로 대립가설은 '새로운 결과나 주장'을 나타내는 반면 영가설은 '현재 상태'를 나타낸다. 영가설(null hypothesis)은 귀무가설이라고도 부른다.
- 귀무가설: 비교하는 값과 차이가 없다는 기본개념으로 하는 가설(기각하는 것이 목표)
- 설정한 가설이 진실할 확률이 극히 적어 처음부터 버릴 것이 예상되는 가설.
- 제1종 오류: 귀무가설이 옳은데 귀무가설을 기각하게 되는 오류
- 제2종 오류: 귀무가설이 틀린데 귀무가설을 채택하는 오류
- 설정한 가설이 진실할 확률이 극히 적어 처음부터 버릴 것이 예상되는 가설.
- 대립가설: 뚜렷한 증거가 있을 때 주장하는 가설(채택되는 것이 목표)
- p값(value): 귀무가설이 사실일 때, 관측된 검정통계량(관찰된 표본으로부터 구한 통계량)이 대립가설을 지지하는 방향으로 나올 확률
- 우리가 내린 판정이 잘못되었을 실제 확률을 의미
- 유의수준: 귀무가설이 옳은데도 이를 기각하는 확률의 크기
비모수적 방법
- 자료가 추출된 모집단의 분포에 아무 제약 않고 검정 실시
- 분포의 형태에 대해 설정
- 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용
- 부호검정, 윌콕슨의 순위합검정, 윌콕슨이 부호순위합검정, 만-위트니의 U검정, 스피어만 순위상관계수
왜도
분포의 비대칭 정도를 나타내는 측도(평균 중앙값 최빈값 관계)
상관분석
데이터 안의 두 변수간의 관계를 알아보기 위한 것
- 상관계수가 절댓값이
- 0이면 절대 상관이 없는 것
- 0.3보다 작으면 거의 상관이 없는것
- 절대값이 0.3~0.7 사이면 약한 상관관계가 있는 것
- 0.7~1 사이면 강한 상관관계가 있는 것
- cor() 혹은 rcorr() 함수로 상관관계를 구할 수 있다
피어슨 상관관계 스피어만 상관계수
등간척도인 변수 | 서열척도인 변수 |
연속형 변수, 정규성 가정 | 순서형 변수, 비모수적 방법 |
두 변수 간의 선형관계 크기 측정 | 비선형 관계도 측정 가능 |
R로 상관 분석을 했을 때, p-value값(검정통계량이 귀무가설을 지지하는 정도를 확률로 표현)이 0.05이하인 경우 귀무가설을 기각하고 대립가설을 채택할 수 있다. 즉, 변수 간 상관관계가 있다고 볼 수 있다.
사전적 의미
기하평균: 통계집단에서 추상적인 계산 대푯값의 한 종류. 변량 변동률의 평균을 계산하는 데 사용된다. → 1. 단순 계열 2. 도수 계열
도수분포: 변량을 적당한 폭으로 나눈 계급으로 계열화한 것을 이 변량에 대한 도수분포라고 함
변량: 통계에서 조사된 요소의 수량(수량화)의 조사 결과
도수: 각 계급 내에서 변량의 값을 나타내는 것
상대 도수: 한 계급의 도수 / 전체도수
연속변량: 연속적으로 어떤 구간의 모든 값을 취하는 것
이산변량: 측정값을 정수로 나타내는 것(이산: 역할이나 수단 등을 개별의 요소로 실현하는 것)
도수분포를 도시 → 도수분포도 (히스토그램, 도수꺾은선, 도수분포곡선)
모분산: 모집단의 분산을 이르는 말. 분산이란 자료값들이 얼마나 퍼져있는지의 정도를 나타내는 값이다
출처 : 수학백과 / 데이터베이스 개론 참고 / 컴퓨터인터넷IT용어대사전 / blog.naver.com/ikyoon95 륑큐 작성
'python' 카테고리의 다른 글
[기초 1-3] 함수(function) (0) | 2022.03.27 |
---|---|
[Jupyter Notebook] Pandas (1. Series/Dataframe/Index) (0) | 2022.03.20 |
[Jupyter Notebook] Jupyter Notebook 준비 (0) | 2022.03.13 |
[기초 1-2] 함수(function) (0) | 2022.03.13 |
[기초 1-1] 함수(function) (0) | 2022.03.06 |