목록분류 전체보기 (13)
공부하자

1. 회귀 회귀 : 여러 개의 독립 변수와 한 개의 종속 변수간 상관관계를 모델링하는 기법. - 최적의 회귀 계수를 찾는 것이 목표 - 회귀의 유형 4가지 : 독립 변수의 개수에 따라 1개 : 단일 회귀 여러 개 : 다중 회귀 : 회귀 계수의 결합 방식에 따라 선형 결합 : 선형 회귀 비선형 결합 : 비선형 회귀 (선형 회귀/비선형 회귀는 회귀 계수의 결합 방식에 따라서 달라지는 것, 독립 변수의 선형/비선형 여부는 관계 없음.) - 지도학습의 대표적 두 가지 ~ 회귀, 분류 회귀의 경우는 예측값이 연속형 숫자 값 분류의 경우는 예측값이 이산형 클래스 - 선형회귀의 종류 일반 선형 회귀 : RSS최소화, 규제 없음 Ridge : 선형회귀 + L2규제 Lasso : 선형회귀 + L1규제 ElasticNet..

1. 평가 ## 정확도(accuracy) - 실제 데이터와 예측 데이터가 얼마나 일치하는지를 판단 - accuracy_score(y_test, pred) 로 사용 (정답이 먼저, predict 결과가 그 다음으로) - 직관적이라 좋을 순 있는데 모델의 예측 성능을 왜곡할 수 있다. 어떻게? - 예시 1 : 성별만으로 타이타닉 생존자(여성, 남성에 대해 생존자 비율이 크게 다름)를 예측하고 정확도를 계산하는 경우, 정확도는 좋지만 모델이 의미가 없다. - 예시 2 : 불균형 레이블 비율(0이 90% 이상)을 가진 데이터 셋에서, 무조건 0으로 예측하고 정확도 계산하는 경우, 0이 많기 때문에 정확도는 높지만 마찬가지로 모델이 의미가 없다. ## 오차행렬 - 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈..

1. 머신러닝 붓꽃 품종 예측 - 지도학습 : 정답(Label)이 있는 데이터(Feature)를 이용해 모델 학습 : 이 후 별도의 테스트 데이터 세트에서 미지의 Label 예측 - 붓꽃 데이터 세트 : 꽃잎 길이, 너비, 꽃받침 길이, 너비 등의 Feature 기반으로 붓꽃 품종 예측 - 분류 예측 프로세스 i) 데이터 세트 분리 : 데이터를 학습 데이터 테스트 데이터로 분리 (train_test_split()) ii) 모델 학습 : 학습 데이터를 기반으로 알고리즘을 적용하여 모델 학습 iii) 예측 수행 학습된 모델을 이용해 테스트 데이터의 분류 예측 iv) 평가 : 예측된 결과와 실제 결과를 비교하여 모델 성능 평가 --> 여기서는 자세한 설명은 없고 일단 예제를 무작정 따라하기 ★Feature, ..

머신러닝이란? 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법 머신러닝 분류 - 지도학습 : 분류, 회귀, 추천시스템, 시각/음성 감지/인지, 텍스트 분석, NLP - 비지도학습 : 클러스터링, 차원 축소, 강화학습 ## 머신러닝 패키지 - 머신러닝 패키지 : Scikit-Learn - 행렬/선형대수/통계 패키지 : NumPy, SciPy - 데이터 핸들링 : Pandas - 시각화 : Matplotlib, Seaborn 그 외 설치 - Anaconda - 모든 실습은 Jupyter Notebook 기반으로 실시 1. Numpy - ndarray : Numpy 기반 데이터 타입 - array() : 파이썬의 리스트와 같은 다양한 인자를 입력 받아서 ndarray로 변환 - shape() ..
위키북스의 책 기반 스터디 내용 정리
제 12장 가설검정의 기초 - 귀무가설과 대립가설 귀무가설(H_0) : 연구 과정에서 검정의 대상이 되는 가설. 대립가설(H_1) : 귀무가설이 받아들여질 수 없다고 판명됐을 때 대신 받아들여지는 가설. 보통의 연구에서는 귀무가설을 거부하기 위해 연구를 한다. -> 가설 검정을 왜 하는가? 지금까지 알려진 모수치가 어떤 이유로 인해 달라졌을 가능성이 있다고 생각해서 가설 검정을 하는 것. 귀무가설은 직접 검정을 해야 하기 때문에 보통 등식으로 표시된 가설이 귀무가설이 되는 게 타당하다. ex) 정상/비정상에 대한 가설검정을 할 때, 정상 수치의 모집단에 대한 가설이 귀무가설이 될 것... 왜냐면 비정상인 모집단은 무수히 많을 것이기 때문에 직접 검정이 어려울 것이니까? - 유의수준과 임계값 유의수준 : ..

제 2장 자료의 정리 - 명목변수(nominal) : 그냥 구분 기호로 표시되는 변수들(Categorical) - 서열변수(ordinal) : 측정 대상간의 순서를 매기기 위해 사용되는 변수. 1등, 2등, 3등이나 A, B, C 성적 등이 포함됨. ##서열변수의 자료는 사칙연산이 포함되는 분석은 불가능하다. 즉 연속형/이산형 취급이 안된다. - 등간변수(interval) : 측정대상의 순서뿐 아니라 순서 사이의 간격을 알 수 있는 변수. 변수간 차이를 계산할 순 있지만 차이의 비율이 큰 의미가 없다고 함 - 비율변수(ratio) : 등간변수의 특성 + 차이의 비율계산이 가능한 변수, 연령, 무게, 시간, 거리 등. ##등간변수의 0은 상대적 위치일 뿐이지만, 비율변수의 0은 그 자체로 0이다. 이게 다..
분류 모형 모델링해야 함. - train data, test data 분리 df.reset_index(drop = True, inplace = True) # 이상치 행 제거 후 남은 df의 index reset X, y = df.iloc[:, :-1], df.iloc[:, -1] # feature와 target을 나눠준다. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25) # train, test data 분리 분류 모형 종류 여러 개 중 뭘 선택해야 하는걸까 베이지안 통계에 대해 먼저 간략하게 공부하고 오겠음

필요한 라이브러리 임포트 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import sklearn.datasets load_list = list(filter(lambda x: 'load_' in x, dir(sklearn.datasets))) # dataset 리스트 확인하고 로드하기 from sklearn.datasets import * boston = load_boston() breast = load_breast_cancer() diabetes = load_diabetes() digits = load_digits() iris = load_iris() linnerud = load_li..
boston 데이터셋은 찾아보니 보통 sklearn의 선형회귀 모델로 예측하는 듯 import sklearn from sklearn.linear_model import LinearRegression help(LinearRegression) ############################################################### ''' myreg = LinearRegression(fit_intercept=True, normalize=False, ...) 이라는 명령으로 class 객체 생성 fit_intercept : 절편을 사용하지 않는다, 즉 데이터가 중심에 있다고 가정 normalize : 만악 fit_intercept가 False면(절편을 사용한다면)고려하지 않음. True..