'분류 전체보기' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (13)

공부하자

머신러닝 - 회귀

1. 회귀 회귀 : 여러 개의 독립 변수와 한 개의 종속 변수간 상관관계를 모델링하는 기법. - 최적의 회귀 계수를 찾는 것이 목표 - 회귀의 유형 4가지 : 독립 변수의 개수에 따라 1개 : 단일 회귀 여러 개 : 다중 회귀 : 회귀 계수의 결합 방식에 따라 선형 결합 : 선형 회귀 비선형 결합 : 비선형 회귀 (선형 회귀/비선형 회귀는 회귀 계수의 결합 방식에 따라서 달라지는 것, 독립 변수의 선형/비선형 여부는 관계 없음.) - 지도학습의 대표적 두 가지 ~ 회귀, 분류 회귀의 경우는 예측값이 연속형 숫자 값 분류의 경우는 예측값이 이산형 클래스 - 선형회귀의 종류 일반 선형 회귀 : RSS최소화, 규제 없음 Ridge : 선형회귀 + L2규제 Lasso : 선형회귀 + L1규제 ElasticNet..

머신러닝 2021. 6. 27. 15:09

머신러닝 - 성능 평가, 분류

1. 평가 ## 정확도(accuracy) - 실제 데이터와 예측 데이터가 얼마나 일치하는지를 판단 - accuracy_score(y_test, pred) 로 사용 (정답이 먼저, predict 결과가 그 다음으로) - 직관적이라 좋을 순 있는데 모델의 예측 성능을 왜곡할 수 있다. 어떻게? - 예시 1 : 성별만으로 타이타닉 생존자(여성, 남성에 대해 생존자 비율이 크게 다름)를 예측하고 정확도를 계산하는 경우, 정확도는 좋지만 모델이 의미가 없다. - 예시 2 : 불균형 레이블 비율(0이 90% 이상)을 가진 데이터 셋에서, 무조건 0으로 예측하고 정확도 계산하는 경우, 0이 많기 때문에 정확도는 높지만 마찬가지로 모델이 의미가 없다. ## 오차행렬 - 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈..

머신러닝 2021. 6. 27. 14:41

머신러닝 - 사이킷런, 모델 Selection, 데이터 전처리

1. 머신러닝 붓꽃 품종 예측 - 지도학습 : 정답(Label)이 있는 데이터(Feature)를 이용해 모델 학습 : 이 후 별도의 테스트 데이터 세트에서 미지의 Label 예측 - 붓꽃 데이터 세트 : 꽃잎 길이, 너비, 꽃받침 길이, 너비 등의 Feature 기반으로 붓꽃 품종 예측 - 분류 예측 프로세스 i) 데이터 세트 분리 : 데이터를 학습 데이터 테스트 데이터로 분리 (train_test_split()) ii) 모델 학습 : 학습 데이터를 기반으로 알고리즘을 적용하여 모델 학습 iii) 예측 수행 학습된 모델을 이용해 테스트 데이터의 분류 예측 iv) 평가 : 예측된 결과와 실제 결과를 비교하여 모델 성능 평가 --> 여기서는 자세한 설명은 없고 일단 예제를 무작정 따라하기 ★Feature, ..

머신러닝 2021. 6. 27. 13:10

머신러닝 - 기초(Numpy, Pandas, ...)

머신러닝이란? 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법 머신러닝 분류 - 지도학습 : 분류, 회귀, 추천시스템, 시각/음성 감지/인지, 텍스트 분석, NLP - 비지도학습 : 클러스터링, 차원 축소, 강화학습 ## 머신러닝 패키지 - 머신러닝 패키지 : Scikit-Learn - 행렬/선형대수/통계 패키지 : NumPy, SciPy - 데이터 핸들링 : Pandas - 시각화 : Matplotlib, Seaborn 그 외 설치 - Anaconda - 모든 실습은 Jupyter Notebook 기반으로 실시 1. Numpy - ndarray : Numpy 기반 데이터 타입 - array() : 파이썬의 리스트와 같은 다양한 인자를 입력 받아서 ndarray로 변환 - shape() ..

머신러닝 2021. 6. 27. 01:29

머신러닝 with 파이썬 머신러닝 완벽 가이드

위키북스의 책 기반 스터디 내용 정리

머신러닝 2021. 6. 27. 01:28

통계 - 현대통계학 (2)

제 12장 가설검정의 기초 - 귀무가설과 대립가설 귀무가설(H_0) : 연구 과정에서 검정의 대상이 되는 가설. 대립가설(H_1) : 귀무가설이 받아들여질 수 없다고 판명됐을 때 대신 받아들여지는 가설. 보통의 연구에서는 귀무가설을 거부하기 위해 연구를 한다. -> 가설 검정을 왜 하는가? 지금까지 알려진 모수치가 어떤 이유로 인해 달라졌을 가능성이 있다고 생각해서 가설 검정을 하는 것. 귀무가설은 직접 검정을 해야 하기 때문에 보통 등식으로 표시된 가설이 귀무가설이 되는 게 타당하다. ex) 정상/비정상에 대한 가설검정을 할 때, 정상 수치의 모집단에 대한 가설이 귀무가설이 될 것... 왜냐면 비정상인 모집단은 무수히 많을 것이기 때문에 직접 검정이 어려울 것이니까? - 유의수준과 임계값 유의수준 : ..

통계 이론 2021. 1. 17. 19:43

통계 - 현대통계학 (1)

제 2장 자료의 정리 - 명목변수(nominal) : 그냥 구분 기호로 표시되는 변수들(Categorical) - 서열변수(ordinal) : 측정 대상간의 순서를 매기기 위해 사용되는 변수. 1등, 2등, 3등이나 A, B, C 성적 등이 포함됨. ##서열변수의 자료는 사칙연산이 포함되는 분석은 불가능하다. 즉 연속형/이산형 취급이 안된다. - 등간변수(interval) : 측정대상의 순서뿐 아니라 순서 사이의 간격을 알 수 있는 변수. 변수간 차이를 계산할 순 있지만 차이의 비율이 큰 의미가 없다고 함 - 비율변수(ratio) : 등간변수의 특성 + 차이의 비율계산이 가능한 변수, 연령, 무게, 시간, 거리 등. ##등간변수의 0은 상대적 위치일 뿐이지만, 비율변수의 0은 그 자체로 0이다. 이게 다..

통계 이론 2021. 1. 17. 16:21

실습 - sklearn 데이터셋 : Breast cancer (2)

분류 모형 모델링해야 함. - train data, test data 분리 df.reset_index(drop = True, inplace = True) # 이상치 행 제거 후 남은 df의 index reset X, y = df.iloc[:, :-1], df.iloc[:, -1] # feature와 target을 나눠준다. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25) # train, test data 분리 분류 모형 종류 여러 개 중 뭘 선택해야 하는걸까 베이지안 통계에 대해 먼저 간략하게 공부하고 오겠음

실습 2021. 1. 15. 16:49

실습 - sklearn 데이터셋 : Breast cancer (1)

필요한 라이브러리 임포트 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import sklearn.datasets load_list = list(filter(lambda x: 'load_' in x, dir(sklearn.datasets))) # dataset 리스트 확인하고 로드하기 from sklearn.datasets import * boston = load_boston() breast = load_breast_cancer() diabetes = load_diabetes() digits = load_digits() iris = load_iris() linnerud = load_li..

실습 2021. 1. 15. 15:51

실습 - sklearn 데이터셋 : Boston (2)

boston 데이터셋은 찾아보니 보통 sklearn의 선형회귀 모델로 예측하는 듯 import sklearn from sklearn.linear_model import LinearRegression help(LinearRegression) ############################################################### ''' myreg = LinearRegression(fit_intercept=True, normalize=False, ...) 이라는 명령으로 class 객체 생성 fit_intercept : 절편을 사용하지 않는다, 즉 데이터가 중심에 있다고 가정 normalize : 만악 fit_intercept가 False면(절편을 사용한다면)고려하지 않음. True..

실습 2021. 1. 13. 16:27

이전 Prev 1 2 Next 다음

목록분류 전체보기 (13)

공부하자

티스토리툴바