'공부정리/Data Science' 카테고리의 글 목록

보호되어 있는 글입니다.

참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 16. Logistic Regression Logistic Regression 다음과 같이 독립변수가 p개인 다중 선형 회귀 식이 있다. 선형 회귀는 종속변수 y가 연속형이며, 아파트 가격을 예측 하는 것이 하나의 예시가 될 수 있을 것이다. 선형 회귀는 독립변수 x와 종속변수 y의 관계가 선형이라고 가정하고, 이를 가장 잘 설명하는 회귀계수들을 데이터로부터 추정하는 모델이다. 선형 회귀의 그래프를 그려보면 아래와 같다. 하지만, 종속변수 y가 범주형 변수라면, 어떻게 될까? 타이타닉 데이터를 예로 들었을 때, 왼쪽그림과 같은 경우 0 = 사망..

보호되어 있는 글입니다.

참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 12. Naive Bayse Naive Bayes •특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기의 일종 •즉 Naive(순진하게) likelihood(가능도)를 곱해 계산해 나간다! Gaussian Naive Bayes 표본 평균과 표본 분산을 가진 정규분포 하에서 베이즈 정리를 사용하는 알고리즘 Multinomial Naive Bayes 설명 변수가 범주형 변수일 때 다항 분포 데이터에서 베이즈 정리를 사용하는 알고리즘 Bernoulli naive Bayes 설명 변수가 범주형 변수일 때, 범주가 2개밖에 없는 경우 베이즈..

참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 12. K- Nearest Neighbor (KNN) KNN은 모델을 만드는 것이 아님. 모델의 형태는 정해져있지 않고, 방법론 및 알고리즘이라고 일컫는다. -김성범 교수님(고려대학교) 모델은 특정 유형의 패턴을 인식하도록 학습된 파일임!!! KNN 분류 "내 이웃의 다수의 패턴으로 따라간다." 관측치를 정하고, 그 관측치에서 가까운 거리에 있는 이웃데이터를 탐색한다. 가까운 순서대로 "거리"를 구하고, 새로운 예측 데이터에대해 수행한다. KNN 알고리즘의 구분 및 특징 Instance-based Learning 각각의 관측치만을 이용하여 새로..

참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 11. machine learning Ch 11.1.1 회귀의 성능 평가 지표 실제값과 예측 값의 오차 1. MAE (Mean Absolute Error) 실제 값과 예측 값의 차이를 절댓값으로 변환해 평균한 것 2. MSE (Mean Squared Error) 실제 값과 예측 값의 차이를 제곱해 평균한 것 3. RMSE (Root Mean Squared Error) MSE 값은 오류의 제곱을 구하므로 실제 오류 평균보다 더 커지는 특성이 있어 MSE에 루트를 씌운 RMSE 값을 쓰는 것입니다. 4. R² (R Square) R² 는 분산 기반..

참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 11. machine learning 11.1 modeling machine learning: 데이터를 통해 모델을 만들고 사용하는 것 (책의 정의) model: 다양한 변수간의 수학적(혹은 확률적) 관계를 식으로 표현한 것 11.2 What Is Machine Learning? supervised learning: 데이터에 정답이 포함 unsupervised learning: 데이터에 정답이 포함되지 X semi-supervised learning: 데이터의일부분에만 정답이 포함되어있음 online learning: 새로 들어오는 데이터를 통..

참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 8. Gredient Decente - Linear Regression 직접 경사하강법 구현해보기 본 코드는 프레임워크(Scikit-Learn, Tensorflow...etc) 없이 구현한 코드입니다. 구현 순서 sample data 수집 data 정제하기 (회귀, 분류 등 문제 확인) 하이퍼파라미터 설정 Optimizer & Loss Function Select Evaluation Visualizing 해당 코드는 Sample Data를 수집하지 않고, 임의의 데이터를 사용한 것입니다. 1. Sample Data 수집 2. 데이터 정제 (SK..

참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 4. 선형대수 4.1 거리 유사도 측정방법 Euclidean Distance 두 점 p, q사이의 유클리디안 거리를 구하면 이 두 점의 최단거리가 된다. 다음 코드는 넘파이 라이브러리를 활용하여 두 점 사이의 유클리디안 거리를 이용한 코드이다. 두 가지 개체의 속성값들이 여러개 일 경우 이들 속성값들에 의한 두 개체 사이의 유사도를 구할 때 자주 사용함 import numpy as np point1 = np.array((1, 1)) point2 = np.array((2, 2)) dist = np.linalg.norm(point1 - point2..

* 이 포스트는 여러 참고 서적과 구글링 내용을 바탕으로 작성하였습니다. 서적 내용의 흐름에 맞게 작성하되, 여러 내용을 보충하여 작성하였습니다. 참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 도서명: 인공지능을 위한 수학 저자 : 이시카와 아키히코 출판 : 프리렉 ch 4. Linear Algebra 선형대수학(Linear Algebra)는 벡터 공간(Vector space)과 선형 변환(Linear transeformation)을 중심으로 한 학문 체계를 말하며, 다양한 분야에서 폭 넓게 사용하고 있다. 선형대수를 많이 활용하는 이유는 방대한 양의 데이터나 복잡한 시스템을 비교적 간단하게 표..

티스토리툴바