skinOptions.hljs
[Data Science from Scratch] chapter 12. KNN
·
공부정리/Data Science
참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 12. K- Nearest Neighbor (KNN) KNN은 모델을 만드는 것이 아님. 모델의 형태는 정해져있지 않고, 방법론 및 알고리즘이라고 일컫는다. -김성범 교수님(고려대학교) 모델은 특정 유형의 패턴을 인식하도록 학습된 파일임!!! KNN 분류 "내 이웃의 다수의 패턴으로 따라간다." 관측치를 정하고, 그 관측치에서 가까운 거리에 있는 이웃데이터를 탐색한다. 가까운 순서대로 "거리"를 구하고, 새로운 예측 데이터에대해 수행한다. KNN 알고리즘의 구분 및 특징 Instance-based Learning 각각의 관측치만을 이용하여 새로..
[핵심 머신러닝] K-nearest neighbors & Distance Measures - 강의 정리
·
공부정리/Deep learnig & Machine learning
이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다. 내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다. 해당 게시글 강의 영상 : https://www.youtube.com/watch?v=W-DNu8nardo KNN은 모델이 없는 것 데이터가 어떤 것에 가까운지 분류하고 예측하는 것 1-nearest neighbor: 가장 가까운 데이터 1개의 이웃을 정의 3-nearest neighbor: 가장 가까운 데이터 3개의 이웃을 정의 새로운 데이터의 Y값을 알아내는 것이 문제임 가까운 순서대로 거리를 구하고, 새로운 예측 데이터에대해 수행한다. KNN 알고리즘의 구분 및 특징 Instance-based Learning 각각의 관측치만을 이용하여 새로운 데이터에 대한 예측 진행 Memo..
[Data Science from Scratch] ch.11 additional note
·
공부정리/Data Science
참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 11. machine learning Ch 11.1.1 회귀의 성능 평가 지표 실제값과 예측 값의 오차 1. MAE (Mean Absolute Error) 실제 값과 예측 값의 차이를 절댓값으로 변환해 평균한 것 2. MSE (Mean Squared Error) 실제 값과 예측 값의 차이를 제곱해 평균한 것 3. RMSE (Root Mean Squared Error) MSE 값은 오류의 제곱을 구하므로 실제 오류 평균보다 더 커지는 특성이 있어 MSE에 루트를 씌운 RMSE 값을 쓰는 것입니다. 4. R² (R Square) R² 는 분산 기반..
[핵심 머신러닝] 선형회귀모델 4 (R2, ANOVA) - 강의 정리
·
공부정리/Deep learnig & Machine learning
이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다. 내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다. 해당 게시글 강의 영상 : https://www.youtube.com/watch?v=ClKeKeNz7RM&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=31 결정계수 (Coefficient of Determination : R^2) 위에서부터 첫번째 점은 실제 Y값 두번째 점은 우리가 구한 회귀 직선 위에 있는 Y값 세번째 점은 Y의 평균값 첫번째 점은 100% Y값을 설명 (자신) 두번째 점은 X로 Y를 어느 정도까지 설명할 수 있는지를 보여주는 값 세번째 점은 X에 관계없이 Y의 평균만으로 어느 정도까지 설명할 수 있는지를 보여주는 것 실제..
[핵심 머신러닝] 선형회귀모델 3 (파라미터 구간추정, 가설검정) - 강의 정리
·
공부정리/Deep learnig & Machine learning
이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다. 내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다. 해당 게시글 강의 영상 : https://www.youtube.com/watch?v=uqfWFIcIF6s&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=32 파라미터 추정 알고리즘 Least square estimator Estimator(추정량) : 샘플의 함수 추정량의 용도 : 알려지지 않은 파라미터(B0,B1)를 추정 추정량의 종류 (1) 점추정 (point estimator) , (2) 구간추정 (interval estimator) 파라미터에 대한 점추정 최소제곱법 추정량 성질 Gauss-Markov 이론에 의하면 최소제곱법에서 추정되는..
[핵심 머신러닝] 선형회귀모델 2 (파라미터 추정, 최소제곱법) - 강의 정리
·
공부정리/Deep learnig & Machine learning
보호되어 있는 글입니다.
[핵심 머신러닝] 선형회귀모델 1 (개요, 모델가정) - 강의 정리
·
공부정리/Deep learnig & Machine learning
보호되어 있는 글입니다.
[Data Science from Scratch] Chapter 11. machine learning
·
공부정리/Data Science
참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 11. machine learning 11.1 modeling machine learning: 데이터를 통해 모델을 만들고 사용하는 것 (책의 정의) model: 다양한 변수간의 수학적(혹은 확률적) 관계를 식으로 표현한 것 11.2 What Is Machine Learning? supervised learning: 데이터에 정답이 포함 unsupervised learning: 데이터에 정답이 포함되지 X semi-supervised learning: 데이터의일부분에만 정답이 포함되어있음 online learning: 새로 들어오는 데이터를 통..
[핵심 머신러닝] 수치예측, 범주예측 (분류) - 강의 정리
·
공부정리/Deep learnig & Machine learning
이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다. 내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다. 해당 게시글 강의 영상: https://www.youtube.com/watch?v=FfUHRuUxQiY&t=4s [핵심 머신러닝] 수치예측, 범주예측 (분류) X (원인): 독립변수, 예측변수, 입력변수 Y (결과): 종속변수, 반응변수, 출력변수 예측 모델링: 관계를 잘 찾는 함수식을 찾는 것 연속형 데이터: 데이터 자체를 숫자로 표현 예) 가격, 길이, 압력, 두께 범주형 데이터: 원칙적으로 숫자로 표시할 수 없는 데이터 예) 제품 불량 여부 (양품/ 불량), 보험 사기 여부(정상/ 비정상) 수치 예측 데이터 (Regression) y값이 없는 x값의 데이터가 올 때, y값을..
[Data Science from Scratch] ch.7, 8 additional note - Gradient Descent without FrameWork!
·
공부정리/Data Science
참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 8. Gredient Decente - Linear Regression 직접 경사하강법 구현해보기 본 코드는 프레임워크(Scikit-Learn, Tensorflow...etc) 없이 구현한 코드입니다. 구현 순서 sample data 수집 data 정제하기 (회귀, 분류 등 문제 확인) 하이퍼파라미터 설정 Optimizer & Loss Function Select Evaluation Visualizing 해당 코드는 Sample Data를 수집하지 않고, 임의의 데이터를 사용한 것입니다. 1. Sample Data 수집 2. 데이터 정제 (SK..
[Data Science from Scratch] Ch 4, 5, 6 additional note
·
공부정리/Data Science
참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 Ch 4. 선형대수 4.1 거리 유사도 측정방법 Euclidean Distance 두 점 p, q사이의 유클리디안 거리를 구하면 이 두 점의 최단거리가 된다. 다음 코드는 넘파이 라이브러리를 활용하여 두 점 사이의 유클리디안 거리를 이용한 코드이다. 두 가지 개체의 속성값들이 여러개 일 경우 이들 속성값들에 의한 두 개체 사이의 유사도를 구할 때 자주 사용함 import numpy as np point1 = np.array((1, 1)) point2 = np.array((2, 2)) dist = np.linalg.norm(point1 - point2..
[Data Science from Scratch] ch 4. Linear Algebra - (1) Vector
·
공부정리/Data Science
* 이 포스트는 여러 참고 서적과 구글링 내용을 바탕으로 작성하였습니다. 서적 내용의 흐름에 맞게 작성하되, 여러 내용을 보충하여 작성하였습니다. 참고 서적 도서명: Data Science from Scratch (밑바닥부터 시작하는 데이터 과학) 저자 : Joel Grus 출판 : 프로그래밍 인사이트 도서명: 인공지능을 위한 수학 저자 : 이시카와 아키히코 출판 : 프리렉 ch 4. Linear Algebra 선형대수학(Linear Algebra)는 벡터 공간(Vector space)과 선형 변환(Linear transeformation)을 중심으로 한 학문 체계를 말하며, 다양한 분야에서 폭 넓게 사용하고 있다. 선형대수를 많이 활용하는 이유는 방대한 양의 데이터나 복잡한 시스템을 비교적 간단하게 표..