[NLP] 캐글 영화 리뷰 분석 튜토리얼 3 - (1) K-means로 군집화(Clustering) 하고 학습, 예측하기 - 강의 정리
·
공부정리/NLP
보호되어 있는 글입니다.
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (3) 평균 feature vector 구하기 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 지난 시간에는 데이터를 전처리한 뒤, Word2Vec를 시각화 t-SNE 로 시각화를 진행하였다. 이번시간에는 평균 feature vector 구하기를 해볼 것이다. 단어 벡터의 평균을 구한다. 평균 피쳐 벡터를 계산한다. KaggleWord2VecUtility.apply_by_multiprocessing(\ reviews["review"] 미리 정의해둔 클래스를 불러와서 적용 트레인 데이터에 대해 정제한 뒤, 모델과 피쳐를 구하고 평균벡터를 구한다. 테스트 데이터에 대해서도 똑같이 진행 랜덤포레스트로 모델 학습하기 학습 모델 평가하기 모델 저장하기 Sen..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (2) Gensim을 통해 벡터화, t-SNE로 시각화하기 - 강의 정리
·
공부정리/NLP
[NLP] 제목 - 강의 정리 해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Word2Vec 의 경우 단어간의 문맥을 함께 고려하기때문에 불용어 처리(StopWord)는 False 해준다. (불용어도 함께 고려하여 모델 학습) 데이터 전처리 Word2Vec 모델을 학습 전처리를 거쳐 파싱된 문장의 목록으로 모델을 학습시킬 준비가 되었다. Gensim gensim: models.word2vec – Deep learning with word2vec 젠심 사이트에 가면 튜토리얼 해볼 수 있당 Gensim: topic modelling for humans Efficient topic modelling in P..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (1) 딥러닝 기법 Word2Vec 소개 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Bag of Words Meets Bags of Popcorn 튜토리얼 파트 2 Word Vectors 딥러닝 기법인 Word2Vec을 통해 단어를 벡터화 해본다. t-SNE를 통해 벡터화 한 데이터를 시각화 해본다. 딥러닝과 지도학습의 랜덤포레스트를 사용하는 하이브리드 방식을 사용한다. Word2Vec(Word Embedding to Vector) 컴퓨터는 숫자만 인식할 수 있고 한글, 이미지는 바이너리 코드로 저장 된다. 튜토리얼 파트1에서는 Bag of Word라는 개념을 사용해서 문자를 벡터화 하여 머신러닝 알고리즘이 이해할 수 있도록 벡터화 해주는..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (4) 랜덤 포레스트로 영화 감성 예측 평가 ROC / AUC - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. pre-requires 평가 과정에서는 ROC 커프 이용 x train 행렬 데이터 y train 벡터 데이터 랜덤 포레스트 기본적인 구성 랜덤 포레스트 랜덤 포레스트의 가장 핵심적인 특징은 임의성(randomness)에 의해 서로 조금씩 다른 특성을 갖는 트리들로 구성된다는 점이다. 이 특징은 각 트리들의 예측(prediction)들이 비상관화(decorrelation) 되게하며, 결과적으로 일반화(generalization) 성능을 향상시킨다. 또한, 임의화(randomization)는 포레스트가 노이즈가 포함된 데이터에 대해서도 강하게 만들어 준다. ..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (3) CountVectorizer 로 텍스트 데이터 벡터화 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Bag-of-words model - Wikipedia 요약: 단어 가방에 단어가 얼마나 나오는지 넣어보자! Bag-of-words model - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Representation of a text as the bag of its words The bag-of-words model is a simplifying representation used in natural language processing and inform..
데이콘 경진 대회 리스트 사이트 주소
·
공부정리/Dacon
https://www.notion.so/a66bdf18f5884d1b8015e46a06fc6854 데이콘 경진대회 리스트 A new tool for teams & individuals that blends everyday work apps into one. www.notion.so
[딥러닝] 활성화 함수 정리
·
공부정리/Deep learnig & Machine learning
보호되어 있는 글입니다.
[딥러닝] 활성화 함수 요약 정리
·
공부정리/Deep learnig & Machine learning
활성화 함수는 붉은 색 그래프, 활성화 함수의 미분값은 푸른색 그래프로 표현 Sigmoid 보통 어떤값이 나올 확률을 계산할 때 많이 사용된다. 특징: 입력 값을 0과 1 사이의 값으로 변환하여 출력한다. 사용처: 로지스틱 리그레션, 바이너리 클래시피케이션 등에 사용된다. 한계점: 미분 함수의 최대 값이 0.5가 된다. 때문에 레이어가 깊어질 수록 gradient가 전달되지 않는 vanishing gradient 문제가 발생할 가능성이 있다. 이후 ReLU에 의해 많이 대체된다. Sigmoid를 이용한 출력 값이 0 또는 1사이에 값으로 매우 작다. 딥러닝 모델은 뉴런의 잘못된 가중치 값을 고치기 위하여 역전파 알고리즘 사용한다. 하지만 Sigmoid를 사용하는 경우 역전파 알고리즘 값을 구하는 중 미분..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (2) 데이터 정제하기 (BeautifulSoup, re, NLTK) - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 이전 게시글에서 리뷰에 태그나 여러가지 기호가 아닌 것들을 정제해야함을 언급했다. 이번 게시글에서는 그러한 것들을 제거하여 데이터를 정제해보자. 데이터 정제 Data Cleaning and Text Preprocessing 기계가 텍스트를 이해할 수 있도록 텍스트를 정제해 준다. 신호와 소음을 구분한다. 아웃라이어데이터로 인한 오버피팅을 방지한다. BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거 정규표현식으로 알파벳 이외의 문자를 공백으로 치환 NLTK 데이터를 사용해 불용어(Stopword)를 제거 어간추출(스테밍 Stemming)과 음소..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (1) 데이터 확인하기 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 더보기 Depth 에따라 언더피팅, 오버피팅이 갈림 파트 1 NLP는? NLP(자연어처리)는 텍스트 문제에 접근하기 위한 기술집합이다. 이 튜토리얼에서는 IMDB 영화 리뷰를 로딩하고 정제하고 간단한 BOW(Bag of Words) 모델을 적용하여 리뷰가 추천인지 아닌지에 대한 정확도를 예측한다. 이번 파트에선 정제한 데이터를 바탕으로 지도학습을 진행할 것이다. 데이터를 정제하면서 제출 점수를 높여본다. uni-gram 사용 시 캐글 점수 tri-gram 사용 시 캐글 점수 어간추출 후 캐글 점수 랜덤포레스트의 max_depth = 5 로 지정하고 Coun..
[NLP] 캐글 머신러닝 자연어처리 NLP 튜토리얼 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 자연어 처리란? 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나 자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되는 분야이다. - 자연어 처리에 대한 자세한 내용 더보기 형태소 분석 자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절을 최소의 의미 단위인 '형태소'로 분석하는 것을 의미한다. 형태소 분석 단계에서 문제가 되는 부분은 미등록어, 오탈자,..