skinOptions.hljs
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (3) CountVectorizer 로 텍스트 데이터 벡터화 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Bag-of-words model - Wikipedia 요약: 단어 가방에 단어가 얼마나 나오는지 넣어보자! Bag-of-words model - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Representation of a text as the bag of its words The bag-of-words model is a simplifying representation used in natural language processing and inform..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (2) 데이터 정제하기 (BeautifulSoup, re, NLTK) - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 이전 게시글에서 리뷰에 태그나 여러가지 기호가 아닌 것들을 정제해야함을 언급했다. 이번 게시글에서는 그러한 것들을 제거하여 데이터를 정제해보자. 데이터 정제 Data Cleaning and Text Preprocessing 기계가 텍스트를 이해할 수 있도록 텍스트를 정제해 준다. 신호와 소음을 구분한다. 아웃라이어데이터로 인한 오버피팅을 방지한다. BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거 정규표현식으로 알파벳 이외의 문자를 공백으로 치환 NLTK 데이터를 사용해 불용어(Stopword)를 제거 어간추출(스테밍 Stemming)과 음소..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (1) 데이터 확인하기 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 더보기 Depth 에따라 언더피팅, 오버피팅이 갈림 파트 1 NLP는? NLP(자연어처리)는 텍스트 문제에 접근하기 위한 기술집합이다. 이 튜토리얼에서는 IMDB 영화 리뷰를 로딩하고 정제하고 간단한 BOW(Bag of Words) 모델을 적용하여 리뷰가 추천인지 아닌지에 대한 정확도를 예측한다. 이번 파트에선 정제한 데이터를 바탕으로 지도학습을 진행할 것이다. 데이터를 정제하면서 제출 점수를 높여본다. uni-gram 사용 시 캐글 점수 tri-gram 사용 시 캐글 점수 어간추출 후 캐글 점수 랜덤포레스트의 max_depth = 5 로 지정하고 Coun..
[NLP] 캐글 머신러닝 자연어처리 NLP 튜토리얼 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 자연어 처리란? 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나 자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되는 분야이다. - 자연어 처리에 대한 자세한 내용 더보기 형태소 분석 자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절을 최소의 의미 단위인 '형태소'로 분석하는 것을 의미한다. 형태소 분석 단계에서 문제가 되는 부분은 미등록어, 오탈자,..