728x90
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다.
지난 시간에는 데이터를 전처리한 뒤, Word2Vec를 시각화 t-SNE 로 시각화를 진행하였다.
이번시간에는 평균 feature vector 구하기를 해볼 것이다.
단어 벡터의 평균을 구한다.
평균 피쳐 벡터를 계산한다.
KaggleWord2VecUtility.apply_by_multiprocessing(\
reviews["review"]
미리 정의해둔 클래스를 불러와서 적용
트레인 데이터에 대해 정제한 뒤, 모델과 피쳐를 구하고 평균벡터를 구한다.
테스트 데이터에 대해서도 똑같이 진행
랜덤포레스트로 모델 학습하기
학습
모델 평가하기
모델 저장하기
Sentiment 데이터 확인 (긍정, 부정)
train 데이터와 test 데이터의 sentiment 비교 시각화
728x90
'공부정리 > NLP' 카테고리의 다른 글
[NLP] 노가다 없는 텍스트 분석을 위한 한국어 NLP (0) | 2022.09.29 |
---|---|
[NLP] 캐글 영화 리뷰 분석 튜토리얼 3 - (1) K-means로 군집화(Clustering) 하고 학습, 예측하기 - 강의 정리 (0) | 2022.08.29 |
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (2) Gensim을 통해 벡터화, t-SNE로 시각화하기 - 강의 정리 (0) | 2022.08.29 |
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (1) 딥러닝 기법 Word2Vec 소개 - 강의 정리 (0) | 2022.08.29 |
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (4) 랜덤 포레스트로 영화 감성 예측 평가 ROC / AUC - 강의 정리 (0) | 2022.08.29 |