skinOptions.hljs
[NLP] Word2Vec 연습
·
공부정리/NLP
보호되어 있는 글입니다.
[NLP] PMI (점별 상호 정보)
·
공부정리/NLP
보호되어 있는 글입니다.
[NLP] 한국어 임베딩 2장 벡터가 어떻게 의미를 가지고 되는가
·
공부정리/NLP
한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지 이기창 저/NAVER Chatbot Model 감수 에이콘출판사 2019년 09월 26일 2. 벡터가 어떻게 의미를 가지고 되는가 2.1 자언어 계산과 이해 표 2-1 임베딩을 만드는 세 가지 철학 구분 백오브워즈 가정 언어 모델 분포 가정 내용 어떤 단어가 (많이) 쓰였는가 단어가 어떤 순서로 쓰였는가 어떤 단어가 같이 쓰였는가 대표 통계량 TF-IDF - PMI 대표 모델 Deep Averaging Network ELMo, GPT Word2Vec 백오브워즈(Bag of Words) 가정 어떤 단어가 많이 쓰였는지 정보를 중시 단어의 순서(order) 정보는 무시함 언어 모델(Language Model..
[NLP] TF - IDF
·
공부정리/NLP
보호되어 있는 글입니다.
[NLP] 한국어 임베딩 1장 - 서론
·
공부정리/NLP
한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지 이기창 저/NAVER Chatbot Model 감수 에이콘출판사 2019년 09월 26일 1장 서론 1.1 임베딩이란 1.2 임베딩의 역할 1.3 임베딩 기법의 역사와 종류 1.1 임베딩이란 임베딩 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열 혹은 일련의 과정을 벡터로 바꾼 결과 단어나 문장을 각각 벡터로 변환해 벡터 공간으로 끼워 넣음 단어-문서 행렬[Term-Document-Matrix] 메밀꽃 필 무렵 운수 좋은 날 사랑 손님과 어머니 삼포 가는 길 기차 0 1 9 8 막걸리 1 2 3 5 선술집 2 8 0 3 위의 표에서 [운수 좋은 날]의 임베딩은 [ 1, 2, 8 ] 이다. [막걸..
[NLP] 한국어 전처리 기법 모음
·
공부정리/NLP
https://colab.research.google.com/drive/1FfhWsP9izQcuVl06P30r5cCxELA1ciVE?usp=sharing 영어 전처리는 자연어처리 책에 많이 나오는 편입니다. 하지만 한글은 찾아보기가 어려운데요. 문장 분리, 띄어쓰기, 맞춤법, 외래어, 형태소분석, 스테밍 등 유용한 기법들이 정리되어 있습니다. 필요할 때마다 참고하기 좋을 듯 합니다.
[NLP] 노가다 없는 텍스트 분석을 위한 한국어 NLP
·
공부정리/NLP
reference http://aidev.co.kr/nlp/4728 자연어처리 - 노가다 없는 텍스트 분석을 위한 한국어 NLP https://www.slideshare.net/kimhyunjoonglovit/pycon2017-koreannlp 이전에 소개한 '한국어 채팅 데이터로 머신러닝하기'에서 사용된 cohesion tokenizer(결합 토크나이저)에 대해 자세히 설명한 슬라이드입니다. 토크 aidev.co.kr github https://github.com/lovit/soynlp
[NLP] 캐글 영화 리뷰 분석 튜토리얼 3 - (1) K-means로 군집화(Clustering) 하고 학습, 예측하기 - 강의 정리
·
공부정리/NLP
보호되어 있는 글입니다.
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (3) 평균 feature vector 구하기 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 지난 시간에는 데이터를 전처리한 뒤, Word2Vec를 시각화 t-SNE 로 시각화를 진행하였다. 이번시간에는 평균 feature vector 구하기를 해볼 것이다. 단어 벡터의 평균을 구한다. 평균 피쳐 벡터를 계산한다. KaggleWord2VecUtility.apply_by_multiprocessing(\ reviews["review"] 미리 정의해둔 클래스를 불러와서 적용 트레인 데이터에 대해 정제한 뒤, 모델과 피쳐를 구하고 평균벡터를 구한다. 테스트 데이터에 대해서도 똑같이 진행 랜덤포레스트로 모델 학습하기 학습 모델 평가하기 모델 저장하기 Sen..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (2) Gensim을 통해 벡터화, t-SNE로 시각화하기 - 강의 정리
·
공부정리/NLP
[NLP] 제목 - 강의 정리 해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Word2Vec 의 경우 단어간의 문맥을 함께 고려하기때문에 불용어 처리(StopWord)는 False 해준다. (불용어도 함께 고려하여 모델 학습) 데이터 전처리 Word2Vec 모델을 학습 전처리를 거쳐 파싱된 문장의 목록으로 모델을 학습시킬 준비가 되었다. Gensim gensim: models.word2vec – Deep learning with word2vec 젠심 사이트에 가면 튜토리얼 해볼 수 있당 Gensim: topic modelling for humans Efficient topic modelling in P..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (1) 딥러닝 기법 Word2Vec 소개 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Bag of Words Meets Bags of Popcorn 튜토리얼 파트 2 Word Vectors 딥러닝 기법인 Word2Vec을 통해 단어를 벡터화 해본다. t-SNE를 통해 벡터화 한 데이터를 시각화 해본다. 딥러닝과 지도학습의 랜덤포레스트를 사용하는 하이브리드 방식을 사용한다. Word2Vec(Word Embedding to Vector) 컴퓨터는 숫자만 인식할 수 있고 한글, 이미지는 바이너리 코드로 저장 된다. 튜토리얼 파트1에서는 Bag of Word라는 개념을 사용해서 문자를 벡터화 하여 머신러닝 알고리즘이 이해할 수 있도록 벡터화 해주는..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (4) 랜덤 포레스트로 영화 감성 예측 평가 ROC / AUC - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. pre-requires 평가 과정에서는 ROC 커프 이용 x train 행렬 데이터 y train 벡터 데이터 랜덤 포레스트 기본적인 구성 랜덤 포레스트 랜덤 포레스트의 가장 핵심적인 특징은 임의성(randomness)에 의해 서로 조금씩 다른 특성을 갖는 트리들로 구성된다는 점이다. 이 특징은 각 트리들의 예측(prediction)들이 비상관화(decorrelation) 되게하며, 결과적으로 일반화(generalization) 성능을 향상시킨다. 또한, 임의화(randomization)는 포레스트가 노이즈가 포함된 데이터에 대해서도 강하게 만들어 준다. ..