'공부정리/NLP' 카테고리의 글 목록 (3 Page)

보호되어 있는 글입니다.

한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지 이기창 저/NAVER Chatbot Model 감수 에이콘출판사 2019년 09월 26일 2. 벡터가 어떻게 의미를 가지고 되는가 2.1 자언어 계산과 이해 표 2-1 임베딩을 만드는 세 가지 철학 구분 백오브워즈 가정 언어 모델 분포 가정 내용 어떤 단어가 (많이) 쓰였는가 단어가 어떤 순서로 쓰였는가 어떤 단어가 같이 쓰였는가 대표 통계량 TF-IDF - PMI 대표 모델 Deep Averaging Network ELMo, GPT Word2Vec 백오브워즈(Bag of Words) 가정 어떤 단어가 많이 쓰였는지 정보를 중시 단어의 순서(order) 정보는 무시함 언어 모델(Language Model..

보호되어 있는 글입니다.

한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지 이기창 저/NAVER Chatbot Model 감수 에이콘출판사 2019년 09월 26일 1장 서론 1.1 임베딩이란 1.2 임베딩의 역할 1.3 임베딩 기법의 역사와 종류 1.1 임베딩이란 임베딩 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열 혹은 일련의 과정을 벡터로 바꾼 결과 단어나 문장을 각각 벡터로 변환해 벡터 공간으로 끼워 넣음 단어-문서 행렬[Term-Document-Matrix] 메밀꽃 필 무렵 운수 좋은 날 사랑 손님과 어머니 삼포 가는 길 기차 0 1 9 8 막걸리 1 2 3 5 선술집 2 8 0 3 위의 표에서 [운수 좋은 날]의 임베딩은 [ 1, 2, 8 ] 이다. [막걸..

https://colab.research.google.com/drive/1FfhWsP9izQcuVl06P30r5cCxELA1ciVE?usp=sharing 영어 전처리는 자연어처리 책에 많이 나오는 편입니다. 하지만 한글은 찾아보기가 어려운데요. 문장 분리, 띄어쓰기, 맞춤법, 외래어, 형태소분석, 스테밍 등 유용한 기법들이 정리되어 있습니다. 필요할 때마다 참고하기 좋을 듯 합니다.

reference http://aidev.co.kr/nlp/4728 자연어처리 - 노가다 없는 텍스트 분석을 위한 한국어 NLP https://www.slideshare.net/kimhyunjoonglovit/pycon2017-koreannlp 이전에 소개한 '한국어 채팅 데이터로 머신러닝하기'에서 사용된 cohesion tokenizer(결합 토크나이저)에 대해 자세히 설명한 슬라이드입니다. 토크 aidev.co.kr github https://github.com/lovit/soynlp

보호되어 있는 글입니다.

해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 지난 시간에는 데이터를 전처리한 뒤, Word2Vec를 시각화 t-SNE 로 시각화를 진행하였다. 이번시간에는 평균 feature vector 구하기를 해볼 것이다. 단어 벡터의 평균을 구한다. 평균 피쳐 벡터를 계산한다. KaggleWord2VecUtility.apply_by_multiprocessing(\ reviews["review"] 미리 정의해둔 클래스를 불러와서 적용 트레인 데이터에 대해 정제한 뒤, 모델과 피쳐를 구하고 평균벡터를 구한다. 테스트 데이터에 대해서도 똑같이 진행 랜덤포레스트로 모델 학습하기 학습 모델 평가하기 모델 저장하기 Sen..

[NLP] 제목 - 강의 정리 해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Word2Vec 의 경우 단어간의 문맥을 함께 고려하기때문에 불용어 처리(StopWord)는 False 해준다. (불용어도 함께 고려하여 모델 학습) 데이터 전처리 Word2Vec 모델을 학습 전처리를 거쳐 파싱된 문장의 목록으로 모델을 학습시킬 준비가 되었다. Gensim gensim: models.word2vec – Deep learning with word2vec 젠심 사이트에 가면 튜토리얼 해볼 수 있당 Gensim: topic modelling for humans Efficient topic modelling in P..

해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Bag of Words Meets Bags of Popcorn 튜토리얼 파트 2 Word Vectors 딥러닝 기법인 Word2Vec을 통해 단어를 벡터화 해본다. t-SNE를 통해 벡터화 한 데이터를 시각화 해본다. 딥러닝과 지도학습의 랜덤포레스트를 사용하는 하이브리드 방식을 사용한다. Word2Vec(Word Embedding to Vector) 컴퓨터는 숫자만 인식할 수 있고 한글, 이미지는 바이너리 코드로 저장 된다. 튜토리얼 파트1에서는 Bag of Word라는 개념을 사용해서 문자를 벡터화 하여 머신러닝 알고리즘이 이해할 수 있도록 벡터화 해주는..

해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. pre-requires 평가 과정에서는 ROC 커프 이용 x train 행렬 데이터 y train 벡터 데이터 랜덤 포레스트 기본적인 구성 랜덤 포레스트 랜덤 포레스트의 가장 핵심적인 특징은 임의성(randomness)에 의해 서로 조금씩 다른 특성을 갖는 트리들로 구성된다는 점이다. 이 특징은 각 트리들의 예측(prediction)들이 비상관화(decorrelation) 되게하며, 결과적으로 일반화(generalization) 성능을 향상시킨다. 또한, 임의화(randomization)는 포레스트가 노이즈가 포함된 데이터에 대해서도 강하게 만들어 준다. ..

티스토리툴바