[NLP] 캐글 영화 리뷰 분석 튜토리얼 3 - (1) K-means로 군집화(Clustering) 하고 학습, 예측하기 - 강의 정리
·
공부정리/NLP
보호되어 있는 글입니다.
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (3) 평균 feature vector 구하기 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. 지난 시간에는 데이터를 전처리한 뒤, Word2Vec를 시각화 t-SNE 로 시각화를 진행하였다. 이번시간에는 평균 feature vector 구하기를 해볼 것이다. 단어 벡터의 평균을 구한다. 평균 피쳐 벡터를 계산한다. KaggleWord2VecUtility.apply_by_multiprocessing(\ reviews["review"] 미리 정의해둔 클래스를 불러와서 적용 트레인 데이터에 대해 정제한 뒤, 모델과 피쳐를 구하고 평균벡터를 구한다. 테스트 데이터에 대해서도 똑같이 진행 랜덤포레스트로 모델 학습하기 학습 모델 평가하기 모델 저장하기 Sen..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (2) Gensim을 통해 벡터화, t-SNE로 시각화하기 - 강의 정리
·
공부정리/NLP
[NLP] 제목 - 강의 정리 해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Word2Vec 의 경우 단어간의 문맥을 함께 고려하기때문에 불용어 처리(StopWord)는 False 해준다. (불용어도 함께 고려하여 모델 학습) 데이터 전처리 Word2Vec 모델을 학습 전처리를 거쳐 파싱된 문장의 목록으로 모델을 학습시킬 준비가 되었다. Gensim gensim: models.word2vec – Deep learning with word2vec 젠심 사이트에 가면 튜토리얼 해볼 수 있당 Gensim: topic modelling for humans Efficient topic modelling in P..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 2 - (1) 딥러닝 기법 Word2Vec 소개 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Bag of Words Meets Bags of Popcorn 튜토리얼 파트 2 Word Vectors 딥러닝 기법인 Word2Vec을 통해 단어를 벡터화 해본다. t-SNE를 통해 벡터화 한 데이터를 시각화 해본다. 딥러닝과 지도학습의 랜덤포레스트를 사용하는 하이브리드 방식을 사용한다. Word2Vec(Word Embedding to Vector) 컴퓨터는 숫자만 인식할 수 있고 한글, 이미지는 바이너리 코드로 저장 된다. 튜토리얼 파트1에서는 Bag of Word라는 개념을 사용해서 문자를 벡터화 하여 머신러닝 알고리즘이 이해할 수 있도록 벡터화 해주는..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (4) 랜덤 포레스트로 영화 감성 예측 평가 ROC / AUC - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. pre-requires 평가 과정에서는 ROC 커프 이용 x train 행렬 데이터 y train 벡터 데이터 랜덤 포레스트 기본적인 구성 랜덤 포레스트 랜덤 포레스트의 가장 핵심적인 특징은 임의성(randomness)에 의해 서로 조금씩 다른 특성을 갖는 트리들로 구성된다는 점이다. 이 특징은 각 트리들의 예측(prediction)들이 비상관화(decorrelation) 되게하며, 결과적으로 일반화(generalization) 성능을 향상시킨다. 또한, 임의화(randomization)는 포레스트가 노이즈가 포함된 데이터에 대해서도 강하게 만들어 준다. ..
[NLP] 캐글 영화 리뷰 분석 튜토리얼 (3) CountVectorizer 로 텍스트 데이터 벡터화 - 강의 정리
·
공부정리/NLP
해당 게시물은 '박조은'강사님의 인프런 강의, [NLP] IMDB 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리를 정리한 게시글입니다. Bag-of-words model - Wikipedia 요약: 단어 가방에 단어가 얼마나 나오는지 넣어보자! Bag-of-words model - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Representation of a text as the bag of its words The bag-of-words model is a simplifying representation used in natural language processing and inform..
Programmers / [1차] 뉴스 클러스터링 / Python 파이썬
·
coding test - python/Programmers
*문제 출처는 프로그래머스에 있습니다. 문제 제목: [1차] 뉴스 클러스터링 (2단계) 문제 사이트: https://school.programmers.co.kr/learn/courses/30/lessons/17677 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 뉴스 클러스터링 여러 언론사에서 쏟아지는 뉴스, 특히 속보성 뉴스를 보면 비슷비슷한 제목의 기사가 많아 정작 필요한 기사를 찾기가 어렵다. Daum 뉴스의 개발 업무를 맡게 된 신입사원 튜브는 사용자들이 편리하게 다양한 뉴스를 찾아볼 수 있도록 문제점을 개선하는 업무를 맡게 되었다. 개발의 방향을..
원형 큐 - 모듈 없이 구현
·
python/자료구조 & 알고리즘
보호되어 있는 글입니다.
Programmers / 영어 끝말잇기 / Python 파이썬
·
coding test - python/Programmers
*문제 출처는 프로그래머스에 있습니다. 문제 제목: 영어 끝말잇기 (2단계) 문제 사이트: https://school.programmers.co.kr/learn/courses/30/lessons/12981 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 1부터 n까지 번호가 붙어있는 n명의 사람이 영어 끝말잇기를 하고 있습니다. 영어 끝말잇기는 다음과 같은 규칙으로 진행됩니다. 1번부터 번호 순서대로 한 사람씩 차례대로 단어를 말합니다. 마지막 사람이 단어를 말한 다음에는 다시 1번부터 시작합니다. 앞사람이 말한 단어의 마지막 문자로 시작하는 단어를 말해야..
Programmers / [1차] 캐시 / Python 파이썬
·
coding test - python/Programmers
*문제 출처는 프로그래머스에 있습니다. 문제 제목: [1차] 캐시 (2단계) 문제 사이트: https://school.programmers.co.kr/learn/courses/30/lessons/17680?language=python3 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 캐시 지도개발팀에서 근무하는 제이지는 지도에서 도시 이름을 검색하면 해당 도시와 관련된 맛집 게시물들을 데이터베이스에서 읽어 보여주는 서비스를 개발하고 있다. 이 프로그램의 테스팅 업무를 담당하고 있는 어피치는 서비스를 오픈하기 전 각 로직에 대한 성능 측정을 수행하였는데, 제..
캐시(페이지) 교체 알고리즘: LRU(Least Recently Used)
·
python/자료구조 & 알고리즘
사용자에게 빠르게 정보를 제공하기 위해 사용하는 캐시에서 새로운 데이터가 발생했을 때, 가장 오래전에 사용된 데이터를 제거하고 새로운 데이터를 삽입하는 알고리즘입니다. 새로운 데이터가 들어온 경우 캐시에 넣어준다. 캐시가 가득차있다면, 가장 오래된 데이터를 제거하고 넣어준다. 존재하는 데이터가 들어온 경우 해당 데이터를 꺼낸 뒤, 가장 최근 데이터 위치로 보내준다. 파이썬으로 구현하면 다음과 같습니다. cache_Size = 5 cache = [1, 2, 3, 4, 5] user_data = [3, 7, 2] for data in user_data: # Miss! if data not in cache: if len(cache) < cacheSize: cache.append(data) else: cache..
데이콘 경진 대회 리스트 사이트 주소
·
공부정리/Dacon
https://www.notion.so/a66bdf18f5884d1b8015e46a06fc6854 데이콘 경진대회 리스트 A new tool for teams & individuals that blends everyday work apps into one. www.notion.so