skinOptions.hljs
[NLP] PMI (점별 상호 정보)
·
공부정리/NLP
보호되어 있는 글입니다.
[NLP] 한국어 임베딩 2장 벡터가 어떻게 의미를 가지고 되는가
·
공부정리/NLP
한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지 이기창 저/NAVER Chatbot Model 감수 에이콘출판사 2019년 09월 26일 2. 벡터가 어떻게 의미를 가지고 되는가 2.1 자언어 계산과 이해 표 2-1 임베딩을 만드는 세 가지 철학 구분 백오브워즈 가정 언어 모델 분포 가정 내용 어떤 단어가 (많이) 쓰였는가 단어가 어떤 순서로 쓰였는가 어떤 단어가 같이 쓰였는가 대표 통계량 TF-IDF - PMI 대표 모델 Deep Averaging Network ELMo, GPT Word2Vec 백오브워즈(Bag of Words) 가정 어떤 단어가 많이 쓰였는지 정보를 중시 단어의 순서(order) 정보는 무시함 언어 모델(Language Model..
[NLP] TF - IDF
·
공부정리/NLP
보호되어 있는 글입니다.
특수기호/문장부호 영어로 읽기
·
공부정리
특수기호/문장부호 영어로 읽기 ! Exclamation Point (엑스클러메이션 포인트) " Quotation Mark (쿼테이션 마크) # Crosshatch (크로스해치), Sharp(샵), Pound Sign(파운드 사인) $ Dollar Sign (달러사인) % Percent Sign (퍼센트사인) @ At Sign (앳), Commercial At(커머셜 앳) & Ampersand (앰퍼샌드) ' Apostrophe (어파스트로피) * Asterisk (애스터리스크) - Hyphen (하이픈), Dash(대시) . Period (피리어드), Full Stop (풀스탑) / Slash (슬래시), Virgule (버귤) \ Back Slash (백슬래시) \ Won sign (원사인) : Col..
[NLP] 한국어 임베딩 1장 - 서론
·
공부정리/NLP
한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지 이기창 저/NAVER Chatbot Model 감수 에이콘출판사 2019년 09월 26일 1장 서론 1.1 임베딩이란 1.2 임베딩의 역할 1.3 임베딩 기법의 역사와 종류 1.1 임베딩이란 임베딩 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열 혹은 일련의 과정을 벡터로 바꾼 결과 단어나 문장을 각각 벡터로 변환해 벡터 공간으로 끼워 넣음 단어-문서 행렬[Term-Document-Matrix] 메밀꽃 필 무렵 운수 좋은 날 사랑 손님과 어머니 삼포 가는 길 기차 0 1 9 8 막걸리 1 2 3 5 선술집 2 8 0 3 위의 표에서 [운수 좋은 날]의 임베딩은 [ 1, 2, 8 ] 이다. [막걸..
[NLP] 한국어 전처리 기법 모음
·
공부정리/NLP
https://colab.research.google.com/drive/1FfhWsP9izQcuVl06P30r5cCxELA1ciVE?usp=sharing 영어 전처리는 자연어처리 책에 많이 나오는 편입니다. 하지만 한글은 찾아보기가 어려운데요. 문장 분리, 띄어쓰기, 맞춤법, 외래어, 형태소분석, 스테밍 등 유용한 기법들이 정리되어 있습니다. 필요할 때마다 참고하기 좋을 듯 합니다.
[NLP] 노가다 없는 텍스트 분석을 위한 한국어 NLP
·
공부정리/NLP
reference http://aidev.co.kr/nlp/4728 자연어처리 - 노가다 없는 텍스트 분석을 위한 한국어 NLP https://www.slideshare.net/kimhyunjoonglovit/pycon2017-koreannlp 이전에 소개한 '한국어 채팅 데이터로 머신러닝하기'에서 사용된 cohesion tokenizer(결합 토크나이저)에 대해 자세히 설명한 슬라이드입니다. 토크 aidev.co.kr github https://github.com/lovit/soynlp
[딥러닝] 밑바닥부터 시작하는 딥러닝 2 - Chapter 1 신경망 복습 (1)
·
공부정리/Deep learnig & Machine learning
참고 서적 도서명: Deep Learning from Scratch (밑바닥부터 시작하는 딥러닝) 저자 : 사이토 고키 출판 : 한빛 미디어 chapter 1 신경망 복습 1.1 수학과 파이썬 복습 - ‘벡터𝑣𝑒𝑐𝑡𝑜𝑟’와 ‘행렬𝑚𝑎𝑡𝑟𝑖𝑥’ 벡터 : 크기와 방향을 가진 양. 숫자가 일렬로 늘어선 집합 => 1차원 배열으로 표현 가능 행렬 : 숫자가 2차원 형태(사각형 형상)로 늘어선 것\ - 행렬의 원소별𝑒𝑙𝑒𝑚𝑒𝑛𝑡−𝑤𝑖𝑠𝑒 연산 NumPy는 서로 대응하는 원소끼리 (각 원소가 독립적으로) 연산이 이루어지는 element-wise 연산을 지원한다. - 브로드 캐스트 넘파이의 다차원 배열에서는 형상이 다른 배열끼리도 연산을 지원한다. - 벡터의 내적과 행렬의 곱 x=(x1,…,xn), y=(y1,…,y..
[딥러닝] Convolutional Neural Networks - 강의 정리
·
공부정리/모두를 위한 딥러닝 (강의 정리)
해당 게시글은 모두를 위한 딥러닝 강좌 시즌 1 - Sung Kim 강의를 바탕으로 작성하였습니다. 해당 이미지의 출처는 모두 해당 강의에 있습니다. CNN의 기본적인 아이디어: 고양이 실험 고양이 어떤 형태의 그림에 대해서만 반응한다는 것을 알게됨 그림에따라 인식하는 뉴런의 신호가 달랐다 (입력을 나누어 받음) 해당 실험을 성공적으로 구현한 것이 CNN 과정 전체의 이미지를 받지 않고 일부분만 따로 처리한다. -> filter (고양이 실험처럼 ) Filter 여기서 filter는 우리가 사이즈를 정할 수 있다. 그리고 해당되는 값에서 한 점만 처리한다. 이것이 filter가 하는 일임 그렇다면 5x5x3 filter를 어떻게 한 값으로 만들어내는 것인가? 필터가 움직일 수 있는 범위만큼의 값이 만들어..
[딥러닝] 배치 정규화(Batch Normalization)
·
공부정리/Deep learnig & Machine learning
배치 정규화 핵심 요약 배치 정규화 정의 인공 신경망의 각 층에 들어가는 입력을 평균과 분산으로 정규화하여 학습을 효율적으로 만듦 장점 학습 속도(training speed)를 빠르게 함 가중치 초기화(weight initialization)에 대한 민감도를 감소시킴 모델의 일반화(regularizaion)효과가 있음 배치 정규화 레이어 (BN Layer)을 추가하여 진행한다. 파라미터의 개수도 적어서 성능을 비약적으로 높일 수 있음 연구 배경: 입력 정규화 입력데이터가 표준 정규분포를 가질 수 있도록 정규화해줌 이미지 같은 경우에 이러한 표준화 방법을 자주 사용함 은닉층 정규화 감마와 베타에대한 학습을 진행함 배치 정규화를 하는 이유 딥러닝에서 층에서 층으로 이동될 때마다 이전 층들의 학습에 의해 가중..
캐글 API를 이용하여 제출하기
·
공부정리/Dacon
보호되어 있는 글입니다.
[Data Science from Scratch] Chapter 22
·
공부정리/Data Science
보호되어 있는 글입니다.