skinOptions.hljs
[NLP] KorQuAD 1.0 데이터셋 기계독해 MRC 구현 / BERT fine-turning
·
공부정리/NLP
- 기존 COLAB 환경에서 TPU로 학습된 코드를 GPU 환경에서 실행되도록 하였습니다. - 마지막에 직접 커스텀 데이터셋 (본문과 질문)을 넣으면 해당 모델을 통해 기계독해를 하도록 구현한 것을 추가하였습니다. - 평가함수에 대한 구현은 아직 미흡합니다. 코드 구현 HTML 삽입 미리보기할 수 없는 소스 REFERENCE 원본 코드 https://github.com/ukairia777/tensorflow-nlp-tutorial/blob/main/18.%20Fine-tuning%20BERT%20(Cls%2C%20NER%2C%20NLI)/18-7.%20kor_bert_question_answering_tpu.ipynb GitHub - ukairia777/tensorflow-nlp-tutorial: ten..
[DeepLearning] Attention
·
공부정리/Deep learnig & Machine learning
보호되어 있는 글입니다.
[Deeplearning] LSTM Networks
·
공부정리/Deep learnig & Machine learning
1. Introdution to LSTM LSTM(장단기 메모리)는 RNN의 변형입니다. RNN 은 입력 Xt에 대해 여러 몇 가지 게이트가 있습니다. 끝으로 ht를 구할 수 있습니다. 펼치면 거대한 신경망 노드가 생깁니다. 은닉층이 다음 은닉층에 연결되는 방식으로 작동합니다. RNN 에는 기울기 소실 & 폭주 문제가 있었습니다. 단어를 예측할 때 굉장히 긴 시퀀스를 제공하면 기울기 소실 (Vanishing Gradient 문제가 발생합니다.) 긴 데이터 시퀀스가 학습을 방해하는 것입니다. 예를 들어 RNN에게 SKY에 대한 예측을 학습시킨다면, 이것은 작은 시퀀스로 RNN 은 잘 작동합니다. 하지만 RNN의 시퀀스가 커진다면 문제가 발생합니다. 이러한 문제를 해결하기위해 LSTM이 고안되었습니다. RN..
[Deeplearning] RNN Model
·
공부정리/Deep learnig & Machine learning
1. Introduction to RNNs 순환 싱경망(RNN)은 순차 데이터 용으로 잘 알려져 있습니다. 텍스트, 오디오, 비디오 및 모든 시계열 형식의 순차적 데이터를 다룰 때마다 RNN이 첫번째 선택이 될 것입니다. Sequential Modeling Sequential Modeling Understanding Recurrent Neural Networks (RNNs) RNN Wariants LSTM GRU Bi-directional sequence modelling Challenges in vanilla RNNs RNN 을 알려면 순차 모델링과 순차적 데이터를 아는 것이 중요합니다. 순차적 데이터란 특정 시퀀스에 있는 데이터에 대한 것을 이야햐기 합니다. Xt인 점이 있고 Xt+1 인 점을 생각하..
[Deeplearning] 이미지 데이터 증강(Augmentation) - Pytorch transforms 정리
·
공부정리/Deep learnig & Machine learning
HTML 삽입 미리보기할 수 없는 소스
[Deeplearning] 작물 잎 사진으로 질병 분류하기 (2) - Pytorch
·
공부정리/Deep learnig & Machine learning
보호되어 있는 글입니다.
[Deeplearning] 작물 잎 사진으로 질병 분류하기 (1) 베이스라인 설계- Pytorch
·
공부정리/Deep learnig & Machine learning
보호되어 있는 글입니다.
[NLP] Py-Hanspell로 띄워쓰기와 맞춤법 교정하기 -with 네이버 한글 맞춤법 검사기
·
공부정리/NLP
Py-Hanspell pip install git+https://github.com/ssut/py-hanspell.git Py-Hanspell은 네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지입니다. from hanspell import spell_checker sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 " spelled_sent = spell_checker.check(sent) hanspell_sent = spelled_sent.checked print(hanspell_sent) 맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지 이 패키지는 띄어쓰기 또한 보정합니다. PyKoSpacing에 사용한 예제를 그대로 사용해봅시다. spelled_sent = spell_checker.c..
[NLP] PyKoSpacing로 띄어쓰기 교정하기
·
공부정리/NLP
PyKoSpacing pip install git+https://github.com/haven-jeon/PyKoSpacing.git 전희원님이 개발한 PyKoSpacing은 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지입니다. PyKoSpacing은 대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥 러닝 모델로 준수한 성능을 가지고 있습니다. sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.' 임의의 문장을 임의로 띄어쓰기가 없는 문장으로 만들었습니다. new_sent = sent.replace(" ", '') # 띄어쓰..
mecab 설치 (with ubuntu, konlpy)
·
공부정리/NLP
1. Konlpy 설치 pip install konlpy pip install JPype1 아래의 코드로 테스트한다. from konlpy.tag import Komoran komoran = Komoran() text = "아버지가 방에 들어가신다." komoran.nouns(text) komoran.morphs(text) 2. Mecab 설치 wget https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz tar xvfz mecab-0.996-ko-0.9.2.tar.gz cd mecab-0.996-ko-0.9.2 ./configure make make check make install sudo ldconfig mecab ..
[NLP Project] 3. 데이터 학습을 위한 준비 (학습 데이터와 테스트데이터)
·
공부정리/NLP
tokenization.py from tensorflow.keras.preprocessing.text import Tokenizer # 정제 및 빈도수가 높은 상위 단어들만 추출하기 위해 토큰화 작업 def Token(sentences,ner_tags): max_words = 4000 src_tokenizer = Tokenizer(num_words=max_words,oov_token='-') src_tokenizer.fit_on_texts(sentences) tar_tokenizer = Tokenizer() tar_tokenizer.fit_on_texts(ner_tags) vocab_size = max_words tag_size = len(tar_tokenizer.word_index) + 1 return..
[NLP] Mecab 형태소 분석기 품사 태그
·
공부정리/NLP