skinOptions.hljs
[NLP] DialoGPT 를 이용해서 데이터 커스텀을 통한 GPT 생성 - HuggingFace
·
공부정리/NLP
{ "cells": [ { "cell_type": "markdown", "metadata": { "cell_id": "00000-e1532e6c-1d68-438a-9ae3-e3d5d228be0b", "deepnote_cell_type": "markdown", "id": "VTze-VbeU1c0" }, "source": [ "# Fine-tune a DialoGPT model\n", "\n", "Adapted from the notebook in this Medium post." ] }, { "cell_type": "markdown", "metadata": { "cell_id": "00001-f1561e9e-4ec2-471c-947d-1fb1e9006488", "deepnote_cell_type": "ma..
[NLP] KoNlPy Okt 형태소 분석기 사전에 추가하기
·
공부정리/NLP
일단 내가 사용하고 있는 anaconda 가상환경의 경로를 알아야 한다. anaconda prompt 창을 열어 가장 먼저 나오는 경로를 찾으면 된다. 해당 경로에서 anaconda 폴더를 찾고 envs로 들어간다. envs에서 내가 사용중인 가상환경폴더로 들어간다. 그러면 다음과 같이 보일 것이다. 이제 여기서 konlpy폴더를 찾아야 하는데 그냥 검색창에 konlpy 입력해서 나오는 폴더를 찾으면 된다. 위 사진처럼 보인다면 성공이다. 이제 java폴더에서 open-korean-text-2.1.0압축파일을 해제한다. 압축해제한 폴더에서 org > openkoreantext > processor > util 을 찾는다. 일단 명사부터 수정하기 위해 noun을 들어가 후 원하는 파일을 연다. 나는 일단 ..
[NLP] Hugging Face 허깅페이스에서 불러온 모델 미세조정 후 모델업로드하기 (SQuAD v1.1 Dataset)
·
공부정리/NLP
HTML 삽입 미리보기할 수 없는 소스 이렇게 모델을 올리고 나면 내 허깅페이스 레파지토리에 잘 올라간 모습을 볼 수 있습니다. 이렇게 내 계정에 모델을 올리면 허깅페이스 API를 통해 간편하게 다른 코드에서 모델을 불러와 바로 적용할 수 있습니당~! 모델의 주소는 [계정명]/[모델명] 이렇게 작성하면 됩니다. 예시1. sillon/huggingface-tutorial 예시2. sillon/linux_test
[NLP] Hugging Face API, 허깅페이스 API / Trainer, Training Arguments 구현
·
공부정리/NLP
Trainer class는 모델학습부터 평가까지 한 번에 해결할 수 있는 API를 제공한다. 다음의 사용예시를 보면 직관적으로 이해할 수 있다. from transformers import Trainer #initialize Trainer trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset eval_dataset=eval_dataset compute_metrics, tokenizer=tokenizer ) #train trainer.train() #save trainer.save_model() #eval metrics = trainer.evaluate(eval_dataset=eval_dataset) Initializ..
[NLP] Hugging Face 허깅페이스 오류 / 깃 설정 오류 / OSError: Tried to clone a repository in a non-empty folder that isn't a git repository. If you really want to do this, do it manually:git init && git remote add origin && git pull origin ma..
·
공부정리/NLP
모델을 저장하려는데 오류가 생겼다! OSError: Tried to clone a repository in a non-empty folder that isn't a git repository. If you really want to do this, do it manually: git init && git remote add origin && git pull origin main or clone repo to a new folder and move your existing files there afterwards. 바로 깃에 연결되지 않아서 그렇다.. ㅎ !pip install hf-lfs !git config --global user.email "" !git config --global user.name..
[NLP] Hugging Face 오류 / 토큰 권한 변경 / HfHubHTTPError: <class 'requests.exceptions.HTTPError'> (Request ID: Root=1-63d9c8e7-7270e6f27fc51f431f1a5df3)You don't have the rights to create a model under this namespace - You don't have the rights..
·
공부정리/NLP
학습을 끝마치고 다음과 같은 오류가 생겼다. HfHubHTTPError: (Request ID: Root=1-63d9c8e7-7270e6f27fc51f431f1a5df3) You don't have the rights to create a model under this namespace - You don't have the rights to create a model under this namespace 이러한 오류는 토큰에서 read 로만 권한을 설정했기 때문이다! 따라서 write으로 설정된 토큰으로 변경해주자!
[NLP] 허깅페이스(Huggingface)에 로그인하여 내 모델 포팅(porting)하기 / 토큰 발급, 허깅페이스 로그인, 모델 포팅
·
공부정리/NLP
Hugging Face – The AI community building the future. The AI community building the future. Build, train and deploy state of the art models powered by the reference open source in machine learning. huggingface.co 허깅페이스(Huggingface)는 사람들이 모델을 만들고 학습시켜 올려둘 수 있는 저장소이다. 기본적으로는 git을 기반으로 돌아간다. 허깅페이스의 transformers 모듈을 사용하면 자신에게 필요한 여러 모델들을 손쉽게 가져다 쓸 수 있다. 여기에 자기가 만들어 학습을 시킨 혹은 기존의 pre-trained된 모델을 가져다가..
[NLP] KorQuAD 1.0 데이터셋 기계독해 MRC 구현 / BERT fine-turning
·
공부정리/NLP
- 기존 COLAB 환경에서 TPU로 학습된 코드를 GPU 환경에서 실행되도록 하였습니다. - 마지막에 직접 커스텀 데이터셋 (본문과 질문)을 넣으면 해당 모델을 통해 기계독해를 하도록 구현한 것을 추가하였습니다. - 평가함수에 대한 구현은 아직 미흡합니다. 코드 구현 HTML 삽입 미리보기할 수 없는 소스 REFERENCE 원본 코드 https://github.com/ukairia777/tensorflow-nlp-tutorial/blob/main/18.%20Fine-tuning%20BERT%20(Cls%2C%20NER%2C%20NLI)/18-7.%20kor_bert_question_answering_tpu.ipynb GitHub - ukairia777/tensorflow-nlp-tutorial: ten..
[NLP] Py-Hanspell로 띄워쓰기와 맞춤법 교정하기 -with 네이버 한글 맞춤법 검사기
·
공부정리/NLP
Py-Hanspell pip install git+https://github.com/ssut/py-hanspell.git Py-Hanspell은 네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지입니다. from hanspell import spell_checker sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 " spelled_sent = spell_checker.check(sent) hanspell_sent = spelled_sent.checked print(hanspell_sent) 맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지 이 패키지는 띄어쓰기 또한 보정합니다. PyKoSpacing에 사용한 예제를 그대로 사용해봅시다. spelled_sent = spell_checker.c..
[NLP] PyKoSpacing로 띄어쓰기 교정하기
·
공부정리/NLP
PyKoSpacing pip install git+https://github.com/haven-jeon/PyKoSpacing.git 전희원님이 개발한 PyKoSpacing은 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지입니다. PyKoSpacing은 대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥 러닝 모델로 준수한 성능을 가지고 있습니다. sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.' 임의의 문장을 임의로 띄어쓰기가 없는 문장으로 만들었습니다. new_sent = sent.replace(" ", '') # 띄어쓰..
mecab 설치 (with ubuntu, konlpy)
·
공부정리/NLP
1. Konlpy 설치 pip install konlpy pip install JPype1 아래의 코드로 테스트한다. from konlpy.tag import Komoran komoran = Komoran() text = "아버지가 방에 들어가신다." komoran.nouns(text) komoran.morphs(text) 2. Mecab 설치 wget https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz tar xvfz mecab-0.996-ko-0.9.2.tar.gz cd mecab-0.996-ko-0.9.2 ./configure make make check make install sudo ldconfig mecab ..
[NLP Project] 3. 데이터 학습을 위한 준비 (학습 데이터와 테스트데이터)
·
공부정리/NLP
tokenization.py from tensorflow.keras.preprocessing.text import Tokenizer # 정제 및 빈도수가 높은 상위 단어들만 추출하기 위해 토큰화 작업 def Token(sentences,ner_tags): max_words = 4000 src_tokenizer = Tokenizer(num_words=max_words,oov_token='-') src_tokenizer.fit_on_texts(sentences) tar_tokenizer = Tokenizer() tar_tokenizer.fit_on_texts(ner_tags) vocab_size = max_words tag_size = len(tar_tokenizer.word_index) + 1 return..