[NLP] Py-Hanspell로 띄워쓰기와 맞춤법 교정하기 -with 네이버 한글 맞춤법 검사기
·
공부정리/NLP
Py-Hanspell pip install git+https://github.com/ssut/py-hanspell.git Py-Hanspell은 네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지입니다. from hanspell import spell_checker sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 " spelled_sent = spell_checker.check(sent) hanspell_sent = spelled_sent.checked print(hanspell_sent) 맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지 이 패키지는 띄어쓰기 또한 보정합니다. PyKoSpacing에 사용한 예제를 그대로 사용해봅시다. spelled_sent = spell_checker.c..
[NLP] PyKoSpacing로 띄어쓰기 교정하기
·
공부정리/NLP
PyKoSpacing pip install git+https://github.com/haven-jeon/PyKoSpacing.git 전희원님이 개발한 PyKoSpacing은 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지입니다. PyKoSpacing은 대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥 러닝 모델로 준수한 성능을 가지고 있습니다. sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.' 임의의 문장을 임의로 띄어쓰기가 없는 문장으로 만들었습니다. new_sent = sent.replace(" ", '') # 띄어쓰..
[NLP Project] 문장에서 불용어 제거하기
·
Project/캡스톤디자인2
Predict 함수에서 불용어를 제거하는 함수를 작성하도록 하겠습니다. def remove_stopwords(sentence): with open('stop_words.txt',"r") as f: stop_words = [line.rstrip('\n') for line in f] print(stop_words) result = [] sentence = sentence.split(' ') for i in sentence: if i not in stop_words: result.append(i) return " ".join(result) 자주 사용하는 불용어 목록은 첨부한 텍스트 파일과 같습니다. 제가 작성한 stop_words 불용어 사전은 제가 프로젝트를 진행함에 있어 조금 커스텀 해주었습니다. (년 월..
[Python] import aspose.words 텍스트 파일을 PDF 파일로 변환하기
·
python/라이브러리
import aspose.words as aw doc = aw.Document("Input.txt") doc.save("Output.pdf") :https://products.aspose.com/words/ko/python-net/conversion/text-to-pdf/ Python에서 텍스트 을(를) PDF 로 변환 Python TEXT 을 PDF 형식으로 변환합니다. Python 사용하여 TEXT 을 PDF로 저장합니다. products.aspose.com
Programmers / 할인행사 / Python 파이썬
·
coding test - python/Programmers
*문제 출처는 프로그래머스에 있습니다. 문제 제목: 할인행사 (2단계) 문제 사이트: https://school.programmers.co.kr/learn/courses/30/lessons/131127?language=python3 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 문제 설명 XYZ 마트는 일정한 금액을 지불하면 10일 동안 회원 자격을 부여합니다. XYZ 마트에서는 회원을 대상으로 매일 한 가지 제품을 할인하는 행사를 합니다. 할인하는 제품은 하루에 하나씩만 구매할 수 있습니다. 알뜰한 정현이는 자신이 원하는 제품과 수량이 할인하는 날짜와 ..
[NLP Project] tensorflow 파인튜닝한 모델 저장하고 모델 불러오기
·
Project/캡스톤디자인2
텐서플로우에서 파인튜닝한 버트 모델을 저장하고 불러오겠습니다. model.fit( X_train, y_train, epochs=1, batch_size=128, callbacks = [f1_score_report] ) model.save_weights('save_model/model_weight') 학습한 모델은 save_weights 로 저장합니다. predict.py def model_load(): model = modeling(model_name='bert-base-multilingual-cased', tag_size=30) model.load_weights('save_model/model_weight') print("model_load성공!!") return model 모델의 아키텍처를 모두 불러..
[NLP Project] Bert model 성능 기록
·
Project/캡스톤디자인2
11월 12일 bert-base-multilingual-cased epochs = 20, batch_size = 128 RMSprop lr" 5e-5 f1 score : 82.17 더보기 Epoch 1/20 461/461 [==============================] - 356s 743ms/step - loss: 0.4317 - f1: 75.18 precision recall f1-score support AT_B 0.85 0.90 0.87 1743 AT_I 0.76 0.87 0.81 500 ER_B 0.70 0.77 0.73 2853 ER_I 0.48 0.29 0.36 337 FW_B 0.46 0.23 0.31 284 FW_I 0.20 0.16 0.18 80 IM_B 0.80 0.79 0...
mecab 설치 (with ubuntu, konlpy)
·
공부정리/NLP
1. Konlpy 설치 pip install konlpy pip install JPype1 아래의 코드로 테스트한다. from konlpy.tag import Komoran komoran = Komoran() text = "아버지가 방에 들어가신다." komoran.nouns(text) komoran.morphs(text) 2. Mecab 설치 wget https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz tar xvfz mecab-0.996-ko-0.9.2.tar.gz cd mecab-0.996-ko-0.9.2 ./configure make make check make install sudo ldconfig mecab ..
[Tensorflow] model.save() 오류
·
python/라이브러리
model.save('파일이름.h5')로 했을 때 오류가 났었다. 해당 오류의 경우 model.save_weights('파일이름.h5') 이렇게 저장하여 오류가 해결됐다. save, load_model은 모델 전체를 저장하기 때문에, load 이후에 별도로 처리할 필요가 없다. save_weights, load_weights는 가중치만 저장하기 때문에, 모델 architecture를 동일하게 만들어줘야 된다. 이미 모델 architecture를 알고 있을때만 사용할 수 있다. 참고 https://ltlkodae.tistory.com/13
[Tensorflow] 텐서플로우 경고 무시
·
python/라이브러리
모듈 설치 pip install silence_tensorflow 사용 from silence_tensorflow import silence_tensorflow silence_tensorflow() from keras.models import load_model 그럼 이제 경고문 없이 깨끗한 터미널을 볼 수 있다..ㅎㅎ
[NLP Project] Bert 모델에 NER 학습시키기 (텐서플로우) - keras.saving() 해결일지
·
Project/캡스톤디자인2
기존의 인터넷 상에 있던 코드들은 모두 옛날 코드인지 잘 적용이 안됐었다. 긴 시간 구현해보고 파이토치로도 구현해보았는데 제대로 코드조차 실행이 안됐다. 사실은 다른 오픈소스를 다운받아 해결할 수 있었겠지만, 그렇게 하면 공부가 절대 되지 않을 것 같아 직접 발로 뛰며 구현했다. (사실 앉아만 있었음) 버트 인풋 만들기에서 조금 더 추가한 부분이 있다. 'token_type_ids' [CLS] 부분과 [SEP] 부분까지의 문장을 구분한다. 사실 내가 전처리한 데이터 셋에는 데이터셋 처음 부분은 [CLS], 마지막 부분은 [SEP]라서 문장 자체에서 이렇게 구분하진 않아도 된다. 그래도 일단... 인풋에 필요하다고 하니 넣어주기로 한다. # 'token_type_ids' ( [CLS]와 [SEP]를 구분해..
[NLP Project] KoBert Fine-Turning
·
카테고리 없음
보호되어 있는 글입니다.