공부정리/NLP

[NLP] KorQuAD 1.0 데이터셋 기계독해 MRC 구현 / BERT fine-turning

sillon 2023. 1. 27. 16:50
728x90
반응형

 

- 기존 COLAB 환경에서 TPU로 학습된 코드를 GPU 환경에서 실행되도록 하였습니다.

 

- 마지막에 직접 커스텀 데이터셋 (본문과 질문)을 넣으면 해당 모델을 통해 기계독해를 하도록 구현한 것을 추가하였습니다.

 

- 평가함수에 대한 구현은 아직 미흡합니다.

 

코드 구현

korquad

 

REFERENCE

원본 코드 

https://github.com/ukairia777/tensorflow-nlp-tutorial/blob/main/18.%20Fine-tuning%20BERT%20(Cls%2C%20NER%2C%20NLI)/18-7.%20kor_bert_question_answering_tpu.ipynb 

 

GitHub - ukairia777/tensorflow-nlp-tutorial: tensorflow를 사용하여 텍스트 전처리부터, Topic Models, BERT, GPT와

tensorflow를 사용하여 텍스트 전처리부터, Topic Models, BERT, GPT와 같은 최신 모델의 다운스트림 태스크들을 정리한 Deep Learning NLP 저장소입니다. - GitHub - ukairia777/tensorflow-nlp-tutorial: tensorflow를 사용하

github.com

 

데이터셋

https://korquad.github.io/KorQuad%201.0/

 

1.0 (한국어)

What is KorQuAD 1.0? KorQuAD 1.0은 한국어 Machine Reading Comprehension을 위해 만든 데이터셋입니다. 모든 질의에 대한 답변은 해당 Wikipedia article 문단의 일부 하위 영역으로 이루어집니다. Stanford Question Answer

korquad.github.io

 

728x90
반응형