공부정리/NLP

[NLP] KorQuAD 데이터를 활용해보자 ( KorQuAD 1.0 csv file)

sillon 2022. 10. 12. 21:18
728x90
반응형

안녕하세요 sillon 입니다.

블로그 하면서 처음으로 인사를 드리는 거 같네요

 

제가 오늘은 KorQuAD 1.0 데이터셋을 그냥 다른 곳에 활용하기 편한 형태로 CSV파일로 변환해 왔습니다..

KorQuAD_train.json 파일과 KorQuAD_dev.json 파일 각각에 있는 context 와 answer, question 을 추출하여 csv파일로 변환했습니다.

 

아직 미숙한 부분이 많고, 그냥 뚝딱! json 파일을 csv 파일로 변경할 수 있는 분들도 계시겠지만,

나름 필요한 사람들에게 도움이 될 수 있을 수도 있으니 자료 올립니다.

 

KorQuAD_train_context.csv

 

KorQuAD_train_QA.csv

해당 질문에 대한 원래 문장이 있던 것은 제일 오른쪽에 있는 context_index에서 찾을 수 있습니다.

 

context_index: 해당 질문의 출처 context  (context 인덱스 번호)

text: 해당 질문에 대한 답

asnwer_start: 해당 문맥에서 답이 시작되는 지점

 

https://github.com/Kangsuyeon01/KorQuAD-study/tree/main/koquad_dataset

 

GitHub - Kangsuyeon01/KorQuAD-study: KorQuAD 1.0.0 데이터셋을 이용하여 공부한 내용을 저장하는 공간입니다

KorQuAD 1.0.0 데이터셋을 이용하여 공부한 내용을 저장하는 공간입니다. Contribute to Kangsuyeon01/KorQuAD-study development by creating an account on GitHub.

github.com

 

 

 

 

 

 

728x90
반응형