[NLP] KorQuAD 데이터를 활용해보자 ( KorQuAD 1.0 csv file)

2022. 10. 12. 21:18·공부정리/NLP
728x90
반응형

안녕하세요 sillon 입니다.

블로그 하면서 처음으로 인사를 드리는 거 같네요

 

제가 오늘은 KorQuAD 1.0 데이터셋을 그냥 다른 곳에 활용하기 편한 형태로 CSV파일로 변환해 왔습니다..

KorQuAD_train.json 파일과 KorQuAD_dev.json 파일 각각에 있는 context 와 answer, question 을 추출하여 csv파일로 변환했습니다.

 

아직 미숙한 부분이 많고, 그냥 뚝딱! json 파일을 csv 파일로 변경할 수 있는 분들도 계시겠지만,

나름 필요한 사람들에게 도움이 될 수 있을 수도 있으니 자료 올립니다.

 

KorQuAD_train_context.csv

 

KorQuAD_train_QA.csv

해당 질문에 대한 원래 문장이 있던 것은 제일 오른쪽에 있는 context_index에서 찾을 수 있습니다.

 

context_index: 해당 질문의 출처 context  (context 인덱스 번호)

text: 해당 질문에 대한 답

asnwer_start: 해당 문맥에서 답이 시작되는 지점

 

https://github.com/Kangsuyeon01/KorQuAD-study/tree/main/koquad_dataset

 

GitHub - Kangsuyeon01/KorQuAD-study: KorQuAD 1.0.0 데이터셋을 이용하여 공부한 내용을 저장하는 공간입니다

KorQuAD 1.0.0 데이터셋을 이용하여 공부한 내용을 저장하는 공간입니다. Contribute to Kangsuyeon01/KorQuAD-study development by creating an account on GitHub.

github.com

 

 

 

 

 

 

728x90
반응형

'공부정리 > NLP' 카테고리의 다른 글

[NLP] 자연어 처리를 위한 데이터 셋 모음  (0) 2022.10.14
[NLP] KorQuAD dataset 기반 챗봇 만들기  (0) 2022.10.13
[NLP] 한국어 요약은 textrank  (0) 2022.10.11
[NLP] 인공지능이 질문과 답을 직접 추출한다  (0) 2022.10.11
[NLP] Word2Vec 연습  (0) 2022.10.07
'공부정리/NLP' 카테고리의 다른 글
  • [NLP] 자연어 처리를 위한 데이터 셋 모음
  • [NLP] KorQuAD dataset 기반 챗봇 만들기
  • [NLP] 한국어 요약은 textrank
  • [NLP] 인공지능이 질문과 답을 직접 추출한다
sillon
sillon
꾸준해지려고 합니다..
    반응형
  • sillon
    sillon coding
    sillon
  • 전체
    오늘
    어제
    • menu (614)
      • notice (2)
      • python (68)
        • 자료구조 & 알고리즘 (23)
        • 라이브러리 (19)
        • 기초 (8)
        • 자동화 (14)
        • 보안 (1)
      • coding test - python (301)
        • Programmers (166)
        • 백준 (76)
        • Code Tree (22)
        • 기본기 문제 (37)
      • coding test - C++ (5)
        • Programmers (4)
        • 백준 (1)
        • 기본기문제 (0)
      • 공부정리 (5)
        • 신호처리 시스템 (0)
        • Deep learnig & Machine lear.. (41)
        • Data Science (18)
        • Computer Vision (17)
        • NLP (40)
        • Dacon (2)
        • 모두를 위한 딥러닝 (강의 정리) (4)
        • 모두의 딥러닝 (교재 정리) (9)
        • 통계 (2)
      • HCI (23)
        • Haptics (7)
        • Graphics (11)
        • Arduino (4)
      • Project (21)
        • Web Project (1)
        • App Project (1)
        • Paper Project (1)
        • 캡스톤디자인2 (17)
        • etc (1)
      • OS (10)
        • Ubuntu (9)
        • Rasberry pi (1)
      • App & Web (9)
        • Android (7)
        • javascript (2)
      • C++ (5)
        • 기초 (5)
      • Cloud & SERVER (8)
        • Git (2)
        • Docker (1)
        • DB (4)
      • Paper (7)
        • NLP Paper review (6)
      • 데이터 분석 (0)
        • GIS (0)
      • daily (2)
        • 대학원 준비 (0)
      • 영어공부 (6)
        • job interview (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    Python
    백준
    programmers
    소수
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
sillon
[NLP] KorQuAD 데이터를 활용해보자 ( KorQuAD 1.0 csv file)
상단으로

티스토리툴바