[NLP] 자연어 처리를 위한 데이터 셋 모음

2022. 10. 14. 16:37·공부정리/NLP
728x90
반응형

분류 분석 (감성분석/ 의도분류)

이름 설명 링크
네이버 영화 리뷰 네이버 영화 리뷰 데이터에 대한 긍/부정 라벨 데이터
- 학습 15만건 / 테스트 5만건
github
Toxic Comment Data 네이버 영화 리뷰 데이터의 라벨을 상세화한 데이터
- toxic / obscene / threat / insult / identity_hate 분류
github
3i4k 의도분류 학습용 데이터셋
- 문장에 대해 7가지 클래스 라벨 부여
- 논문: https://arxiv.org/pdf/1811.04231.pdf
github
korean-hage-speech 한국어 혐오발언 분류 데이터셋
- 연예 뉴스 댓글에 대한 혐오 / 사회적 편견 유무 라벨 데이터
- 사회적 편견은 성별/ 기타/ 없음 세 가지로 분류
- 9,381건(7,896 / 471 / 974)
github

 

유사도 판별

이름 설명 링크
KorNLI 두 문장의 관계를 entailment/neutral/contradiction 으로 분류
- 학습/ 검증/ 테스트 데이터로 분리되어 있음.
github
KoSTS 두 문장의 유사도 점수를 라벨링한 데이터
- 학습/ 검증/ 테스트 데이터로 분리되어 있음.
github
Question pair 두 개의 질문이 같은 질문인지 아닌지 레이블링한 데이터
- 학습 6,888건 / 테스트 688건 제공
github
ParaKQC 10개의 비슷한 문장에 대한 1,000개의 집합으로 구성
- 문장 유사도 데이터 494,500건 생성 가능
- 패러프래이징 데이터 45,000건 생성 가능
github

 


자연어 질의응답 (기계독해 / MRC)

이름 설명 링크
KorQuAD 1.0 한국어 기계독해를 위한 표준 데이터셋
- 리더보드 운영중
webpage
KorQuAD 2.0 구조를 가진 HTML 문서에 대한 기계 독해 데이터셋
- 리더보드 운영중
webpage
AI HUB 기계독해 한국어 기계독해를 위한 데이터셋
- SQuAD1.0 / 2.0(no-answer) 타입의 데이터 제공
- 질문 답변과 답변을 선택한 단서 제공
webpage

 

자연어 질의응답 (일반 상식)

이름 설명 링크
AI HUB 일반상식 QA 일반 상식에 대한 {entity, attribute, value} 트리플
질문 -> 답변 -> 제시문에 대한 말뭉치 제공
webpage

 


대화 모델

이름 설명 링크
Chatbot_data 일상 챗봇 학습용 문답 페어 11,876건
일상(0) / 이별,부정(1) / 사랑,긍정(2) 라벨 부여 
github
AI HUB 한국어대화 소상공인, 공공민원 관련 10개 분야에 대한 1만건 이상의 데화 데이터셋
- 대화 데이터와 함께 의도(Intent) 라벨링 포함
webpage
클로바 AI Call 데이터 자동 음성 인식을 위한 Goal-oriented 대화 음성 코퍼스 데이터셋
- 비영리/ 학계 소속 기관은 신청을 통해 다운로드 가능
github
웰니스 대화 스크립트 세브란스 상담 데이터를 기반으로 구축한 정신 상담 데이터셋
- 359개 대화의도에 대한 5,232개 사용자 발화
- 1,023개 챗봇 발화 포함
webpage
KETI 한국어 대화 데이터 멀티턴 대화 데이터 758개 
- 각 대화는 3~12개의 턴으로 구성
- 문장 단위로는 4,975건의 발화문 존재
webpage
트위터기반 일상 대화 트위터상에 둘 이상의 화자가 대화한 내용 모음
- 1~17 턴의 데이터로 구성되어 있음
- 1차년도 데이터로 2,000 셋트가 공개됨
webpage
대화형 한글 에이전트  영화/드라마/SNS등에 대한 멀티턴 대화 데이터
- 8,000개의 대화 셋트 포함
- 각 대화는 2~10 턴의 대화 포함
webpage
한국어 감정 정보가 포함된
연속적 대화 데이터셋
크롤링으로 수집한 멀티턴 대화 데이터셋
- 각 발화문은 7가지 감정정보로 레이블링되어 있음
- 10,000개의 대화 셋트/ 각 대화는 약 5.6개 턴으로 구성
- 문장 단위로는 55,627건의 발화문 존재
webpage

 


기타 (기계번역 / NER / 요약 / ...)

 > 기계 번역

이름 설명 링크
기계 번역
AI HUB 한영 말뭉치
한국어-영어 160만 문장의 번역 말뭉치
- 문어체, 구어체, 대화체 등 다양한 소스 포함
webpage
기계 번역
korean parallel corpora
한국어 -영어 번역
한국어 - 프랑스어 번역 데이터 포함
github
기계 번역
카이스트 중-한 데이터
중-한 문장 세트로 구성된 데이터셋
60,000개 문장 포함
webpage

 > NER

이름 설명 링크
KoreanNERCorpus 한국어 개체명인식 태스크 수행을 위한 데이터  github
NER 말뭉치 - 형태소 - 개체명 태깅 데이터셋 github

 > 텍스트 요약

이름 설명 링크
sci-news-sum-kr-50 네이버 뉴스 중 IT/과학 분야 기사 50개
원문 중 요약에 해당하는 문장을 태깅한 데이터셋
github

 


RAW Corpus

이름 설명 링크
국립국어원 말뭉치 다양한 분야에 대한 방대한 한국어 raw 코퍼스 webpage
카이스트 코퍼스 1994~1997년 수집한 70,000,000 어절의 코퍼스 webpage
위키피디아 덤프 한국어 위키피디아
(추출기- 링크)
webpage
나무위키 덤프 나무위키 
(추출기 - 링크)
webpage
한국 정치인 관련 뉴스 한국 정치인 19인에 대한 뉴스 수집 데이터셋 github
인공지능 윤리연구를 위한
비정형 텍스트 데이터셋
윤리 연구를 위해 윤리/비윤리 데이터 코퍼스 구축
1차년도: 뉴스기사 댓글 7,000만 건, 트위터 3,000만 건
2차년도: 온라인커뮤니티 (일베저장소) 댓글4,500만건
3차년도: 온라인커뮤니티 (일베저장소) 댓글2,000만건
webpage

 

출처: https://littlefoxdiary.tistory.com/42

728x90
반응형

'공부정리 > NLP' 카테고리의 다른 글

[NLP] Fine Turning - Hugging face  (0) 2022.10.18
[NLP] Sentence transformer를 이용하여 텍스트 유사도 구하기 with korQuad Dataset  (1) 2022.10.14
[NLP] KorQuAD dataset 기반 챗봇 만들기  (0) 2022.10.13
[NLP] KorQuAD 데이터를 활용해보자 ( KorQuAD 1.0 csv file)  (0) 2022.10.12
[NLP] 한국어 요약은 textrank  (0) 2022.10.11
'공부정리/NLP' 카테고리의 다른 글
  • [NLP] Fine Turning - Hugging face
  • [NLP] Sentence transformer를 이용하여 텍스트 유사도 구하기 with korQuad Dataset
  • [NLP] KorQuAD dataset 기반 챗봇 만들기
  • [NLP] KorQuAD 데이터를 활용해보자 ( KorQuAD 1.0 csv file)
sillon
sillon
꾸준해지려고 합니다..
    반응형
  • sillon
    sillon coding
    sillon
  • 전체
    오늘
    어제
    • menu (614)
      • notice (2)
      • python (68)
        • 자료구조 & 알고리즘 (23)
        • 라이브러리 (19)
        • 기초 (8)
        • 자동화 (14)
        • 보안 (1)
      • coding test - python (301)
        • Programmers (166)
        • 백준 (76)
        • Code Tree (22)
        • 기본기 문제 (37)
      • coding test - C++ (5)
        • Programmers (4)
        • 백준 (1)
        • 기본기문제 (0)
      • 공부정리 (5)
        • 신호처리 시스템 (0)
        • Deep learnig & Machine lear.. (41)
        • Data Science (18)
        • Computer Vision (17)
        • NLP (40)
        • Dacon (2)
        • 모두를 위한 딥러닝 (강의 정리) (4)
        • 모두의 딥러닝 (교재 정리) (9)
        • 통계 (2)
      • HCI (23)
        • Haptics (7)
        • Graphics (11)
        • Arduino (4)
      • Project (21)
        • Web Project (1)
        • App Project (1)
        • Paper Project (1)
        • 캡스톤디자인2 (17)
        • etc (1)
      • OS (10)
        • Ubuntu (9)
        • Rasberry pi (1)
      • App & Web (9)
        • Android (7)
        • javascript (2)
      • C++ (5)
        • 기초 (5)
      • Cloud & SERVER (8)
        • Git (2)
        • Docker (1)
        • DB (4)
      • Paper (7)
        • NLP Paper review (6)
      • 데이터 분석 (0)
        • GIS (0)
      • daily (2)
        • 대학원 준비 (0)
      • 영어공부 (6)
        • job interview (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    백준
    Python
    소수
    programmers
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
sillon
[NLP] 자연어 처리를 위한 데이터 셋 모음
상단으로

티스토리툴바