[NLP] Sentence transformer를 이용하여 텍스트 유사도 구하기 with korQuad Dataset
·
공부정리/NLP
오늘은 korQuad Dataset 을 이용하여 제가 직접 입력안 텍스트와 해당 korQuad에 있는 질문의 유사도를 구해보겠습니다! 먼저 미리 전처리한 파일은 여기서 받을 수 있습니다. https://github.com/Kangsuyeon01/KorQuAD-study GitHub - Kangsuyeon01/KorQuAD-study: KorQuAD 1.0.0 데이터셋을 이용하여 공부한 내용을 저장하는 공간입니다 KorQuAD 1.0.0 데이터셋을 이용하여 공부한 내용을 저장하는 공간입니다. Contribute to Kangsuyeon01/KorQuAD-study development by creating an account on GitHub. github.com - Sentence transformer란..
[NLP] 자연어 처리를 위한 데이터 셋 모음
·
공부정리/NLP
분류 분석 (감성분석/ 의도분류) 이름 설명 링크 네이버 영화 리뷰 네이버 영화 리뷰 데이터에 대한 긍/부정 라벨 데이터 - 학습 15만건 / 테스트 5만건 github Toxic Comment Data 네이버 영화 리뷰 데이터의 라벨을 상세화한 데이터 - toxic / obscene / threat / insult / identity_hate 분류 github 3i4k 의도분류 학습용 데이터셋 - 문장에 대해 7가지 클래스 라벨 부여 - 논문: https://arxiv.org/pdf/1811.04231.pdf github korean-hage-speech 한국어 혐오발언 분류 데이터셋 - 연예 뉴스 댓글에 대한 혐오 / 사회적 편견 유무 라벨 데이터 - 사회적 편견은 성별/ 기타/ 없음 세 가지로 분류..
[NLP] KorQuAD dataset 기반 챗봇 만들기
·
공부정리/NLP
보호되어 있는 글입니다.
문제 / 동전교환 / Python 파이썬
·
coding test - python/기본기 문제
문제 제목: 동전 교환 (DFS - cut edge) 다음과 같이 여러 단위의 동전들이 주어져 있을때 거스름돈을 가장 적은 수의 동전으로 교환 해주려면 어떻게 주면 되는가? 각 단위의 동전은 무한정 쓸 수 있다. ▣ 입력설명 첫 번째 줄에는 동전의 종류개수 N(1
문제 / 중복순열 구하기 ( itertools product ) / Python 파이썬
·
coding test - python/기본기 문제
문제 제목: 중복 순열 구하기 1부터 N까지 번호가 적힌 구슬이 있습니다. 이 중 중복을 허락하여 M번을 뽑아 일렬로 나열 하는 방법을 모두 출력합니다. ▣ 입력설명 첫 번째 줄에 자연수 N(3
[NLP] KorQuAD 데이터를 활용해보자 ( KorQuAD 1.0 csv file)
·
공부정리/NLP
안녕하세요 sillon 입니다. 블로그 하면서 처음으로 인사를 드리는 거 같네요 제가 오늘은 KorQuAD 1.0 데이터셋을 그냥 다른 곳에 활용하기 편한 형태로 CSV파일로 변환해 왔습니다.. KorQuAD_train.json 파일과 KorQuAD_dev.json 파일 각각에 있는 context 와 answer, question 을 추출하여 csv파일로 변환했습니다. 아직 미숙한 부분이 많고, 그냥 뚝딱! json 파일을 csv 파일로 변경할 수 있는 분들도 계시겠지만, 나름 필요한 사람들에게 도움이 될 수 있을 수도 있으니 자료 올립니다. KorQuAD_train_context.csv KorQuAD_train_QA.csv 해당 질문에 대한 원래 문장이 있던 것은 제일 오른쪽에 있는 context_in..
[NLP] 한국어 요약은 textrank
·
공부정리/NLP
https://github.com/lovit/textrank/ GitHub - lovit/textrank: Implementation TextRank and related utils Implementation TextRank and related utils. Contribute to lovit/textrank development by creating an account on GitHub. github.com https://lovit.github.io/nlp/2019/04/30/textrank/ TextRank 를 이용한 키워드 추출과 핵심 문장 추출 (구현과 실험) 문서 집합을 요약하는 방법으로 키워드와 핵심 문장을 선택하는 extractive methods 를 이용할 수 있습니다. 이를 위해 가장 널..
[NLP] 인공지능이 질문과 답을 직접 추출한다
·
공부정리/NLP
보호되어 있는 글입니다.
[Python] JSON 파일을 CSV 파일로 변환
·
카테고리 없음
json 파일 예시 [ {"title": "Oh Boy", "songId": "30179107", "artist": "AOA", "img": "aaa.jpg"}, {"title": "With ELVIS", "songId": "30179108", "artist": "AOA", "img": "bbb.jpg"}, {"title": "Good Luck", "songId": "8181755", "artist": "AOA", "img": "ccc.jpg"}, ... ] 코드 import json import csv # music.json 파일을 읽어서 melon.csv 파일에 저장 with open('music.json', 'r', encoding = 'utf-8') as input_file, open('melon..
[알고리즘] 미로 찾기 - BFS, DFS
·
python/자료구조 & 알고리즘
미로찾기를 해봅시당 https://www.youtube.com/watch?v=nyjFmDUDgO4 코딩 빌런님의 영상을 보고 정리한 글입니다. 미로를 찾기위해선 두가지를 수행해야합니다. - 미로가 처음과 끝이 이어진 길인지(목적지 까지 갈 수 있는가) - 미로를 어떻게 최단경로로 갈 것인가 자 그럼 먼저 첫번째 부터 봅시다 1. 미로가 목적지 까지 갈 수 있는가 먼저 [0,0] 을 올라 타고 array에 [0,0] 을 넣어준다. 그 뒤 해당 좌표에는 -1 값으로 변경하고 array에서 없애줌 (갔던 길 임을 표시하는 것) 그리고 좌표를 돌면서 갈 수 있는 길인지 확인한다. 이 알고리즘대로 하면 목적지에 갈 수 있는지 알고리즘을 수행하게 됨 코드로 나타낸 것을 확인해보자 pop은 값을 반환하고 그 값을 빼..
[Python] Geopandas 지도 시각화하기
·
python/라이브러리
# conda install geopandas -> anacona installer, 아나콘다에서 설치하는 명령어 conda에서 설치하는 방법은 https://sillon-coding.tistory.com/325 [Python] Geopandas 라이브러리 설치하기 Geopandas는 위도 경도 파일을 처리하기 쉽게 만들어준 라이브러리입니다. 다른 라이브러리 설치를 할 때 처럼 !pip가 아닌 아나콘다 프롬프트를 이용해서 설치해야합니다. conda install geopandas 엥 근 sillon-coding.tistory.com import geopandas as gpd EMD = gpd.read_file('./EMD_20220324/EMD.shp',encoding = 'ANSI') EMD.head(..
[Python] Geopandas 라이브러리 설치하기
·
python/라이브러리
Geopandas는 위도 경도 파일을 처리하기 쉽게 만들어준 라이브러리입니다. 다른 라이브러리 설치를 할 때 처럼 !pip가 아닌 아나콘다 프롬프트를 이용해서 설치해야합니다. conda install geopandas 엥 근데 오류가 생겼다 최신 버전이 아니라서 발생한 것임 프롬프트를 꺼주고 다시 실행하여 업데이트 해준다 conda update --all 뭐 모듈이 전체적으로 업데이트? 되고나면 이 창으로 넘어간다. 바로 넘어가는 건 아니니 조금 기다리시길..^^ 다시 지오판다스를 깔아준다 그럼 잘 깔린다 ㅎㅎ