'공부정리/NLP' 카테고리의 글 목록 (2 Page)

https://github.com/songys/entity GitHub - songys/entity: 날짜, 장소, 사람, 기관, 시간 날짜, 장소, 사람, 기관, 시간. Contribute to songys/entity development by creating an account on GitHub. github.com 개체명 태그

Pororo 언어 모델 기반 문장 토큰 분류 Pororo(Platform Of neuRal mOdels for natuRal language prOcessing) Pororo는 카카오 브레인에서 제공하는 자연어 처리 플랫폼 입니다. Pororo는 Platform Of neuRal mOdels for natuRal language prOcessing의 약자이며 HuggingFace와 유사한 목적이라고 생각할 수 있습니다. 한국어, 영어, 중국어, 일본어 등 여러가지 언어로 30가지 이상의 자연어 처리모델이 구현되어 있습니다. 자연어 처리를 모르더라도 간단한 코드로 개체명 인식, 기계 독해, 기계 번역, 요약, 감정 분류 등의 태스크를 수행 할 수 있습니다. https://github.com/kakaobra..

지난번에는 직접 입력을 하여서 해당 질문과 유사한 질문을 추출하고, 그 질문의 문맥과 해당 문맥에 있는 질문들도 추출하였습니다. 이번에는 질문을 입력하는 것이 아닌, 학습되지 않은 문장을 입력하여 그 문장에서 명사를 추출하고 추출한 명사를 input으로 넣어 텍스트 유사도를 통해 질문들을 추출해보겠습니다. 지난 코드 리뷰 QA 함수에서 입력한 질문을 실행했었음 명사 추출 코드 - 문맥에서 두글자 이상인 명사를 추출합니다. - 명사의 출현 빈도를 추출합니다. from konlpy.tag import Okt from collections import Counter def noun_preprocess(data): # Okt 객체 선언 okt = Okt() noun = okt.nouns(data) for i,v..

지난 포스팅에서 더 나아가 질문을 하면, 그 질문에 비슷한 질문 문장들을 추출하고 해당 질문의 문맥과 다른 질문들도 출력하는 코드를 구현하였습니다! def find_sentens(query, top_k ): query_embedding = model.encode(query, convert_to_tensor=True) cos_scores = util.pytorch_cos_sim(query_embedding, question_embeddings)[0] cos_scores = cos_scores.cpu() #We use np.argpartition, to only partially sort the top_k results top_results = np.argpartition(-cos_scores, range(..

Sharing models and tokenizers - Hugging Face Course Using pretrained models The Model Hub makes selecting the appropriate model simple, so that using it in any downstream library can be done in a few lines of code. Let’s take a look at how to actually use one of these models, and how to contribute back to huggingface.co 위의 링크의 내용 1. 파이프라인 패키지를 통해 불러오기 - 가장 단순하지만 Task에 맞는 모델을 불러와야함. 2. 모델 아키텍쳐 패키..

오늘은 korQuad Dataset 을 이용하여 제가 직접 입력안 텍스트와 해당 korQuad에 있는 질문의 유사도를 구해보겠습니다! 먼저 미리 전처리한 파일은 여기서 받을 수 있습니다. https://github.com/Kangsuyeon01/KorQuAD-study GitHub - Kangsuyeon01/KorQuAD-study: KorQuAD 1.0.0 데이터셋을 이용하여 공부한 내용을 저장하는 공간입니다 KorQuAD 1.0.0 데이터셋을 이용하여 공부한 내용을 저장하는 공간입니다. Contribute to Kangsuyeon01/KorQuAD-study development by creating an account on GitHub. github.com - Sentence transformer란..

분류 분석 (감성분석/ 의도분류) 이름 설명 링크 네이버 영화 리뷰 네이버 영화 리뷰 데이터에 대한 긍/부정 라벨 데이터 - 학습 15만건 / 테스트 5만건 github Toxic Comment Data 네이버 영화 리뷰 데이터의 라벨을 상세화한 데이터 - toxic / obscene / threat / insult / identity_hate 분류 github 3i4k 의도분류 학습용 데이터셋 - 문장에 대해 7가지 클래스 라벨 부여 - 논문: https://arxiv.org/pdf/1811.04231.pdf github korean-hage-speech 한국어 혐오발언 분류 데이터셋 - 연예 뉴스 댓글에 대한 혐오 / 사회적 편견 유무 라벨 데이터 - 사회적 편견은 성별/ 기타/ 없음 세 가지로 분류..

보호되어 있는 글입니다.

안녕하세요 sillon 입니다. 블로그 하면서 처음으로 인사를 드리는 거 같네요 제가 오늘은 KorQuAD 1.0 데이터셋을 그냥 다른 곳에 활용하기 편한 형태로 CSV파일로 변환해 왔습니다.. KorQuAD_train.json 파일과 KorQuAD_dev.json 파일 각각에 있는 context 와 answer, question 을 추출하여 csv파일로 변환했습니다. 아직 미숙한 부분이 많고, 그냥 뚝딱! json 파일을 csv 파일로 변경할 수 있는 분들도 계시겠지만, 나름 필요한 사람들에게 도움이 될 수 있을 수도 있으니 자료 올립니다. KorQuAD_train_context.csv KorQuAD_train_QA.csv 해당 질문에 대한 원래 문장이 있던 것은 제일 오른쪽에 있는 context_in..

https://github.com/lovit/textrank/ GitHub - lovit/textrank: Implementation TextRank and related utils Implementation TextRank and related utils. Contribute to lovit/textrank development by creating an account on GitHub. github.com https://lovit.github.io/nlp/2019/04/30/textrank/ TextRank 를 이용한 키워드 추출과 핵심 문장 추출 (구현과 실험) 문서 집합을 요약하는 방법으로 키워드와 핵심 문장을 선택하는 extractive methods 를 이용할 수 있습니다. 이를 위해 가장 널..

보호되어 있는 글입니다.

티스토리툴바