[NLP] KoNlPy Okt 형태소 분석기 사전에 추가하기

728x90

일단 내가 사용하고 있는 anaconda 가상환경의 경로를 알아야 한다.

anaconda prompt 창을 열어 가장 먼저 나오는 경로를 찾으면 된다.

해당 경로에서 anaconda 폴더를 찾고 envs로 들어간다.

envs에서 내가 사용중인 가상환경폴더로 들어간다. 그러면 다음과 같이 보일 것이다.

이제 여기서 konlpy폴더를 찾아야 하는데 그냥 검색창에 konlpy 입력해서 나오는 폴더를 찾으면 된다.

위 사진처럼 보인다면 성공이다.

이제 java폴더에서 open-korean-text-2.1.0압축파일을 해제한다.

압축해제한 폴더에서 org > openkoreantext > processor > util 을 찾는다.

일단 명사부터 수정하기 위해 noun을 들어가 후 원하는 파일을 연다.

나는 일단 이렇게 추가했다.

그리고 귀여움의 경우는 형태소가 어떻게 구성되는지 몰라서

util > typos > typos.txt에서

이렇게 추가했다. 이제 아까 압축해제했던 폴더를 다시 jar로 압축해야되는데

윈도우에서는 그냥 압축이안되고 cmd명령어로 해야된다.

근데이게 내 java 버전에서는 안되서 일단 그냥 zip파일로 압축한다.

이제 원래 있던 open-korean-text-2.1.0 파일을 버리고 zip파일을 jar로 변환하면 된다.

ZIP JAR 변환 (온라인 무료) — Convertio << 여기 사이트에서 zip파일을 업로드하면 변환해준다.

변환한 파일로 zip파일을 대체하고 다시 주피터노트북으로 돌아간다.

대충 테스트 해보니 잘 된 것 같다.

그럼 이제 이때까지 한 작업을 함수화하면 끝이다.

reference

네이버 영화 리뷰 키워드분석 (4) 전처리 시작

탐색 이제 데이터를 수집하는 것은 끝이 났다. 지금부터는 이 데이터를 가공하는 작업이다. 사실 이 데이터 전처리가 제일 중요하지만, 제일 귀찮고 번거롭다. 암튼 또 시작 ㅠㅠ 이번 단계에서

haystar.tistory.com

728x90

[NLP] DialoGPT 를 이용해서 데이터 커스텀을 통한 GPT 생성 - HuggingFace (0)	2023.05.15
[NLP] Hugging Face 허깅페이스에서 불러온 모델 미세조정 후 모델업로드하기 (SQuAD v1.1 Dataset) (0)	2023.02.07
[NLP] Hugging Face API, 허깅페이스 API / Trainer, Training Arguments 구현 (0)	2023.02.01
[NLP] Hugging Face 허깅페이스 오류 / 깃 설정 오류 / OSError: Tried to clone a repository in a non-empty folder that isn't a git repository. If you really want to do this, do it manually:git init && git remote add origin && git pull origin ma.. (0)	2023.02.01
[NLP] Hugging Face 오류 / 토큰 권한 변경 / HfHubHTTPError: <class 'requests.exceptions.HTTPError'> (Request ID: Root=1-63d9c8e7-7270e6f27fc51f431f1a5df3)You don't have the rights to create a model under this namespace - You don't have the rights.. (0)	2023.02.01

티스토리툴바