728x90
PyKoSpacing
pip install git+https://github.com/haven-jeon/PyKoSpacing.git
전희원님이 개발한 PyKoSpacing은 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지입니다. PyKoSpacing은 대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥 러닝 모델로 준수한 성능을 가지고 있습니다.
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'
임의의 문장을 임의로 띄어쓰기가 없는 문장으로 만들었습니다.
new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)
김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.
이를 PyKoSpacing의 입력으로 사용하여 원 문장과 비교해봅시다.
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent)
print(sent)
print(kospacing_sent)
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
정확하게 결과가 일치합니다.
출처
728x90
'공부정리 > NLP' 카테고리의 다른 글
[NLP] KorQuAD 1.0 데이터셋 기계독해 MRC 구현 / BERT fine-turning (0) | 2023.01.27 |
---|---|
[NLP] Py-Hanspell로 띄워쓰기와 맞춤법 교정하기 -with 네이버 한글 맞춤법 검사기 (0) | 2022.11.17 |
mecab 설치 (with ubuntu, konlpy) (0) | 2022.11.11 |
[NLP Project] 3. 데이터 학습을 위한 준비 (학습 데이터와 테스트데이터) (0) | 2022.11.05 |
[NLP] Mecab 형태소 분석기 품사 태그 (0) | 2022.10.21 |