[NLP Project] 3. 데이터 학습을 위한 준비 (학습 데이터와 테스트데이터)
·
공부정리/NLP
tokenization.py from tensorflow.keras.preprocessing.text import Tokenizer # 정제 및 빈도수가 높은 상위 단어들만 추출하기 위해 토큰화 작업 def Token(sentences,ner_tags): max_words = 4000 src_tokenizer = Tokenizer(num_words=max_words,oov_token='-') src_tokenizer.fit_on_texts(sentences) tar_tokenizer = Tokenizer() tar_tokenizer.fit_on_texts(ner_tags) vocab_size = max_words tag_size = len(tar_tokenizer.word_index) + 1 return..