728x90
지난번에는 직접 입력을 하여서 해당 질문과 유사한 질문을 추출하고,
그 질문의 문맥과 해당 문맥에 있는 질문들도 추출하였습니다.
이번에는 질문을 입력하는 것이 아닌,
학습되지 않은 문장을 입력하여 그 문장에서 명사를 추출하고
추출한 명사를 input으로 넣어 텍스트 유사도를 통해 질문들을 추출해보겠습니다.
지난 코드 리뷰
QA 함수에서 입력한 질문을 실행했었음
명사 추출 코드
- 문맥에서 두글자 이상인 명사를 추출합니다.
- 명사의 출현 빈도를 추출합니다.
from konlpy.tag import Okt
from collections import Counter
def noun_preprocess(data):
# Okt 객체 선언
okt = Okt()
noun = okt.nouns(data)
for i,v in enumerate(noun):
if len(v)<2:
noun.pop(i)
count = Counter(noun)
# 명사 빈도 카운트
noun_list = count.most_common(100)
return noun_list
data_list = list(df_context['context'])
noun_list = noun_preprocess(data_list[0])
[('파리', 4),
('파우스트', 3),
('교향곡', 3),
('연주', 3),
('바그너', 2),
('이', 2),
('또한', 2),
('음악원', 2),
('베토벤', 2),
('서곡', 2),
('작품', 2),
('영향', 2),
('조성', 2),
('착수', 2),
('악장', 2),
('완성', 2),
('괴테', 1),
('처음', 1),
('내용', 1),
('마음', 1),
('소재', 1),
('하나', 1),
('시기', 1),
('독촉', 1),
('산전수전', 1),
('상황', 1),
('좌절', 1),
('실망', 1),
('메피스토펠레스', 1),
('심경', 1),
('공감', 1),
('아브네크', 1),
('지휘', 1),
('관현악단', 1),
('감명', 1),
('이듬해', 1),
('조금', 1),
('의심', 1),
('여지', 1),
('여기', 1),
('라단조', 1),
('경우', 1),
('전기', 1),
('정신', 1),
('피로', 1),
('실의', 1),
('반영', 1),
('합창교향곡', 1),
('볼', 1),
('작곡', 1),
('중단', 1),
('동시', 1),
('연주회', 1),
('파트', 1),
('준비', 1),
('실제', 1),
('초연', 1),
('지난', 1),
('드레스덴', 1),
('재연', 1),
('이후', 1),
('그대로', 1),
('방치', 1),
('사이', 1),
('리엔치', 1),
('방황', 1),
('네덜란드인', 1),
('탄호이저', 1),
('시간', 1),
('생활', 1),
('곡', 1),
('의견', 1)]
자 이렇게 명사를 추출합니다.
그러면 새로운 문장을 가져와보겠습니다.
temp_text = "1910년 8월 29일 한일병합조약[19]을 체결하기 위해 대한제국의 대표로 참석한 총리대신 이완용과 일본 제국 측의 대표로 온 데라우치 마사타케가 협상에 임했다. 이는 각국의 황제와 천황이 마주보며 날인하는 것은 물리적으로도 어려웠고 일본 제국 측에서 대리인을 보냈는데 대한제국은 황제가 직접 대면하는 것이 의전상으로도 맞지 않았다. 일본 제국은 이 과정에서 한일병합조약을 공표하여 대한제국이 다스리던 모든 영토를 식민지로 강제로 편입하고, 옛 대한제국 황실은 왕공족인 이왕가(李王家)로 격하시켜 일본 황실에 편입시켰다."
lst = noun_preprocess(temp_text)
여기서 상위에 있는 명사들을 갖고 테스트해보겠습니다.
def gen_query(lst):
qustions = []
for i in lst:
tmp = i[0] + "?"
qustions.append(tmp)
return qustions
for i in range(2):
print(find_sentens(gen_Q[i], 3))
for i in range(2):
print(find_sentens(gen_Q[i], 3))
======================
Query: 대한제국?
Top 5 most similar sentences in question_list:
*************************
대한민국의 최동단은? (Score: 0.9116)
해당 질문의 출처는 23437 번째 문맥입니다.
한편, 대한민국 헌법 제3조에는 "대한민국의 영토는 한반도와 그 부속도서로 한다."라고 명시되어 있다. 이는 대한민국을 한반도의 유일한 합법정부로 선언하는 성격을 가지고 있어, 조선민주주의인민공화국을 "영토고권을 침해하는 반국가단체"로 규정하는 근거가 된다. 때문에 대한민국은 휴전선 이북 영토를 관할하는 이북5도위원회를 안전행정부 관할로 두어 형식상의 도지사와 시장, 군수 등을 선출하고 있다.(함경북도, 함경남도, 평안북도, 평안남도, 황해도, 미수복 강원도, 미수복 경기도 및 예하 시·군 관할) 대한민국 헌법의 관점으로 볼 때, 현재 대한민국의 최동단은 동해 상의 독도, 서단은 압록강의 비단섬, 남단은 제주도의 남쪽 바다에 위치한 마라도, 북단은 함경북도 온성군 부근이 된다. 대한민국이 영유권을 주장하는 지역은 조선민주주의인민공화국이 실효지배중인 지역과 대한민국이 실효지배중인 지역과 거의 같으나 중화인민공화국이 실효 지배중인 백두산 천지 북부에 대하여 영유권을 주장하여 대한민국의 지도 상에 백두산 천지 전체를 대한민국의 영토로 표시하고 있다. 이밖에 러시아가 실효지배중인 녹둔도에 대하여 지도상으로는 표시하고 있지 않으나 영유권을 주장하고 있다.
*************************
해당 문맥의 질문들을 추출합니다.
헌법 제3조에 근거하여 휴전선 이북 영토를 형식적으로 관할하고 있는 정부조직은?
러시아가 실효지배 중이지만 대한민국이 영유권을 주장하고 있는 곳은?
대한민국이 북한을 영토를 침해하는 반국가단체라고 규정하는 근거는?
대한민국이 휴전선 이북 영토를 관할하기 위해 설치한 기관은?
대한민국의 최동단은?
대한민국의 영토는 한반도와 그 부속도서로 한다라고 명시되어있는 헌법은?
헌법에 영토고권을 침해하는 반국가단체로 규정되어있는 단체는?
현재 대한민국의 최동단에 있는 것은?
*************************
대한제국이 수립된 해는? (Score: 0.9107)
해당 질문의 출처는 23326 번째 문맥입니다.
근대 한국의 뿌리는 1897년에 수립된 대한제국이다. 고종 황제는 나라 이름을 조선(朝鮮)에서 대한(大韓)으로 고치고, 연호를 광무(光武)라 정하고, 스스로 황제의 자리에 올랐다. 최초의 근대적 헌법인 대한국 국제를 반포하였고, 미국, 영국, 독일, 프랑스, 이탈리아, 러시아, 일본, 청나라 등과 수교하였다. 광무개혁을 단행하여 신식군대를 설치하고, 근대적 사법제도를 도입하였으며, 근대적 토지 제도를 도입하고, 상공업을 진흥하고, 근대적 병원과 학교 및 은행 등을 설립하였다. 해외에 유학생을 파견하여 근대 산업기술을 습득하게 하고, 제조·철도·운수 등 여러 분야에서 근대적 기업과 공장을 설립하였다. 그러나 대한제국의 자주적 근대화 노력은 1895년 청일 전쟁으로 일본의 영향력이 커진 이래 간섭을 받아왔으며, 1904년에는 러일전쟁에서 일본이 승리한 뒤로 일본의 한국 병합이 본격화되었다. 1905년 을사조약을 무력적으로 체결하여 외교권을 박탈하고, 1907년 고종 황제를 강제로 퇴위시키고, 1910년 한일 병합 조약을 통해 국권을 빼앗기며 일제 강점기로 전환, 근대적 자주국가라는 목표는 사라지고 말았다.
*************************
해당 문맥의 질문들을 추출합니다.
고종 황제이 대한제국을 수립하며 정한 연호는?
대한제국에 일본의 영향력이 커지게 된 전쟁은?
대한제국이 외교권을 상실하게 된 조약을 무엇이라고 부르는가?
대한제국이 수립된 해는?
청일전쟁이 일어난 해는?
한일 병합 조약으로 일제에게 국권이 피탈당한 해는?
고종 황제의 연호는 무엇인가?
고종 황제가 신식군대를 설치하고. 근대적 토지 제도를 도입한 개혁은?
1905년 한국의 외교권을 박탈한 강제적이고 불법적인 조약은?
*************************
대한제국시기 안산시에 개교된 학교는? (Score: 0.9036)
해당 질문의 출처는 45317 번째 문맥입니다.
최초의 근대식 교육 시설로써는 1899년 9월 대한제국시기에 안산군공립소학교(현 안산초등학교)가 개교되었다. 이 학교는 현재의 안산시·시흥시·광명시·군포시·의왕시·과천시·안양시 등이 포함된 경기도 서남부지역의 공립소학교로써 가장 먼저 생긴 근대식 교육기관이다. 이후 안산 지역에는 일제의 조선 총독부의 식민 정책에 따라서 1922년에는 대부공립보통학교를 시작으로 1923년 5월에는 반월공립보통학교, 1923년 7월에는 군자공립심상소학교, 12월에는 군자공립보통학교가 각각 세워졌다. 광복 후에는 당시 안산 지역의 초등학교 수는 7개 학교였으며, 미군정기에는 군서공립국민학교와 화정공립국민학교의 2개 학교가 추가로 세워졌다. 현대 시대에는 안산지역의 도시 발전과 함께 많은 수의 초중고 학교들이 설립되었는데, 2009년 3월 기준으로 경기도 안산시에 있는 초등학교는 총 53개교이며, 전체 1,832학급에 총 61,302명의 학생 수를 기록했다.
*************************
해당 문맥의 질문들을 추출합니다.
안산에 최초의 근대식 교육 시설이 들어선 년도는?
대한제국시기 안산시에 개교된 학교는?
안산 지역에 대부공립보통학교가 설립된 년도는?
1899년 안산에 개교한 최초의 근대식 교육시설은?
조선 총독부의 식민정책에 따라 1923년 7월 안산 지역에 설립된 학교는?
2009년 3월 기준 안산시에 있는 초등학교 수는?
안산의 최초 근대식 교육 시설은?
2009년 3월, 안산시의 초등학교는 총 몇개인가?
======================
None
======================
Query: 일본?
Top 5 most similar sentences in question_list:
*************************
일본의 수도는? (Score: 0.8391)
해당 질문의 출처는 5952 번째 문맥입니다.
도쿄는 일본 혼슈 섬의 중앙, 간토 지방의 남서부에 있는 일본의 수도이다. 17세기 당시 에도라고 불리던 이 지역에 막부가 들어선 이후 일본의 정치, 경제, 문화, 교통의 중심지로서 발전해 왔고, 산업과 인구도 집중되어 있다. 전국에서 세 번째로 면적이 작은 지자체로서 2000m급 산에서 오가사와라 제도와 같은 아열대 섬들까지 다양한 지형 분포를 지니고 있으며 실제 면적은 작지만 범위는 상당히 넓어 일본의 최동단과 최남단 지역을 포함하고 있다. 인구는 약 1,300만 명으로 일본 총 인구의 10%에 해당한다. 이러한 인구 과밀을 막기 위해 정부는 부도심의 개발과 더불어 도쿄 23구 이외 지역에 침상 도시를 건설하고 있다. 간다, 신주쿠, 아키하바라, 시부야, 긴자 등의 여러 거리가 세계적으로 알려진 명소이며 도쿄 역 인근의 니혼바시는 도쿄를 기준으로 한 거리 측정의 기점으로 활용되고 있다. 도쿄는 한 때 지나친 개발로 인해 규슈와 더불어 각종 환경 오염의 온상이었으나, 1960년대 이후 스미다 강의 정화 등을 비롯한 많은 노력을 하고 있다.
*************************
해당 문맥의 질문들을 추출합니다.
일본의 수도는?
일본 도쿄의 인구는?
일본의 수도는?
도쿄의 인구 수는?
일본의 수도는 어디인가?
인구 과밀을 막기 위해 정부가 도쿄 23구 이외 지역에 건설하고 있는것은?
도쿄의 인구 수는 얼마인가?
*************************
일본의 수도는? (Score: 0.8391)
해당 질문의 출처는 5954 번째 문맥입니다.
도쿄는 일본 혼슈 섬의 중앙, 간토 지방의 남서부에 있는 일본의 수도이다. 17세기 당시 에도라고 불리던 이 지역에 막부가 들어선 이후 일본의 정치, 경제, 문화, 교통의 중심지로서 발전해 왔고, 산업과 인구도 집중되어 있다. 전국에서 세 번째로 면적이 작은 지자체로서 2000m급 산에서 오가사와라 제도와 같은 아열대 섬들까지 다양한 지형 분포를 지니고 있으며 실제 면적은 작지만 범위는 상당히 넓어 일본의 최동단과 최남단 지역을 포함하고 있다. 인구는 약 1,300만 명으로 일본 총 인구의 10%에 해당한다. 이러한 인구 과밀을 막기 위해 정부는 부도심의 개발과 더불어 도쿄 23구 이외 지역에 침상 도시를 건설하고 있다. 간다, 신주쿠, 아키하바라, 시부야, 긴자 등의 여러 거리가 세계적으로 알려진 명소이며 도쿄 역 인근의 니혼바시는 도쿄를 기준으로 한 거리 측정의 기점으로 활용되고 있다. 도쿄는 한 때 지나친 개발로 인해 규슈와 더불어 각종 환경 오염의 온상이었으나, 1960년대 이후 스미다 강의 정화 등을 비롯한 많은 노력을 하고 있다.
*************************
해당 문맥의 질문들을 추출합니다.
일본의 수도는?
일본 도쿄의 인구는?
일본의 수도는?
도쿄의 인구 수는?
일본의 수도는 어디인가?
인구 과밀을 막기 위해 정부가 도쿄 23구 이외 지역에 건설하고 있는것은?
도쿄의 인구 수는 얼마인가?
*************************
일본문학의 기원은? (Score: 0.8155)
해당 질문의 출처는 24831 번째 문맥입니다.
일본 문학의 기원은 구전 문학(口傳文學)에서 비롯하여 8세기 초에 최초의 기록 문학 형태를 갖추었다. 왕실에서 직접 주도하여 712년 신화와 전설에 관한 작품집인 고지키가, 720년에는 역사서인 니혼쇼키가 완성되었다. 또 759년 경에는 일본 최고(最古)의 시집으로 4,500편의 시가 수록된 만요슈가 등장하여 이 시기에 단가(短歌) 형태의 시가 문학이 나타났음을 입증하고 있다. 그 후 헤이안 시대의 귀족 문화에서 문학의 중심적인 역할을 담당했던 사람들은 궁중의 여관(女官)으로, 이 시기에 세이 쇼나곤, 무라사키 시키부 등의 여성 시인이 활발하게 활동한다. 센고쿠 시대와 에도 시대를 거쳐서 17세기에는 마츠오 바쇼가 17자의 단문 시 형식인 하이쿠를 만들기도 하였다.
*************************
해당 문맥의 질문들을 추출합니다.
일본문학의 기원은?
일본의 기록 문학의 형태를 갖춘 시기는?
니혼쇼키가 완성된 년도는?
일본이 맨 처음 기록 문학 형태를 갖춘건 몇 세기 때의 일인가?
759년 경에 등장한 시집 만요수에 수록된 시는 몇 편인가?
일본 문학이 최초의 기록 문학 형태를 갖춘 때는?
일본에서 가장 오래된 시집인 만요슈가 등장한 해는?
헤이안 시대 귀족 문화에서 문학의 중심적인 역할을 담당했던 사람들은 누구인가?
======================
None
for i in range(2):
print(find_sentens(lst[i], 3))
======================
Query: ('대한제국', 4)
Top 5 most similar sentences in question_list:
*************************
대한민국의 보도 채널을 모두 서술하시오 (Score: 0.8065)
해당 질문의 출처는 23571 번째 문맥입니다.
방송의 경우 지상파 텔레비전 방송, FM라디오 방송, AM라디오 방송, 단파 라디오 방송, 케이블 방송, 디지털위성방송, 지상파 DMB 방송 등이 있다. 현재 전국 단위 지상파 방송으로 국공영 방송인 한국방송공사(KBS)와 준공영방송인 문화방송(MBC)이 있다. 지역 단위 지상파 민영 방송으로는 한국방송공사와 문화방송(MBC)을 중심으로 한 계열과 서울지역의 지역민영방송인 에스비에스(SBS)를 중심으로 한 SBS 네트워크 계열이 있으며, 그외 독자적인 지방 민영방송인 경인지역의 경인TV가 있다. 그외 한국교육방송공사법에 따른 공영방송인 한국교육방송공사(EBS)이 지상파 방송으로 있다. 종합편성채널 4사로는(JTBC, MBN, 채널A, TV조선)와 보도 채널인 연합뉴스TV와 YTN 등 2개의 보도 채널이 존재하며, 케이블TV 최대 PP사업자인 CJ E&M과 티캐스트도 있다.
*************************
해당 문맥의 질문들을 추출합니다.
대한민국의 전국 단위 준공영 지상파 방송사의 이름은?
한국교육방송공사법에 따라 만들어진 공영방송의 영어 약칭은?
YTN과 함께 대한민국의 2대 보도 채널로 기능하고 있는 방송사는?
대한민국의 지상파 방송이면 국공영방송은 어떤 방송국인가?
대한민국의 공영방송인 EBS는 어떤 법에 기초하여 세워졌는가?
대한민국의 보도 채널을 모두 서술하시오
KBS와 더불어 전국 단위 지상파 방송은?
서울지역의 지역민영방송국은?
한국 교육방송공사법에 따른 공영방송은?
*************************
대한제국이 수립된 해는? (Score: 0.7881)
해당 질문의 출처는 23326 번째 문맥입니다.
근대 한국의 뿌리는 1897년에 수립된 대한제국이다. 고종 황제는 나라 이름을 조선(朝鮮)에서 대한(大韓)으로 고치고, 연호를 광무(光武)라 정하고, 스스로 황제의 자리에 올랐다. 최초의 근대적 헌법인 대한국 국제를 반포하였고, 미국, 영국, 독일, 프랑스, 이탈리아, 러시아, 일본, 청나라 등과 수교하였다. 광무개혁을 단행하여 신식군대를 설치하고, 근대적 사법제도를 도입하였으며, 근대적 토지 제도를 도입하고, 상공업을 진흥하고, 근대적 병원과 학교 및 은행 등을 설립하였다. 해외에 유학생을 파견하여 근대 산업기술을 습득하게 하고, 제조·철도·운수 등 여러 분야에서 근대적 기업과 공장을 설립하였다. 그러나 대한제국의 자주적 근대화 노력은 1895년 청일 전쟁으로 일본의 영향력이 커진 이래 간섭을 받아왔으며, 1904년에는 러일전쟁에서 일본이 승리한 뒤로 일본의 한국 병합이 본격화되었다. 1905년 을사조약을 무력적으로 체결하여 외교권을 박탈하고, 1907년 고종 황제를 강제로 퇴위시키고, 1910년 한일 병합 조약을 통해 국권을 빼앗기며 일제 강점기로 전환, 근대적 자주국가라는 목표는 사라지고 말았다.
*************************
해당 문맥의 질문들을 추출합니다.
고종 황제이 대한제국을 수립하며 정한 연호는?
대한제국에 일본의 영향력이 커지게 된 전쟁은?
대한제국이 외교권을 상실하게 된 조약을 무엇이라고 부르는가?
대한제국이 수립된 해는?
청일전쟁이 일어난 해는?
한일 병합 조약으로 일제에게 국권이 피탈당한 해는?
고종 황제의 연호는 무엇인가?
고종 황제가 신식군대를 설치하고. 근대적 토지 제도를 도입한 개혁은?
1905년 한국의 외교권을 박탈한 강제적이고 불법적인 조약은?
*************************
황보영국이 분신한 날짜를 쓰시오. (Score: 0.7846)
해당 질문의 출처는 21194 번째 문맥입니다.
1987년 5월 17일, 노동자였던 황보영국은 부산상고(현 개성고) 앞에서 '독재타도' 등을 외치며 분신했으며, 일주일 뒤 사망하였다. 이튿날인 5월 18일 명동성당에서 광주항쟁 7주년 미사에 정의구현사제단 김승훈 신부가 박종철 고문 치사 사건이 경찰에 의해 축소·은폐되었음을 폭로하였다. 이에 제5공화국 정권을 비판하던 국민들은 전두환 군사독재정권의 옳지 못함에 크게 분노하였고, 이후 민주화를 요구하는 시위가 전국에서 자주 일어났다. 이후 5월 23일 "박종철 고문살인은폐조작규탄 범국민대회 준비위원회"가 결성되었고, 이들은 6월 10일에 규탄대회를 갖기로 결정하였다(그날은 노태우가 민정당 대선 후보로 선출된 날이기도 하다).
*************************
해당 문맥의 질문들을 추출합니다.
1987년 독재타도를 외치며 분신한 사람은?
박종철 고문 치사사건의 은폐를 폭로한 사람은?
6월에 규탄대회가 열리는 이유는?
황보영국이 분신한 날짜를 쓰시오.
6월 항쟁 중 규탄대회를 갖기로 한 날은?
6월 항쟁 중 노동자였던 황보영국이 사망한 날은?
6월 항쟁중 황보영국은 무엇을 외치며 분신하여 사망하였는가?
======================
None
======================
Query: ('일본', 4)
Top 5 most similar sentences in question_list:
*************************
일본의 수도는? (Score: 0.7220)
해당 질문의 출처는 5952 번째 문맥입니다.
도쿄는 일본 혼슈 섬의 중앙, 간토 지방의 남서부에 있는 일본의 수도이다. 17세기 당시 에도라고 불리던 이 지역에 막부가 들어선 이후 일본의 정치, 경제, 문화, 교통의 중심지로서 발전해 왔고, 산업과 인구도 집중되어 있다. 전국에서 세 번째로 면적이 작은 지자체로서 2000m급 산에서 오가사와라 제도와 같은 아열대 섬들까지 다양한 지형 분포를 지니고 있으며 실제 면적은 작지만 범위는 상당히 넓어 일본의 최동단과 최남단 지역을 포함하고 있다. 인구는 약 1,300만 명으로 일본 총 인구의 10%에 해당한다. 이러한 인구 과밀을 막기 위해 정부는 부도심의 개발과 더불어 도쿄 23구 이외 지역에 침상 도시를 건설하고 있다. 간다, 신주쿠, 아키하바라, 시부야, 긴자 등의 여러 거리가 세계적으로 알려진 명소이며 도쿄 역 인근의 니혼바시는 도쿄를 기준으로 한 거리 측정의 기점으로 활용되고 있다. 도쿄는 한 때 지나친 개발로 인해 규슈와 더불어 각종 환경 오염의 온상이었으나, 1960년대 이후 스미다 강의 정화 등을 비롯한 많은 노력을 하고 있다.
*************************
해당 문맥의 질문들을 추출합니다.
일본의 수도는?
일본 도쿄의 인구는?
일본의 수도는?
도쿄의 인구 수는?
일본의 수도는 어디인가?
인구 과밀을 막기 위해 정부가 도쿄 23구 이외 지역에 건설하고 있는것은?
도쿄의 인구 수는 얼마인가?
*************************
일본의 수도는? (Score: 0.7220)
해당 질문의 출처는 5954 번째 문맥입니다.
도쿄는 일본 혼슈 섬의 중앙, 간토 지방의 남서부에 있는 일본의 수도이다. 17세기 당시 에도라고 불리던 이 지역에 막부가 들어선 이후 일본의 정치, 경제, 문화, 교통의 중심지로서 발전해 왔고, 산업과 인구도 집중되어 있다. 전국에서 세 번째로 면적이 작은 지자체로서 2000m급 산에서 오가사와라 제도와 같은 아열대 섬들까지 다양한 지형 분포를 지니고 있으며 실제 면적은 작지만 범위는 상당히 넓어 일본의 최동단과 최남단 지역을 포함하고 있다. 인구는 약 1,300만 명으로 일본 총 인구의 10%에 해당한다. 이러한 인구 과밀을 막기 위해 정부는 부도심의 개발과 더불어 도쿄 23구 이외 지역에 침상 도시를 건설하고 있다. 간다, 신주쿠, 아키하바라, 시부야, 긴자 등의 여러 거리가 세계적으로 알려진 명소이며 도쿄 역 인근의 니혼바시는 도쿄를 기준으로 한 거리 측정의 기점으로 활용되고 있다. 도쿄는 한 때 지나친 개발로 인해 규슈와 더불어 각종 환경 오염의 온상이었으나, 1960년대 이후 스미다 강의 정화 등을 비롯한 많은 노력을 하고 있다.
*************************
해당 문맥의 질문들을 추출합니다.
일본의 수도는?
일본 도쿄의 인구는?
일본의 수도는?
도쿄의 인구 수는?
일본의 수도는 어디인가?
인구 과밀을 막기 위해 정부가 도쿄 23구 이외 지역에 건설하고 있는것은?
도쿄의 인구 수는 얼마인가?
*************************
일본문학의 기원은? (Score: 0.6889)
해당 질문의 출처는 24831 번째 문맥입니다.
일본 문학의 기원은 구전 문학(口傳文學)에서 비롯하여 8세기 초에 최초의 기록 문학 형태를 갖추었다. 왕실에서 직접 주도하여 712년 신화와 전설에 관한 작품집인 고지키가, 720년에는 역사서인 니혼쇼키가 완성되었다. 또 759년 경에는 일본 최고(最古)의 시집으로 4,500편의 시가 수록된 만요슈가 등장하여 이 시기에 단가(短歌) 형태의 시가 문학이 나타났음을 입증하고 있다. 그 후 헤이안 시대의 귀족 문화에서 문학의 중심적인 역할을 담당했던 사람들은 궁중의 여관(女官)으로, 이 시기에 세이 쇼나곤, 무라사키 시키부 등의 여성 시인이 활발하게 활동한다. 센고쿠 시대와 에도 시대를 거쳐서 17세기에는 마츠오 바쇼가 17자의 단문 시 형식인 하이쿠를 만들기도 하였다.
*************************
해당 문맥의 질문들을 추출합니다.
일본문학의 기원은?
일본의 기록 문학의 형태를 갖춘 시기는?
니혼쇼키가 완성된 년도는?
일본이 맨 처음 기록 문학 형태를 갖춘건 몇 세기 때의 일인가?
759년 경에 등장한 시집 만요수에 수록된 시는 몇 편인가?
일본 문학이 최초의 기록 문학 형태를 갖춘 때는?
일본에서 가장 오래된 시집인 만요슈가 등장한 해는?
헤이안 시대 귀족 문화에서 문학의 중심적인 역할을 담당했던 사람들은 누구인가?
======================
None
그나마 각 키워드와 연관된 질문이 추출되는 것을 볼 수 있었습니다.
하지만 해당 문장 전체에 관한 내용까지 이어지기에는 부족해보입니다.
다음번에는 요약한 텍스트를 이용해서 실험해보도록 하겠습니다.
728x90
'공부정리 > NLP' 카테고리의 다른 글
[NLP] 개체명 인식 참고 사이트 (0) | 2022.10.20 |
---|---|
[NLP] Pororo 언어 모델 기반 문장 토큰 분류 (0) | 2022.10.20 |
[NLP] Sentence transformer를 이용하여 텍스트 유사도 구하기 with korQuad Dataset - (2) (1) | 2022.10.18 |
[NLP] Fine Turning - Hugging face (0) | 2022.10.18 |
[NLP] Sentence transformer를 이용하여 텍스트 유사도 구하기 with korQuad Dataset (1) | 2022.10.14 |