특수기호/문장부호 영어로 읽기
·
공부정리
특수기호/문장부호 영어로 읽기 ! Exclamation Point (엑스클러메이션 포인트) " Quotation Mark (쿼테이션 마크) # Crosshatch (크로스해치), Sharp(샵), Pound Sign(파운드 사인) $ Dollar Sign (달러사인) % Percent Sign (퍼센트사인) @ At Sign (앳), Commercial At(커머셜 앳) & Ampersand (앰퍼샌드) ' Apostrophe (어파스트로피) * Asterisk (애스터리스크) - Hyphen (하이픈), Dash(대시) . Period (피리어드), Full Stop (풀스탑) / Slash (슬래시), Virgule (버귤) \ Back Slash (백슬래시) \ Won sign (원사인) : Col..
[NLP] 한국어 임베딩 1장 - 서론
·
공부정리/NLP
한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지 이기창 저/NAVER Chatbot Model 감수 에이콘출판사 2019년 09월 26일 1장 서론 1.1 임베딩이란 1.2 임베딩의 역할 1.3 임베딩 기법의 역사와 종류 1.1 임베딩이란 임베딩 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열 혹은 일련의 과정을 벡터로 바꾼 결과 단어나 문장을 각각 벡터로 변환해 벡터 공간으로 끼워 넣음 단어-문서 행렬[Term-Document-Matrix] 메밀꽃 필 무렵 운수 좋은 날 사랑 손님과 어머니 삼포 가는 길 기차 0 1 9 8 막걸리 1 2 3 5 선술집 2 8 0 3 위의 표에서 [운수 좋은 날]의 임베딩은 [ 1, 2, 8 ] 이다. [막걸..
[Python] 네이버 뉴스 기사 태그 출력하기
·
python/자동화
https://sillon-coding.tistory.com/302 [Python] 네이버 뉴스 기사 웹 크롤링 - 매크로 해당 사이트를 참고하여 게시글을 작성하였습니다. 1단계. 원하는 웹 페이지의 html문서를 싹 긁어온다. 2단계. 긁어온 html 문서를 파싱(Parsing)한다. 3단계. 파싱한 html 문서에서 원하는 것을 골 sillon-coding.tistory.com 스포를 조금 하자면... 해결하지 못했습니다! 그 이유는 HTML 태그 일부 출력이 되지 않기 때문입니다. 그 과정을 포스팅 해보겠습니다..^^ from bs4 import BeautifulSoup import urllib.request as req # 특정 웹사이트로 접속하기 위해 url = "https://news.nave..
[Python] 웹 자동화 기초 - 경고창 이동, 쿠키, 자바스크립트 코드 실행
·
python/자동화
경고창 (alert) 경고창이 떴을 때 수락 또는 거절을 눌러주거나 경고창의 텍스트를 가져올 수 있다. 경고창 이동 #경고창으로 이동 driver.switch_to.alert 경고창 수락 / 거절 from selenium.webdriver.common.alert import Alert Alert(driver).accept() #경고창 수락 누름 Alert(driver).dismiss() #경고창 거절 누름 print(Alert(driver).text # 경고창 텍스트 얻음 쿠키 값 얻기 #쿠키값 얻기 driver.get_cookies() #쿠키 추가 driver.add_cookie() #쿠키 전부 삭제 driver.delete_all_cookies() #특정 쿠기 삭제 driver.delete_cooki..
[Python] 웹 자동화 기초 - 엘레먼트(클릭, 텍스트, 프레임 이동)
·
python/자동화
엘레먼트에 관하여 우리는 웹브라우저에서 로그인도 하고 버튼도 클릭하고 검색창에 텍스트를 입력하기도 한다. 이렇게 브라우저 상에서 보이는 버튼, 검색창, 사진, 테이블, 동영상 등등 이 모든 것들을 엘레먼트(element, 요소) 라고 부른다. 셀레니움은 우리가 브라우저에서 특정 요소를 클릭하고 텍스트를 입력하고 사진등을 받아오고 텍스트를 가져오는 등등 어떠한 위치에 있는 무언가를 부를 때 엘레먼트라는 개념으로 접근한다. 다양한 방법으로 엘레먼트로 접근할 수 있는데 대부분 xpath 를 사용한다. 엘레먼트 접근하는 방법 driver.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/div/div[3]/form/fieldset/button/span[2]') #..
[Python] 웹 자동화 기초 - 브라우저 열기, 닫기, 탭 이동
·
python/자동화
셀레니움 소개 셀레니움은 파이어폭스, 인터넷 익스플로어, 크롬등과 같은 브라우저를 컨트롤 할 수 있게 해줍니다. 현재 파이썬 3.5 이상부터 지원되며 3.6 이상 버전 부터 pip 로 표준 라이브러리로 사용할 수 있습니다. 설치 – install pip install selenium 드라이버 – driver Chrome https://sites.google.com/a/chromium.org/chromedriver/downloads Edge https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/ Firefox https://github.com/mozilla/geckodriver/releases Safari https://webkit.or..
[NLP] 한국어 전처리 기법 모음
·
공부정리/NLP
https://colab.research.google.com/drive/1FfhWsP9izQcuVl06P30r5cCxELA1ciVE?usp=sharing 영어 전처리는 자연어처리 책에 많이 나오는 편입니다. 하지만 한글은 찾아보기가 어려운데요. 문장 분리, 띄어쓰기, 맞춤법, 외래어, 형태소분석, 스테밍 등 유용한 기법들이 정리되어 있습니다. 필요할 때마다 참고하기 좋을 듯 합니다.
[NLP] 노가다 없는 텍스트 분석을 위한 한국어 NLP
·
공부정리/NLP
reference http://aidev.co.kr/nlp/4728 자연어처리 - 노가다 없는 텍스트 분석을 위한 한국어 NLP https://www.slideshare.net/kimhyunjoonglovit/pycon2017-koreannlp 이전에 소개한 '한국어 채팅 데이터로 머신러닝하기'에서 사용된 cohesion tokenizer(결합 토크나이저)에 대해 자세히 설명한 슬라이드입니다. 토크 aidev.co.kr github https://github.com/lovit/soynlp
[Python] 네이버 뉴스 기사 웹 크롤링 - 매크로
·
python/자동화
해당 사이트를 참고하여 게시글을 작성하였습니다. 1단계. 원하는 웹 페이지의 html문서를 싹 긁어온다. 2단계. 긁어온 html 문서를 파싱(Parsing)한다. 3단계. 파싱한 html 문서에서 원하는 것을 골라서 사용한다. https://sillon-coding.tistory.com/301 [Python] 뉴스의 제목, 날짜, 본문 데이터 가져오기 - 1회성 (매크로아님) target_url 변수에 해당 링크를 입력하면 됩니다. from urllib.request import urlopen from bs4 import BeautifulSoup news_info = {"title": "", "content": "", "data": "" } def news_content_crawl(target_ur....
[Python] 뉴스의 제목, 날짜, 본문 데이터 가져오기 - 1회성 (매크로아님)
·
python/자동화
target_url 변수에 해당 링크를 입력하면 됩니다. from urllib.request import urlopen from bs4 import BeautifulSoup news_info = {"title": "", "content": "", "data": "" } def news_content_crawl(target_url): html = urlopen(target_url) bsObject = BeautifulSoup(html, "html.parser") title = bsObject.find("div", {"class":"media_end_head_title"}).get_text() content = bsObject.find("div", {"class":"go_trans _article_conte..
[Python] 웹 자동화 (2) - 웹 열고 HTML 태그를 통해 이동하기
·
python/자동화
이동하고자 하는 버튼의 HTML 태그를 찾아줍니다. 저는 로그인 버튼을 눌러보도록 하겠습니다. 개발자 도구에서 이 버튼을 누르고 태그를 찾아보면 좀 더 수월합니다. id 태그를 입력하는 것이 조금 더 정확합니다. - find_element 사용법 각 element에 따라 method를 따로 사용하는 것 보다 깔끔하게 정리하기 위해 By를 사용해 봅시다. driver.find_element(By., '')으로 사용합니다. 여러 element를 찾을 경우 find_elements로 할 수 있습니다. 사용은 아래와 같이 합니다. from selenium.webdriver.common.by import By driver.find_element(By.XPATH, '//button[text()="Some text"..
[Python] 웹 자동화 (1) - 파이썬으로 웹 열기
·
python/자동화
해당 파일이 있는 디렉토리에 크롬 드라이버가 있어야합니다. from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains import time """ 크롬을 사용하여 창을 연다""" driver = webdriver.Chrome() # 크롬 웹 드라이버 연동 url = 'http://google.com' driver.get(url) driver.maximize_window() # 열고나서 창을 크게 만들어줌 (사실상 필요 X) action = ActionChains(driver)