skinOptions.hljs
[Python] 파일 이름 변경
·
python/자동화
import os path_dir = './img' # 폴더의 경로 file_list = os.listdir(path_dir) # 폴더 내 파일 목록 받아오기 print(file_list) for idx, name in enumerate(file_list): names = path_dir + '/' + name # 선택한 파일 change =path_dir + '/' str(idx) + '.png' # 변경할 이름 os.rename(names, change) print("END!")
[Python] 웹크롤링 - 태그를 이용해서 크롤링하기 - (최종) 한국민족문화대백과사전 크롤링하기
·
python/자동화
from bs4 import BeautifulSoup import urllib.request as req import argparse # 특정 웹사이트로 접속하기 위해 import re from urllib.parse import quote import json from tqdm import tqdm def crawling_list(url): res = req.urlopen(url).read() soup = BeautifulSoup(res, 'html.parser') #분석 용이하게 파싱 find_tag = soup.findAll("a",{"class":"depth1-title"}) # "div",{"class":"section_body"} korean_hist = dict() for i in range..
[Python] 웹크롤링 - 태그를 이용해서 크롤링하기 - (3) 사전을 Json파일로 저장
·
python/자동화
사전으로 저장하고자 하는 내용을 크롤링하면서 오류가 있는 것을 발견했습니다. from bs4 import BeautifulSoup import urllib.request as req import argparse # 특정 웹사이트로 접속하기 위해 import re from urllib.parse import quote def crawling_list(url): res = req.urlopen(url).read() soup = BeautifulSoup(res, 'html.parser') #분석 용이하게 파싱 find_tag = soup.findAll("a",{"class":"depth1-title"}) # "div",{"class":"section_body"} korean_hist = dict() for i..
[Python] 웹크롤링 - 태그를 이용해서 크롤링하기 - (2) 사전구축
·
python/자동화
이전 코드에서 나아가 한국민족대백과사전의 사전을 크롤링을 통해 만들어보겠습니다. from bs4 import BeautifulSoup import urllib.request as req import argparse # 특정 웹사이트로 접속하기 위해 import re def crawling_list(url): res = req.urlopen(url).read() soup = BeautifulSoup(res, 'html.parser') #분석 용이하게 파싱 find_tag = soup.findAll("a",{"class":"depth1-title"}) # "div",{"class":"section_body"} korean_hist = dict() for i in range(len(find_tag)): txt..
[Python] 네이버 뉴스 기사 태그 출력하기
·
python/자동화
https://sillon-coding.tistory.com/302 [Python] 네이버 뉴스 기사 웹 크롤링 - 매크로 해당 사이트를 참고하여 게시글을 작성하였습니다. 1단계. 원하는 웹 페이지의 html문서를 싹 긁어온다. 2단계. 긁어온 html 문서를 파싱(Parsing)한다. 3단계. 파싱한 html 문서에서 원하는 것을 골 sillon-coding.tistory.com 스포를 조금 하자면... 해결하지 못했습니다! 그 이유는 HTML 태그 일부 출력이 되지 않기 때문입니다. 그 과정을 포스팅 해보겠습니다..^^ from bs4 import BeautifulSoup import urllib.request as req # 특정 웹사이트로 접속하기 위해 url = "https://news.nave..
[Python] 웹 자동화 기초 - 경고창 이동, 쿠키, 자바스크립트 코드 실행
·
python/자동화
경고창 (alert) 경고창이 떴을 때 수락 또는 거절을 눌러주거나 경고창의 텍스트를 가져올 수 있다. 경고창 이동 #경고창으로 이동 driver.switch_to.alert 경고창 수락 / 거절 from selenium.webdriver.common.alert import Alert Alert(driver).accept() #경고창 수락 누름 Alert(driver).dismiss() #경고창 거절 누름 print(Alert(driver).text # 경고창 텍스트 얻음 쿠키 값 얻기 #쿠키값 얻기 driver.get_cookies() #쿠키 추가 driver.add_cookie() #쿠키 전부 삭제 driver.delete_all_cookies() #특정 쿠기 삭제 driver.delete_cooki..
[Python] 웹 자동화 기초 - 엘레먼트(클릭, 텍스트, 프레임 이동)
·
python/자동화
엘레먼트에 관하여 우리는 웹브라우저에서 로그인도 하고 버튼도 클릭하고 검색창에 텍스트를 입력하기도 한다. 이렇게 브라우저 상에서 보이는 버튼, 검색창, 사진, 테이블, 동영상 등등 이 모든 것들을 엘레먼트(element, 요소) 라고 부른다. 셀레니움은 우리가 브라우저에서 특정 요소를 클릭하고 텍스트를 입력하고 사진등을 받아오고 텍스트를 가져오는 등등 어떠한 위치에 있는 무언가를 부를 때 엘레먼트라는 개념으로 접근한다. 다양한 방법으로 엘레먼트로 접근할 수 있는데 대부분 xpath 를 사용한다. 엘레먼트 접근하는 방법 driver.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/div/div[3]/form/fieldset/button/span[2]') #..
[Python] 웹 자동화 기초 - 브라우저 열기, 닫기, 탭 이동
·
python/자동화
셀레니움 소개 셀레니움은 파이어폭스, 인터넷 익스플로어, 크롬등과 같은 브라우저를 컨트롤 할 수 있게 해줍니다. 현재 파이썬 3.5 이상부터 지원되며 3.6 이상 버전 부터 pip 로 표준 라이브러리로 사용할 수 있습니다. 설치 – install pip install selenium 드라이버 – driver Chrome https://sites.google.com/a/chromium.org/chromedriver/downloads Edge https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/ Firefox https://github.com/mozilla/geckodriver/releases Safari https://webkit.or..
[Python] 네이버 뉴스 기사 웹 크롤링 - 매크로
·
python/자동화
해당 사이트를 참고하여 게시글을 작성하였습니다. 1단계. 원하는 웹 페이지의 html문서를 싹 긁어온다. 2단계. 긁어온 html 문서를 파싱(Parsing)한다. 3단계. 파싱한 html 문서에서 원하는 것을 골라서 사용한다. https://sillon-coding.tistory.com/301 [Python] 뉴스의 제목, 날짜, 본문 데이터 가져오기 - 1회성 (매크로아님) target_url 변수에 해당 링크를 입력하면 됩니다. from urllib.request import urlopen from bs4 import BeautifulSoup news_info = {"title": "", "content": "", "data": "" } def news_content_crawl(target_ur....
[Python] 뉴스의 제목, 날짜, 본문 데이터 가져오기 - 1회성 (매크로아님)
·
python/자동화
target_url 변수에 해당 링크를 입력하면 됩니다. from urllib.request import urlopen from bs4 import BeautifulSoup news_info = {"title": "", "content": "", "data": "" } def news_content_crawl(target_url): html = urlopen(target_url) bsObject = BeautifulSoup(html, "html.parser") title = bsObject.find("div", {"class":"media_end_head_title"}).get_text() content = bsObject.find("div", {"class":"go_trans _article_conte..
[Python] 웹 자동화 (2) - 웹 열고 HTML 태그를 통해 이동하기
·
python/자동화
이동하고자 하는 버튼의 HTML 태그를 찾아줍니다. 저는 로그인 버튼을 눌러보도록 하겠습니다. 개발자 도구에서 이 버튼을 누르고 태그를 찾아보면 좀 더 수월합니다. id 태그를 입력하는 것이 조금 더 정확합니다. - find_element 사용법 각 element에 따라 method를 따로 사용하는 것 보다 깔끔하게 정리하기 위해 By를 사용해 봅시다. driver.find_element(By., '')으로 사용합니다. 여러 element를 찾을 경우 find_elements로 할 수 있습니다. 사용은 아래와 같이 합니다. from selenium.webdriver.common.by import By driver.find_element(By.XPATH, '//button[text()="Some text"..
[Python] 웹 자동화 (1) - 파이썬으로 웹 열기
·
python/자동화
해당 파일이 있는 디렉토리에 크롬 드라이버가 있어야합니다. from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains import time """ 크롬을 사용하여 창을 연다""" driver = webdriver.Chrome() # 크롬 웹 드라이버 연동 url = 'http://google.com' driver.get(url) driver.maximize_window() # 열고나서 창을 크게 만들어줌 (사실상 필요 X) action = ActionChains(driver)