728x90
target_url 변수에 해당 링크를 입력하면 됩니다.
from urllib.request import urlopen
from bs4 import BeautifulSoup
news_info = {"title": "",
"content": "",
"data": ""
}
def news_content_crawl(target_url):
html = urlopen(target_url)
bsObject = BeautifulSoup(html, "html.parser")
title = bsObject.find("div", {"class":"media_end_head_title"}).get_text()
content = bsObject.find("div", {"class":"go_trans _article_content"}).get_text()
date = bsObject.find("span", {"class":"media_end_head_info_datestamp_time _ARTICLE_DATE_TIME"}).get_text()
news_info = { "title" : title,
"content": content,
"data": date
}
for i in news_info:
news_info[i] = news_info[i].replace("\n","")
news_info[i] = news_info[i].replace("\\'", "")
print(news_info)
if __name__ =="__main__":
target_url = "https://n.news.naver.com/mnews/article/082/0001176080?sid=100"
news_content_crawl(target_url)
\n (줄바꿈) 제거하는 코드
for i in news_info:
news_info[i] = news_info[i].replace("\n","")
news_info[i] = news_info[i].replace("\\'", "")
출력결과
딕셔너리의 형태로 저장된 것을 볼 수 있습니다.
728x90
'python > 자동화' 카테고리의 다른 글
[Python] 웹 자동화 기초 - 브라우저 열기, 닫기, 탭 이동 (0) | 2022.09.29 |
---|---|
[Python] 네이버 뉴스 기사 웹 크롤링 - 매크로 (0) | 2022.09.28 |
[Python] 웹 자동화 (2) - 웹 열고 HTML 태그를 통해 이동하기 (0) | 2022.09.28 |
[Python] 웹 자동화 (1) - 파이썬으로 웹 열기 (0) | 2022.09.28 |
[Python] 웹 자동화를 위한 준비 - Chrome Driver 다운로드 (0) | 2022.09.28 |