python/자동화
[Python] 네이버 뉴스 기사 태그 출력하기
sillon
2022. 9. 29. 15:32
728x90
반응형
https://sillon-coding.tistory.com/302
[Python] 네이버 뉴스 기사 웹 크롤링 - 매크로
해당 사이트를 참고하여 게시글을 작성하였습니다. 1단계. 원하는 웹 페이지의 html문서를 싹 긁어온다. 2단계. 긁어온 html 문서를 파싱(Parsing)한다. 3단계. 파싱한 html 문서에서 원하는 것을 골
sillon-coding.tistory.com
스포를 조금 하자면... 해결하지 못했습니다! 그 이유는 HTML 태그 일부 출력이 되지 않기 때문입니다.
그 과정을 포스팅 해보겠습니다..^^
from bs4 import BeautifulSoup
import urllib.request as req # 특정 웹사이트로 접속하기 위해
url = "https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100"
res = req.urlopen(url).read()
soup = BeautifulSoup(res, 'html.parser') #분석 용이하게 파싱
print(soup)
네이버 뉴스 정치 부분에서 html 코드를 추출해봅시다
출력 결과는 HTML 태그 전체가 추출됩니다.
저는 밑에 있는 기사만 추출할거기때문에 일단 거기에 대한 내용이 있는 태그를 추출해봅시다
저는 여기서 위의 헤드라인 기사가 아닌 아래부분의 기사를 추출할 것입니다..
태그를 살펴보면 아래와 같습니다.
from bs4 import BeautifulSoup
import urllib.request as req # 특정 웹사이트로 접속하기 위해
url = "https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100"
res = req.urlopen(url).read()
soup = BeautifulSoup(res, 'html.parser') #분석 용이하게 파싱
find_tag = soup.findAll("div",{"class":"section_body"})
print(find_tag)
아래 기사부터는 왜인지 태그가 출력이 안되는 모습을 볼 수 있었습니다.
그 이유는 저도 모름... 그래서 다른 방법을 찾아봐야할 것 같습니다.
오늘도 해결 실패!
728x90
반응형