python/자동화

[Python] 네이버 뉴스 기사 태그 출력하기

sillon 2022. 9. 29. 15:32
728x90
반응형

https://sillon-coding.tistory.com/302

 

[Python] 네이버 뉴스 기사 웹 크롤링 - 매크로

해당 사이트를 참고하여 게시글을 작성하였습니다. 1단계. 원하는 웹 페이지의 html문서를 싹 긁어온다. 2단계. 긁어온 html 문서를 파싱(Parsing)한다. 3단계. 파싱한 html 문서에서 원하는 것을 골

sillon-coding.tistory.com

 

이전 포스트에서 해결 안되었던 부분을 해결해보겠습니다..^^

스포를 조금 하자면... 해결하지 못했습니다! 그 이유는 HTML 태그 일부 출력이 되지 않기 때문입니다.

그 과정을 포스팅 해보겠습니다..^^

 

from bs4 import BeautifulSoup
import urllib.request as req # 특정 웹사이트로 접속하기 위해

url = "https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100"
res = req.urlopen(url).read()
soup = BeautifulSoup(res, 'html.parser') #분석 용이하게 파싱

print(soup)

네이버 뉴스 정치 부분에서 html 코드를 추출해봅시다

 

출력 결과는 HTML 태그 전체가 추출됩니다.

 

저는 밑에 있는 기사만 추출할거기때문에 일단 거기에 대한 내용이 있는 태그를 추출해봅시다

 

 

 

저는 여기서 위의 헤드라인 기사가 아닌 아래부분의 기사를 추출할 것입니다..

 

태그를 살펴보면 아래와 같습니다.

 

from bs4 import BeautifulSoup
import urllib.request as req # 특정 웹사이트로 접속하기 위해

url = "https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100"
res = req.urlopen(url).read()
soup = BeautifulSoup(res, 'html.parser') #분석 용이하게 파싱
find_tag = soup.findAll("div",{"class":"section_body"})
print(find_tag)

아래 기사부터는 왜인지 태그가 출력이 안되는 모습을 볼 수 있었습니다.

그 이유는 저도 모름... 그래서 다른 방법을 찾아봐야할 것 같습니다.

원래 개발자모드로 태그를 뜯어보면 이 사이에 리스트 아이템 등 여러가지 태그가 있습니다. 하지만 출력해본 결과로는 모두 출력되지 않았습니다 ㅠㅠ

오늘도 해결 실패!

728x90
반응형