-
웹 크롤링과 관련된 라이브러리(requests, beautifulsoup,복습 2025. 5. 27. 17:27
requets 라이브러리
- 파이썬용 HTTP 라이브러리. 다양한 HTTP 요청을 보낼 수 있으며 API가 간단하다.
- 다음은 멜론 사이트에 requests 라이브러리를 통해 접근하는 코드이다.
import requests #인터넷 접속을 위한 패키지 url = "https://www.melon.com/song/detail.htm?songId=37139110" head = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36 Edg/136.0.0.0'} r = requests.get(url, headers=head) print(r.text)- 이때 header를 다음과 같이 설정하는 것을 통해 user agent 정보를 수정할 수 있다.(웹 크롤링을 더 편하게 진행할 수 있음)
- r을 출력하면 해당 사이트의 html 코드를 얻을 수 있다.
BeautifulSoup 라이브러리
- 받아온 html 파일을 좀 더 쉽게 관리할 수 있는 라이브러리.(아이템 이름이나 클래스 이름을 확인하는 등...)
- bs4에서 BeautifulSoup를 import 해오며, 보통 별명을 사용한다!
from bs4 import BeautifulSoup bs = BeautifulSoup(r.text) print(bs)'복습' 카테고리의 다른 글
[Python] 딕셔너리 자료형을 Value 기준으로 정렬하기 (0) 2025.05.21