웹 크롤링과 관련된 라이브러리(requests, beautifulsoup, :: 기록장

ABOUT ME

-

Today: -

Yesterday: -

Total: -

웹 크롤링과 관련된 라이브러리(requests, beautifulsoup,

복습 2025. 5. 27. 17:27
requets 라이브러리

- 파이썬용 HTTP 라이브러리. 다양한 HTTP 요청을 보낼 수 있으며 API가 간단하다.

- 다음은 멜론 사이트에 requests 라이브러리를 통해 접근하는 코드이다.

import requests #인터넷 접속을 위한 패키지 url = "https://www.melon.com/song/detail.htm?songId=37139110" head = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36 Edg/136.0.0.0'} r = requests.get(url, headers=head) print(r.text)

- 이때 header를 다음과 같이 설정하는 것을 통해 user agent 정보를 수정할 수 있다.(웹 크롤링을 더 편하게 진행할 수 있음)

- r을 출력하면 해당 사이트의 html 코드를 얻을 수 있다.

BeautifulSoup 라이브러리

- 받아온 html 파일을 좀 더 쉽게 관리할 수 있는 라이브러리.(아이템 이름이나 클래스 이름을 확인하는 등...)

- bs4에서 BeautifulSoup를 import 해오며, 보통 별명을 사용한다!

from bs4 import BeautifulSoup bs = BeautifulSoup(r.text) print(bs)
'복습' 카테고리의 다른 글

[Python] 딕셔너리 자료형을 Value 기준으로 정렬하기 (0) 2025.05.21
관련글 관련글 더보기
- [Python] 딕셔너리 자료형을 Value 기준으로 정렬하기

인기포스트

ABOUT ME

공부의 길은 끝이 없다

LINK

ADMIN

티스토리툴바