ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 웹 크롤링과 관련된 라이브러리(requests, beautifulsoup,
    복습 2025. 5. 27. 17:27

    requets 라이브러리

    - 파이썬용 HTTP 라이브러리. 다양한 HTTP 요청을 보낼 수 있으며 API가 간단하다.

    - 다음은 멜론 사이트에 requests 라이브러리를 통해 접근하는 코드이다.

    import requests #인터넷 접속을 위한 패키지
    url = "https://www.melon.com/song/detail.htm?songId=37139110"
    
    head = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36 Edg/136.0.0.0'}
    
    r = requests.get(url, headers=head)
    print(r.text)

     

    - 이때 header를 다음과 같이 설정하는 것을 통해 user agent 정보를 수정할 수 있다.(웹 크롤링을 더 편하게 진행할 수 있음)

    - r을 출력하면 해당 사이트의 html 코드를 얻을 수 있다.

     

    BeautifulSoup 라이브러리

    - 받아온 html 파일을 좀 더 쉽게 관리할 수 있는 라이브러리.(아이템 이름이나 클래스 이름을 확인하는 등...)

    - bs4에서 BeautifulSoup를 import 해오며, 보통 별명을 사용한다! 

    from bs4 import BeautifulSoup
    bs = BeautifulSoup(r.text)
    
    print(bs)

    '복습' 카테고리의 다른 글

    [Python] 딕셔너리 자료형을 Value 기준으로 정렬하기  (0) 2025.05.21
Designed by Tistory.