크롤링_2 = 무선청소기 비교 with 파이썬
|참고서적: 직장인을 위한 데이터 분석 실무 with 파이썬|
목적 : 여러 제조사별 무선청소기의 가격과 성능에 대한 데이터를 수집하고, 이를 분석하는 과정을 통해 각자의 상황에 맞는 제품군이 무엇인지 분석 + 책에 나온 예제 6-14) tqdm 오류 수정하는 방법
지난번에는 한 페이지에 대한 크롤링을 했다면, 오늘은 무선 청소기 검색에 대한 전체 페이지 크롤링하는 방법에 대해 소개하겠습니다. 특히 제가 공부하면서 책과는 다른 tqdm 오류에 대해 알려드려고 합니다.
1) 다나와 URL 만드는 함수
return 에 적힌 뒤에 값들이 안보여서 아래에 적어볼게요.
return 'http://search.danawa.com/dsearch.php?query={}&volumeType=allvs&page={}&limit=40&sort=saveDESC&list=list&boost=true&addDelivery=N&tab=goods'.format(keyword,page)
여기 format 함수를 적었습니다. 이말은 두개의 {}안에 함수 매개변수인 keyword, page 에 해당하는 값을 넣겠다는 의미입니다.
그래서 실행하면 아래와 값은 값이 나오는거죠. 한번 page =2 또는 원하는 페이지를 지정하고 적용해보면 해당 페이지가 보이는걸 확인하실수 있어요~
2)다나와 전체 크롤링( **먼저 !pip install tpdm 을 설치하신후, 실행해주세요. )
설치 후에, tqdm 사용을 잠시 살펴보면 책에서는 위와 같이 나와있습니다. 그럼 아래와 같은오류가 뜹니다. 오류를 살펴보면 tqdm_notebook 대신 tqdm을 쓰라고 나와 있어요.
이렇게 변경해주시면 오류가 해결됩니다 :)
이렇게해서 여러페이지에 있는 데이터 상품 정보를 추출해서 prod_item_total에 추가 되었습니다.
3) 수집 데이터 저장
이후에 지정한 위치에 파일이 잘 만들어 졌는지 확인해보면, 이렇게 약 400개의 데이터가 잘 정리되어 있는걸 확인하실수 있습니다!
오늘은 다나와 전체페이지를 크롤링하여 원하는 데이터 (상품명, 스펙 목록, 가격)로 원하는 데이터로 저장하는 방법까지 알아보았습니다.
다음 장에는 무선청소기 비교를 위해서 각 데이터를 상세하게 비교 분석할 수 있도록 데이터 분리 작업을 해보도록 하겠습니다.
**더 추가해주시거나 고칠게 있다면 댓글 달아주세요:) 보고 배우겠습니다 **
댓글
댓글 쓰기