라벨이 크롤링방법인 게시물 표시

크롤링_ 인스타그램( #서울맛집추천) with 파이썬

이미지
목적  : 인스타그램에서 올라오는 (#서울맛집추천) 키워드 관련 다양한 데이터를 수집한 후 분석하겠습니다. 이를 통해 최근 게시물 500개를 통해 사람들이 '서울맛집 동향'을 살펴보도록 하겠습니다. + 인스타그램에서 키워드 검색하고 그 결과 저장하는 방법  

크롤링_4 = 무선청소기 비교 with 파이썬 (단위 통일시키기)

이미지
  | 참고서적: 직장인을 위한 데이터 분석 실무 with 파이썬| 목적  : 여러 제조사별 무선청소기의 가격과 성능에 대한 데이터를 수집하고, 이를 분석하는 과정을 통해 각자의 상황에 맞는 제품군이 무엇인지 분석 +  단위 통일하는 방법 

크롤링_3 = 무선청소기 비교 with 파이썬 (데이터 분리 및 추출해서 정리하기)

이미지
  | 참고서적: 직장인을 위한 데이터 분석 실무 with 파이썬| 목적  : 여러 제조사별 무선청소기의 가격과 성능에 대한 데이터를 수집하고, 이를 분석하는 과정을 통해 각자의 상황에 맞는 제품군이 무엇인지 분석 + 데이터 정돈 및 정리하는 방법 

크롤링_2 = 무선청소기 비교 with 파이썬

이미지
| 참고서적: 직장인을 위한 데이터 분석 실무 with 파이썬| 목적 : 여러 제조사별 무선청소기의 가격과 성능에 대한 데이터를 수집하고, 이를 분석하는 과정을 통해 각자의 상황에 맞는 제품군이 무엇인지 분석 + 책에 나온 예제 6-14) tqdm 오류 수정하는 방법

크롤링하기_1 = 무선청소기 비교 with 파이썬

이미지
참고서적: 직장인을 위한 데이터 분석 실무 with 파이썬 목적 : 여러 제조사별 무선청소기의 가격과 성능에 대한 데이터를 수집하고, 이를 분석하는 과정을 통해 각자의 상황에 맞는 제품군이 무엇인지 분석 + 책에 나온 예제 6-2) 오류를 수정하는 방법    1. 페이지 크롤링 먼저, 다나와에 나와 있는 무선청소기를 크롤링하는 방법  1)selenium으로 다나와 검색 결과 URL 접속  ** 책에서 driver가 browser로 나와있어 실행이 안됩니다. 이유는 간단하죠. browser로 하려면 맨아래에도 browser.get(url) 해야 실행이됩니다. 저는 driver로 맞춰주었습니다.  2)웹 페이지의 HTML 정보 가져와 무선청소기 정보 가져오기    검색한 태그의 상품만 조회하도록 F12를 통해 상위 태그를 조금씩 추가하면 한페이지에 원하는 상품이 40개라는 결과를 얻습니다. (책에는 30개라고 되어 있는데, 한 페이지에 담긴 상품의 갯수가 달라서 그런거같아요) 3)정보 가져오기(상품명, 스펙목록,가격) 먼저 상품명은 [7]번에 보면 title 로 변수를 정해주고, prod_items[0] 명령으로 첫 번째 태그를 출력해야합니다. 그중에 <p claa="prod_name"> 중에서도 <a> 태그에 상품명 정보가 들어있어서 위의[7]과 같이 입력합니다.  그리고 함수 select를 통해서 특정 정보만을 가져오고 strip()으로 공백으로 없애줍니다. 가격 정보의 경우는 replace()함수로 구분 기호를 제거 하였습니다.  가끔 저런 구분 구호로 인해 데이터 분석 중 오류가 생기는 경우가 있어서, 모든걸 통일해주는건 굉장히 중요해요.  4) 반복문으로 검색결과에 대한 상품 정보 추출  try, except 를 쓰는 이유는 해당되는 데이터가 없는 경우, 오류가 나지 않도록 만듭니다.  append()함수로 각 리스트 요소를 하나...