ℹ️ 데이터/크롤링 5

[Python] 네이버 스토어 찜 크롤링 with requests _2탄

전에 1탄의 문제는 network에서 기록된 여러 개의 products 중 한 개의 products만 가져오는 것 였다. 이번 포스터에는 어떻게 한 페이지 안에 모든 찜을 가져오는 방법에 대해 소개하겠다. (1탄을 안 본 사람이 있다면 꼭 보고 오세용... 아니면 이해하기 힘듬 !) import requests cookies = { 'NNB': 'BZQEKFFD3ZGWG', 'ASID': '75100b1e000001840cfb852400000053', 'NV_WETR_LOCATION_RGN_M': '"MDUxMTAxMTg="', 'NaverSuggestUse': 'unuse%26use', 'autocomplete': 'use', 'NV_WETR_LAST_ACCESS_RGN_M': '"MDUxMTAxMTg..

[Python] 네이버 스토어 찜 크롤링 with requests _1탄

전편에 네이버 스토어 정보들을 크롤링하는 법에 대해 포스터를 썼다. (아직 selenium으로 크롤링하는 분 없길...) selenium은 동적으로 해서 뭐든 크롤링하지만, 해당 창에 들어가고 웹 로딩도 기다리고.... 이렇게 하면 시간이 저어엉 마아알 많이 든다. 나는 네이버 데이터들을 모으고 있는데 키워드만 약 5천 개다.... 그러면 5천 개의 웹페이지를 로딩해야 하는데 이건 진짜 아니다 ㅠㅠ ( 그래도 손으로 하는 것보단 나음) 암튼 말이 좀 길어졌는데 웬만한 스토어의 정보는 전에 포스트 방식으로 다 가져올 수 있는데 "찜" 이 자슥만 좀 귀찮게 되어있다. 그래서 오늘은 "찜" 개수를 어떻게 가져오는지 포스팅을 할 예정이다. 전에 했던 기본 베이스들이 필요하기 때문에 모르는 분들은 아래 포스트 먼..

네이버 크롤링 연결 제한 푸는법

크롤링할게 많아서 엄청하고 있는데... 하다 보니까 제한이 걸렸다 ㅠㅠ 처음에는 아이디만 바꾸면 되는 줄 알고 다른 네이버 아이디로 로그인했는데, 좀 되는 듯 보이다 다시 안된다;; 그래서 집 가서 다시 해보니 잘 된다!! 근데 문제는 또 돌리면 이런 에러가 뜬다 .... 아니 그러면 어떻게 하라구 !!! 물론 폰 핫스팟을 켜서 ip를 바꿔주면 되는데, 그것도 또 막히니까 ㅠㅠ 그래서 Expressvpn에서 Ip를 큰맘 먹고 구매하려는데.... 오이오이... 너무 비싼 거 아니냐구 그래서 이것저것 찾다가 꿀 사이트를 발견해서 짧게 소개하려고 한다. 두둥 탁! https://www.touchvpn.net/ Touch VPN Your real status: Unprotected IP: ISP: Locatio..

[Python] requests로 네이버 데이터랩 크롤링

학교에서 하는 프로젝트가 서서히 끝나가서, 이제 조금식 여유가 생기고 있다. 이제 다시 내 프로젝트에 집중을 하자 !! ( 문제는 했던 것들이 기억 안남...) 내 개인 프로젝트는 네이버 데이터들을 분석하는 것이다. 분석을 하려면 당연히 데이터가 필요하기때문에 자연스럽게 크롤링도 많이 하게된다. api로 가져 올 수 없는게 많아 네이버 데이터랩에서 크롤링을 하는중 ㅎㅁㅎ 예전에 데이터랩에서 카테고리별 top 500 keyword를 추출한 적 있었는데, 시간이 엄청 오래오래 걸린 기억이 있다 ㅠㅠ 아무래도 selenium 방식으로 하다보니 시간을 너무 많이 쓰게된다... 그리고 현재 지금, top 500 keyword를 업데이트 해야하는데 selenium으로 하면 정신 나갈거 같아 requsests 방식으..

[Python] selenium 없이 스크롤 하는 법 (네이버쇼핑)

0 제모제 1 유아세탁세제 2 기저귀휴지통 3 카테킨 4 파우더통 ... 1607 잡화 1608 의류 1609 여성 1610 패션 1611 생활 이 keyword로 네이버 쇼핑에 검색 한 후 Top 100 정도의 가격을 구해 평균을 내보고 싶다. 가장 단순하게 시도를 먼저 해보자. tmp = "키보드" url = (" https://search.shopping.naver.com/search/all?frm=NVSCPRO&origQuery& " "pagingSize=80&" "&productSet=total&" f"query={tmp}&" "sort=rel&" "timestamp=&" "viewType=list") headers={'User-agent': 'Mozilla/5.0'} response = req..