분류 전체보기 205

[Python] 네이버 스토어 찜 크롤링 with requests _2탄

전에 1탄의 문제는 network에서 기록된 여러 개의 products 중 한 개의 products만 가져오는 것 였다. 이번 포스터에는 어떻게 한 페이지 안에 모든 찜을 가져오는 방법에 대해 소개하겠다. (1탄을 안 본 사람이 있다면 꼭 보고 오세용... 아니면 이해하기 힘듬 !) import requests cookies = { 'NNB': 'BZQEKFFD3ZGWG', 'ASID': '75100b1e000001840cfb852400000053', 'NV_WETR_LOCATION_RGN_M': '"MDUxMTAxMTg="', 'NaverSuggestUse': 'unuse%26use', 'autocomplete': 'use', 'NV_WETR_LAST_ACCESS_RGN_M': '"MDUxMTAxMTg..

데이터/크롤링 2023.12.06

[Python] 네이버 스토어 찜 크롤링 with requests _1탄

전편에 네이버 스토어 정보들을 크롤링하는 법에 대해 포스터를 썼다. (아직 selenium으로 크롤링하는 분 없길...) selenium은 동적으로 해서 뭐든 크롤링하지만, 해당 창에 들어가고 웹 로딩도 기다리고.... 이렇게 하면 시간이 저어엉 마아알 많이 든다. 나는 네이버 데이터들을 모으고 있는데 키워드만 약 5천 개다.... 그러면 5천 개의 웹페이지를 로딩해야 하는데 이건 진짜 아니다 ㅠㅠ ( 그래도 손으로 하는 것보단 나음) 암튼 말이 좀 길어졌는데 웬만한 스토어의 정보는 전에 포스트 방식으로 다 가져올 수 있는데 "찜" 이 자슥만 좀 귀찮게 되어있다. 그래서 오늘은 "찜" 개수를 어떻게 가져오는지 포스팅을 할 예정이다. 전에 했던 기본 베이스들이 필요하기 때문에 모르는 분들은 아래 포스트 먼..

데이터/크롤링 2023.12.05

개발자 도구 자꾸 꺼지는 현상

크롤링을 하려고 하는데 개발자 도구가 자꾸 꺼진다 ...ㅂㄷㅂㄷ 구글에 검색해보니 Anlab이 원인이였다. 이게 부팅때마다 자동으로 켜져서 개발자 도구를 막는다 ... 장점은 해킹같은거를 잘 차단하겠지만, 단점은 크롤링 못함 ;; 해결방법은 초 간단하다. 간단하게 "자동 시작 안함(컴퓨터 종료 시까지 실행 유지)"로 선택하고 컴퓨터 재부팅하면 된다. 자 이제 잘 뜬다!! 안랩 들어가고 ^^ 인터넷 뱅킹하느라 대부분 이런 저런 보안 프로그램을 많이 깔았을텐데 이런 보안 프로그램의 취약성은 이미 뉴스에도 많이 나왔다. 불필요한 것들은 한번 삭제하는 것도 좋을 것 같다.

컴퓨터 에러 2023.12.05

주피터 노트북(jupyter notebook) Out of Memory 에러

열시미 코딩을 하려고 주피터 노트북을 켰는데 이런 에러가 뜬다 ...    이런 경우 용량이 너무 커서 이런거다. 파일을 바꾸고 셀을 다시 시작하면 간단히 처리 가능하다!   메모리 초과된 파일이 있는 폴더로 들어 온 다음 저기 파일의 경로(노란 형광펜 부분)를 다 지우고 cmd를 검색해주면 바로 cmd가 뜬다.  이제 cmd에 아래처럼 입력해주면 된다.jupyter nbconvert 기존파일명 .ipynb --to notebook --ClearOutputPreprocessor.enable=True --output 변경파일명 .ipynb복붙해서 기존파일명하고 변경파일명을 바꿔서  작성해주자.   나는 4_avg_sale.ipynb 파일이 문제여서 41_avg_sale.ipynb 이렇게  이름만 바꿔서 ..

컴퓨터 에러 2023.12.03

네이버 크롤링 연결 제한 푸는법

크롤링할게 많아서 엄청하고 있는데... 하다 보니까 제한이 걸렸다 ㅠㅠ 처음에는 아이디만 바꾸면 되는 줄 알고 다른 네이버 아이디로 로그인했는데, 좀 되는 듯 보이다 다시 안된다;; 그래서 집 가서 다시 해보니 잘 된다!! 근데 문제는 또 돌리면 이런 에러가 뜬다 .... 아니 그러면 어떻게 하라구 !!! 물론 폰 핫스팟을 켜서 ip를 바꿔주면 되는데, 그것도 또 막히니까 ㅠㅠ 그래서 Expressvpn에서 Ip를 큰맘 먹고 구매하려는데.... 오이오이... 너무 비싼 거 아니냐구 그래서 이것저것 찾다가 꿀 사이트를 발견해서 짧게 소개하려고 한다. 두둥 탁! https://www.touchvpn.net/ Touch VPN Your real status: Unprotected IP: ISP: Locatio..

데이터/크롤링 2023.11.30

[Python] requests로 네이버 데이터랩 크롤링

학교에서 하는 프로젝트가 서서히 끝나가서, 이제 조금식 여유가 생기고 있다. 이제 다시 내 프로젝트에 집중을 하자 !! ( 문제는 했던 것들이 기억 안남...) 내 개인 프로젝트는 네이버 데이터들을 분석하는 것이다. 분석을 하려면 당연히 데이터가 필요하기때문에 자연스럽게 크롤링도 많이 하게된다. api로 가져 올 수 없는게 많아 네이버 데이터랩에서 크롤링을 하는중 ㅎㅁㅎ 예전에 데이터랩에서 카테고리별 top 500 keyword를 추출한 적 있었는데, 시간이 엄청 오래오래 걸린 기억이 있다 ㅠㅠ 아무래도 selenium 방식으로 하다보니 시간을 너무 많이 쓰게된다... 그리고 현재 지금, top 500 keyword를 업데이트 해야하는데 selenium으로 하면 정신 나갈거 같아 requsests 방식으..

데이터/크롤링 2023.11.10

[Python] os/shutil 라이브러리 정리

이 라이브러리들을 엄청 자주쓰지는 않지만 가끔 쓸 때 매일 까먹는다.그래서 간단하게 가장 기본적이고 핵심적인 os/shutil 라이브러리 함수를 정리해보았다.이거 익숙해지면 폴더 관련해서 노가다 안해도 된다 ...ㅎㅎ!!  가장 먼저 os,shutil의 라이브러리를 호출한다.import osimport shutil  - 경로 확인[현재 작업 경로]os.getcwd() # 현재 작업 경로지금 실행 파일의 작업 경로가 나온다  [해당 경로의 파일들 확인]os.listdir() #해당 경로의 파일들 확인현재 경로상의 파일 리스트이다.   os.listdir(path= '/Users/jerim/Desktop/따릉이') # path = "찾고자 하는 경로"만일 특정 경로의 파일 리스트를 보고싶을 때는 p..

CS 2023.11.09

Chat GPT 모델 발전

Chat GPT는 Chat Generative Pre-trained Transformer의 약자로 대화형 인공지능이다. 어떻게 하면 GPT를 더 잘 쓰고 잘 이용할까에 대한 주제로 글을 써 볼 생각이다. 오늘은 Chat GPT까지의 모델 발전들을 포스팅하려고 한다. Chat GPT는 레전드다 ... !! [Chat GPT까지의 모델 발전] 1. RNN(Recurrent Neural Network) : 시계열 데이터를 분석하는 알고리즘으로 과거의 데이터가 현재에 영향을 미친다. time step이 길어지는 경우 정보가 뒤로 충분히 전달되지 못하는 문제 (텍스트가 엄청 많은 경우) 2. LSTM (Long Short-Term Memory) : LSTM은 RNN 변형으로 원리는 동일하지만, 좀 더 나은 메모리..

Chat GPT 2023.11.08

T-test 정리

[T-test] 모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본을 추출한다.그리고 그 표본으로부터 분산과 표준편차를 추출하고 검정하는 방식이다.식을 통해 이해해보자면,  평균의 차이 / 표준 오차의 비율(표본 변화량)이라 보면된다.이렇게 t-value를 얻으면 평균차이의 크기를 알 수 있다.최종 결과는 p-value로 나타낸다.  그럼  p-value는 어떻게 나타낼까 ? 아까 구한 t 값을 가지고 집단의 숫자(자유도)와 원하는 p-value 기준에 따라 결정한다. p-value는 양쪽 극단값의 범위를 설정한다. (p-value가 작아질수록 주장에 대한 신뢰도가 올라간다.)일반적으로 p-value는 0.05(5%)이하면  그 통계를 신뢰 할 수 있다고판단한다. 이를 통해 통계적으로 유..

Network,TCP/IP protocol 기본 개념 (컴퓨터 지식)

Network의 사전적 의미는 통신이 가능한 서로 연결된 장치의 모임이다. [네트워크의 구조] 1. Point-to-Point - 두 장치간의 전용 링크 ex) TV - 리모컨 2. Multipoint - 3개 이상의 특정 기기가 하나의 링크를 공유 [네트워크 범위] 1. PAN (Personal Area Network) - 개인 장치 네트워크 - 매우 제한적이고 짧은 영역 ex) 블루투스, 무선 키보드 2. LAN (Local Area Network) - 개인, 사무실, 학교 등에 있는 호스트 연결 - private 네트워크여서 외부 통제 불가능 - 컴퓨터 자원을 로컬 영역 네트워크에서 공유가능 - 관리자에게 권한이 많아 개인 정보 보호 기능 없음 ex ) 군대 또는 사무실 인트라넷 3. WAN (Wi..

CS 2023.10.24