2023/11 4

네이버 크롤링 연결 제한 푸는법

크롤링할게 많아서 엄청하고 있는데... 하다 보니까 제한이 걸렸다 ㅠㅠ 처음에는 아이디만 바꾸면 되는 줄 알고 다른 네이버 아이디로 로그인했는데, 좀 되는 듯 보이다 다시 안된다;; 그래서 집 가서 다시 해보니 잘 된다!! 근데 문제는 또 돌리면 이런 에러가 뜬다 .... 아니 그러면 어떻게 하라구 !!! 물론 폰 핫스팟을 켜서 ip를 바꿔주면 되는데, 그것도 또 막히니까 ㅠㅠ 그래서 Expressvpn에서 Ip를 큰맘 먹고 구매하려는데.... 오이오이... 너무 비싼 거 아니냐구 그래서 이것저것 찾다가 꿀 사이트를 발견해서 짧게 소개하려고 한다. 두둥 탁! https://www.touchvpn.net/ Touch VPN Your real status: Unprotected IP: ISP: Locatio..

데이터/크롤링 2023.11.30

[Python] requests로 네이버 데이터랩 크롤링

학교에서 하는 프로젝트가 서서히 끝나가서, 이제 조금식 여유가 생기고 있다. 이제 다시 내 프로젝트에 집중을 하자 !! ( 문제는 했던 것들이 기억 안남...) 내 개인 프로젝트는 네이버 데이터들을 분석하는 것이다. 분석을 하려면 당연히 데이터가 필요하기때문에 자연스럽게 크롤링도 많이 하게된다. api로 가져 올 수 없는게 많아 네이버 데이터랩에서 크롤링을 하는중 ㅎㅁㅎ 예전에 데이터랩에서 카테고리별 top 500 keyword를 추출한 적 있었는데, 시간이 엄청 오래오래 걸린 기억이 있다 ㅠㅠ 아무래도 selenium 방식으로 하다보니 시간을 너무 많이 쓰게된다... 그리고 현재 지금, top 500 keyword를 업데이트 해야하는데 selenium으로 하면 정신 나갈거 같아 requsests 방식으..

데이터/크롤링 2023.11.10

[Python] os/shutil 라이브러리 정리

이 라이브러리들을 엄청 자주쓰지는 않지만 가끔 쓸 때 매일 까먹는다.그래서 간단하게 가장 기본적이고 핵심적인 os/shutil 라이브러리 함수를 정리해보았다.이거 익숙해지면 폴더 관련해서 노가다 안해도 된다 ...ㅎㅎ!!  가장 먼저 os,shutil의 라이브러리를 호출한다.import osimport shutil  - 경로 확인[현재 작업 경로]os.getcwd() # 현재 작업 경로지금 실행 파일의 작업 경로가 나온다  [해당 경로의 파일들 확인]os.listdir() #해당 경로의 파일들 확인현재 경로상의 파일 리스트이다.   os.listdir(path= '/Users/jerim/Desktop/따릉이') # path = "찾고자 하는 경로"만일 특정 경로의 파일 리스트를 보고싶을 때는 p..

CS 2023.11.09

Chat GPT 모델 발전

Chat GPT는 Chat Generative Pre-trained Transformer의 약자로 대화형 인공지능이다. 어떻게 하면 GPT를 더 잘 쓰고 잘 이용할까에 대한 주제로 글을 써 볼 생각이다. 오늘은 Chat GPT까지의 모델 발전들을 포스팅하려고 한다. Chat GPT는 레전드다 ... !! [Chat GPT까지의 모델 발전] 1. RNN(Recurrent Neural Network) : 시계열 데이터를 분석하는 알고리즘으로 과거의 데이터가 현재에 영향을 미친다. time step이 길어지는 경우 정보가 뒤로 충분히 전달되지 못하는 문제 (텍스트가 엄청 많은 경우) 2. LSTM (Long Short-Term Memory) : LSTM은 RNN 변형으로 원리는 동일하지만, 좀 더 나은 메모리..

Chat GPT 2023.11.08