전체 글 205

데이터 분석 이상치 처리 (Z-score,IQR)

이상치 처리 방법 제거 : 이상치를 제거하는 방법이다. 간단하지만 유효한 데이터일 경우 손실이 발생. 대체 : 이상치를 대체하는 방법이다. 평균, 중앙값, 최빈값 등으로 대체하여 사용. 범주화 : 연속형 변수를 구간별로 나누고 이상치를 특정 구간에 할당. 변환 : 이상치를 왜곡시키거나 조정한다. ex ) 로그 변환 이 포스터에 제거 방법에 대해 다룰 예정이다. 이상치 제거에는 여러 방법이 있는데 사분위수 방법과 Z-score 방법에 대해 알아보자. 1. 사분위수 방법 먼저 데이터를 오름차순으로 정렬한다. 그리고 25%,75%(Q1,Q3)에 해당하는 위치 값을 구한다. 그러면 IQR (IQR = Q3-Q1)의 값을 구할 수 있는데 여기에 가중치를 곱한 후 범위에 벗어나는 값을 이상치로 처리한다. 즉 , d..

[Python] 카카오 api로 나에게 메시지 보내기 (+ 메시지 템플릿)

카카오 api를 이용해서 나에게 메시지를 보내보자 ^o^ https://developers.kakao.com/ Kakao Developers 카카오 API를 활용하여 다양한 어플리케이션을 개발해보세요. 카카오 로그인, 메시지 보내기, 친구 API, 인공지능 API 등을 제공합니다. developers.kakao.com 우선 여기에 접속 하고 로그인을 한다. 내 애플리케이션에 들어간다음 애플리케이션 추가하기를 누른다. 그럼 이제 이런 화면이 뜨는데 잘 적어준다. 앱키들은 내 정보들이니까 잘 보호를 하자. 이제 access_token을 얻어보자. https://localhost:3000 메뉴에 보면 카카오 로그인이 있는데 이걸 눌러줘서 이렇게 바꿔줬다. 카카오 로그인 > 동의항목에가서 카카오 메시지 전송 설..

Open API 2023.10.18

cmd에서 jupyter notebook 갑자기 안 열림

오늘도 평화롭게 주피터를 키고 코드를 두들기려했는데, 갑자기 에러가 떴다...(뭐지...?? 오늘 아침만해도 잘 됐던거 같은디... ) 에러코드는 TypeError: warn() missing 1 required keyword-only argument: 'stacklevel' 최근에 경로 바꾸고 막 이상한 짓 해서 그런 줄 알았는데, 다행히 그런건 아니였다. pip uninstall traitletspip install traitlets==5.9.0이런 경우 가볍게  cmd에 uninstall traitlets하고 , 다시 새로운 버전을 깔아주면 된다. 이렇게 했더니 이제 잘된다.다시 만나서 반갑다 주피터야 ㅠㅠ (참고 자료)https://github.com/microsoft/azuredatastudio..

컴퓨터 에러 2023.10.18

[Python] selenium 없이 스크롤 하는 법 (네이버쇼핑)

0 제모제 1 유아세탁세제 2 기저귀휴지통 3 카테킨 4 파우더통 ... 1607 잡화 1608 의류 1609 여성 1610 패션 1611 생활 이 keyword로 네이버 쇼핑에 검색 한 후 Top 100 정도의 가격을 구해 평균을 내보고 싶다. 가장 단순하게 시도를 먼저 해보자. tmp = "키보드" url = (" https://search.shopping.naver.com/search/all?frm=NVSCPRO&origQuery& " "pagingSize=80&" "&productSet=total&" f"query={tmp}&" "sort=rel&" "timestamp=&" "viewType=list") headers={'User-agent': 'Mozilla/5.0'} response = req..

데이터/크롤링 2023.10.15

파이썬 판다스 (시리즈/데이터프레임/인덱싱/멀티인덱싱)

이번 글은 이수안님 판다스 강의 정리 (예전에 정리한건데 게을러서 이제 정리...) https://www.youtube.com/watch?v=lG8pEwvYwCw 언제나 그렇듯 기본 라이브러리 호출 import numpy as np import pandas as pd Series(시리즈) [1] 시리즈 기본 시리즈는 데이터 구조 중 하나로, 1차원 배열 형태의 데이트를 나타내는 객체 => 이것들이 모이면 데이터 프레임(Data frame)이 된다 a = pd.Series([1,2,3,4,5]) a a.values, a.index 값은 1~5이고 인덱스는 0~4 [2] 시리즈 인덱스 바꾸기 b = pd.Series([1,2,3,4,5], index=["a","b","c","d","e"]) b b의 인덱스는..