분류 전체보기 177

T-test 정리

[T-test] 모집단의 분산이나 표준편차를 알지 못할 때, 모집단을 대표하는 표본을 추출한다.그리고 그 표본으로부터 분산과 표준편차를 추출하고 검정하는 방식이다.식을 통해 이해해보자면,  평균의 차이 / 표준 오차의 비율(표본 변화량)이라 보면된다.이렇게 t-value를 얻으면 평균차이의 크기를 알 수 있다.최종 결과는 p-value로 나타낸다.  그럼  p-value는 어떻게 나타낼까 ? 아까 구한 t 값을 가지고 집단의 숫자(자유도)와 원하는 p-value 기준에 따라 결정한다. p-value는 양쪽 극단값의 범위를 설정한다. (p-value가 작아질수록 주장에 대한 신뢰도가 올라간다.)일반적으로 p-value는 0.05(5%)이하면  그 통계를 신뢰 할 수 있다고판단한다. 이를 통해 통계적으로 유..

Network,TCP/IP protocol 기본 개념 (컴퓨터 지식)

Network의 사전적 의미는 통신이 가능한 서로 연결된 장치의 모임이다. [네트워크의 구조] 1. Point-to-Point - 두 장치간의 전용 링크 ex) TV - 리모컨 2. Multipoint - 3개 이상의 특정 기기가 하나의 링크를 공유 [네트워크 범위] 1. PAN (Personal Area Network) - 개인 장치 네트워크 - 매우 제한적이고 짧은 영역 ex) 블루투스, 무선 키보드 2. LAN (Local Area Network) - 개인, 사무실, 학교 등에 있는 호스트 연결 - private 네트워크여서 외부 통제 불가능 - 컴퓨터 자원을 로컬 영역 네트워크에서 공유가능 - 관리자에게 권한이 많아 개인 정보 보호 기능 없음 ex ) 군대 또는 사무실 인트라넷 3. WAN (Wi..

CS 2023.10.24

데이터 분석 이상치 처리 (Z-score,IQR)

이상치 처리 방법 제거 : 이상치를 제거하는 방법이다. 간단하지만 유효한 데이터일 경우 손실이 발생. 대체 : 이상치를 대체하는 방법이다. 평균, 중앙값, 최빈값 등으로 대체하여 사용. 범주화 : 연속형 변수를 구간별로 나누고 이상치를 특정 구간에 할당. 변환 : 이상치를 왜곡시키거나 조정한다. ex ) 로그 변환 이 포스터에 제거 방법에 대해 다룰 예정이다. 이상치 제거에는 여러 방법이 있는데 사분위수 방법과 Z-score 방법에 대해 알아보자. 1. 사분위수 방법 먼저 데이터를 오름차순으로 정렬한다. 그리고 25%,75%(Q1,Q3)에 해당하는 위치 값을 구한다. 그러면 IQR (IQR = Q3-Q1)의 값을 구할 수 있는데 여기에 가중치를 곱한 후 범위에 벗어나는 값을 이상치로 처리한다. 즉 , d..

[Python] 카카오 api로 나에게 메시지 보내기 (+ 메시지 템플릿)

카카오 api를 이용해서 나에게 메시지를 보내보자 ^o^ https://developers.kakao.com/ Kakao Developers 카카오 API를 활용하여 다양한 어플리케이션을 개발해보세요. 카카오 로그인, 메시지 보내기, 친구 API, 인공지능 API 등을 제공합니다. developers.kakao.com 우선 여기에 접속 하고 로그인을 한다. 내 애플리케이션에 들어간다음 애플리케이션 추가하기를 누른다. 그럼 이제 이런 화면이 뜨는데 잘 적어준다. 앱키들은 내 정보들이니까 잘 보호를 하자. 이제 access_token을 얻어보자. https://localhost:3000 메뉴에 보면 카카오 로그인이 있는데 이걸 눌러줘서 이렇게 바꿔줬다. 카카오 로그인 > 동의항목에가서 카카오 메시지 전송 설..

Open API 2023.10.18

cmd에서 jupyter notebook 갑자기 안 열림

오늘도 평화롭게 주피터를 키고 코드를 두들기려했는데, 갑자기 에러가 떴다...(뭐지...?? 오늘 아침만해도 잘 됐던거 같은디... ) 에러코드는 TypeError: warn() missing 1 required keyword-only argument: 'stacklevel' 최근에 경로 바꾸고 막 이상한 짓 해서 그런 줄 알았는데, 다행히 그런건 아니였다. pip uninstall traitletspip install traitlets==5.9.0이런 경우 가볍게  cmd에 uninstall traitlets하고 , 다시 새로운 버전을 깔아주면 된다. 이렇게 했더니 이제 잘된다.다시 만나서 반갑다 주피터야 ㅠㅠ (참고 자료)https://github.com/microsoft/azuredatastudio..

컴퓨터 에러 2023.10.18

[Python] selenium 없이 스크롤 하는 법 (네이버쇼핑)

0 제모제 1 유아세탁세제 2 기저귀휴지통 3 카테킨 4 파우더통 ... 1607 잡화 1608 의류 1609 여성 1610 패션 1611 생활 이 keyword로 네이버 쇼핑에 검색 한 후 Top 100 정도의 가격을 구해 평균을 내보고 싶다. 가장 단순하게 시도를 먼저 해보자. tmp = "키보드" url = (" https://search.shopping.naver.com/search/all?frm=NVSCPRO&origQuery& " "pagingSize=80&" "&productSet=total&" f"query={tmp}&" "sort=rel&" "timestamp=&" "viewType=list") headers={'User-agent': 'Mozilla/5.0'} response = req..

데이터/크롤링 2023.10.15

파이썬 판다스 (시리즈/데이터프레임/인덱싱/멀티인덱싱)

이번 글은 이수안님 판다스 강의 정리 (예전에 정리한건데 게을러서 이제 정리...) https://www.youtube.com/watch?v=lG8pEwvYwCw 언제나 그렇듯 기본 라이브러리 호출 import numpy as np import pandas as pd Series(시리즈) [1] 시리즈 기본 시리즈는 데이터 구조 중 하나로, 1차원 배열 형태의 데이트를 나타내는 객체 => 이것들이 모이면 데이터 프레임(Data frame)이 된다 a = pd.Series([1,2,3,4,5]) a a.values, a.index 값은 1~5이고 인덱스는 0~4 [2] 시리즈 인덱스 바꾸기 b = pd.Series([1,2,3,4,5], index=["a","b","c","d","e"]) b b의 인덱스는..