일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 유데미코리아
- 유데미부트캠프
- Python
- 자격증
- MySQL
- trouble shooting
- 태블로
- 실습
- 데이터분석
- SQL
- 회고록
- 2024년
- 러닝스푼즈
- 자격증준비
- 데이터시각화
- 코딩테스트
- 프로그래머스
- AICE
- 유데미
- 쿼리테스트
- 데이터분석가
- Tableau Desktop Specialist
- 프리온보딩
- 취업부트캠프
- 파이썬
- 프로젝트
- 코테
- 부트캠프후기
- 스타터스부트캠프
- tableau
- Today
- Total
목록Python (18)
신이 되고 싶은 갓지이

1. 의사결정나무 : 한번에 하나의 설명변수를 사용하여 정확한 규칙들을 생성하는 알고리즘. 다음과 같이 하나의 설명변수의 조건에 따라 가지치기 되어 모든 조건이 한쪽만 갖게 되어 명확한 예측을 할 수 있을 때까지 나누어준다. - 어떤 기준이 올바른 기준일까? 기준점으로 나누었을 때 영역의 복잡도가 낮을 때 한쪽으로 쏠린 단순한 결과가 나왔을 때 수학적으로 엔트로피(복잡도를 표현한 식)이 낮을 때 - 좋은 기준점을 어떻게 정할까? 각 변수를 이용해 가능한 모든 기준점을 통해 구간을 분리 분리된 구간의 복잡도가 가장 낮은 기준점을 선택 위의 과정을 계속 반복 2. 오버피팅 : 학습 데이터를 너무 과도하게 학습하여 outlier에 민감한 결과를 나타냄 - 오버피팅 방지 분류시 각 구역에서 객체의 갯수가 n개 ..
1. 지도학습 : 여러 feature(input variable)의 패턴을 파악하여 target(target variable)을 예측. 지도학습의 종류는 선형회귀, KNN, RandomForest, Xgboost, Neural Network등이 있다. 1) KNN(k 근접 이웃) 1. KNN 알고리즘 프로세스 가장 가까운 k개의 점을 찾는다 (k는 마음대로 설정 가능) k개의 점이 어느 target에 속해있는지 확인 많은 범주 쪽으로 분류 2. k값의 결정 k가 너무 작으면 노이즈에 민감한 과적합(overfitting)의 우려가 있음 k가 너무 크면 지역적 구조를 파악 하 수 있는 능력을 잃어 과소적합(underfitting)의 우려가 있음 검증 데이터에 대한 에러가 가장 낮은 적절한 k를 찾아야 우수한..

Clustering (군집화) : 거리별로 데이터를 묶는 작업 1) K-means 주어진 값들 사이의 거리 혹은 유사성을 이용하여 분류 전체 데이터를 K개의 집단으로 그룹화 데이터를 기준점 중심으로 Euclidean 거리가 최소가 되도록 K개의 그룹으로 군집 (맨해튼 등 다른 거리법도 존재) 군집 별 중심 값에서 중심과의 거리를 기반으로 데이터를 분류하는 군집기법 거리를 이용한 분류로, 범주형 변수를 다루기 좋은 방법은 아님 짧은 계산 시가능로 반복된 작업 수행 주어진 자료에 대한 사전정보 없이 의미 있는 자료구조 찾기 가능 - 알고리즘 작동 방법 초기 K개의 랜덤한 군집 중심 선택 값들의 거리를 비교하고 가까운 군집에 할당 새로운 군집의 중심 계산 재정의 된 중심값 기준으로 다시 거리기반의 군집 재분류..

1. 공분산과 상관계수 1) 특징 - 먄약 x,y가 독립이면 공분산은 0 - 단, 공분산은 x와 y의 크기에 영향을 받기 때문에 상관성은 낮지만 절대적 점수가 높은 공분산이 반대의 경우보다 높게 나올 수 있음 - 상관계수는 공분산의 단점을 보완하여 -1에서 1까지의 범위로 정규화 2) 상관관계와 인과관계 - 상관관계는 두 변수 사이에서 보여지는 상관성만 나타낸것 - 인과관계는 x떄문에 y가 발생 - 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인 가능 2. 차원축소 1) 차원축소 : 3차원에서 2차원으로 차원을 줄이는 작업 ✔️ 차원축소를 하는 이유 - 시각적 용이함 - 변수의 조합을 통해 새로운 변수 발견 - 단, 데이터 특징이 많아지면 이를 채우기 위핸 데이터 수도 많아야함(오버피팅 문제..

1. 데이터 요청하기 # API를 이용해 자료를 받아오기 위힌 requests 라이브러리 import requests # 받은 API 인증키를 입력 apikey = '인증키' # 요청할 URL 주소를 만들기 # 한번에 최대 1천개까지만 가능하므로, 먼저 1부터 1000번 까지의 데이터를 가져온다 startnum = 1 endnum = 1000 url1 = f'http://openapi.seoul.go.kr:8088/{apikey}/json/bikeList/{startnum}/{endnum}/' # 자료 요청 json1 = requests.get(url1).json() # 데이터 요청 타입에 따라 변경할 수 있음 ex)텍스트 : .txt() # 데이터 확인 json1 아래는 서울시 공공자전거의 실시간 대여..
# 일시를 관리하는 datetime 라이브러리 from datetime import datetime 1. 문자를 입력한 날짜 형태로 날짜 타입으로 변경 - datetime.strptime('날짜str', str형태) %Y : 연도(4자리) %m: 월(2자리) %d: 일자(2자리) %H : 시간 %M : 분 %S : 초 ex) str형태 %Y-%m-%d %H:%M:%S * m의 대문자 여부를 잘 확인해야한다! 소문자는 월, 대문자는 분을 의미한다. date_str = str(20190601) # 숫자가 아닌 문자로 입력 date = datetime.strptime(date_str, "%Y%m%d") date → datetime.datetime(2019, 6, 1, 0, 0) date_str = '2019-..
1. 자주 사용하는 옵션 - pd.read_excel('파일경로', 옵션1 = 값1, 옵션2 = 값2 ....) index_col : 컬럼인덱스번호 (몇번째 컬럼을 인덱스로 지정할 것인지 선택) header : row인덱스번호 (몇번째 row 부터 표 데이터로 볼 것인지 선택) thousands : 천 단위 기호 ',' 사용 (xxx,xxx를 문자가 아닌 숫자로 인식) 2. 폴더에 있는 모든 파일을 불러와서 병합 참고로 현재 버전에서 dataFrame은 append 사용이 되지 않기 때문에 concat을 활용해야한다. 이에 대한 내용은 https://godji.tistory.com/59 의 2번을 통해 자세히 확인 할 수 있다. import os # os.listdir()을 이용해 특정 경로, 파일에 있..

1. 데이터 불러오기 데이터를 불러 올 때 가장 많이 발생하는 에러는 encoding 에러인것 같다. 가장 많이 사용 하는 데이터 형태는 아무래도 .csv 일텐데 엑셀에서 저장한 csv 파일의 경우 가장 일반적인 encoding = 'utf-8'이 아닌 encoding = 'cp949'을 사용하면 정상적으로 불러와지는 경우가 있다. # 데이터 불러오기 import pandas as pd file = './data/gamestats.csv' df = pd.read_csv(file, encoding = 'cp949') 2. append() Method의 삭제 pandas 2.0.0 버전 이후부터 데이터 프레임에서 append() Method가 완전히 제거되었기 때문에 더 이상 작동하지 않는다. 이로 인해 이..