일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 유데미코리아
- 데이터분석가
- 유데미
- 프로젝트
- 프로그래머스
- 부트캠프후기
- 파이썬
- 자격증준비
- 자격증
- AICE
- 실습
- SQL
- tableau
- trouble shooting
- 데이터시각화
- 스타터스부트캠프
- 2024년
- 러닝스푼즈
- Tableau Desktop Specialist
- Python
- 코테
- 태블로
- MySQL
- 취업부트캠프
- 회고록
- 코딩테스트
- 유데미부트캠프
- 쿼리테스트
- 프리온보딩
- 데이터분석
- Today
- Total
목록ALL (78)
신이 되고 싶은 갓지이
참 매일 꾸준히 무엇을 하는것은 너무 어려운것 같다.. 매달 회고록을 쓴다고 마음 먹었는데 2월 회고를 처음이자 끝으로 하나도 작성을 하지 못 했다😂 몰아서 한번에라도 작성해야지.. 03월원래는 빠르면 2월말, 늦으면 3월 초에 시작되는 프로젝트가 무산되었지만 금방 다른 프로젝트에 투입결정이 나게 되었다. 사후관리 프로세스에 대한 컨설팅으로 대출 이후 연체시작시점부터의 차주관리 프로세스 전반에 대한 현황 분석과 이에 대한 컨설팅을 진행하는 프로젝트이다. 거기다 지주회사의 프로젝트이다보니 자회사 각각의 프로세스를 전부 파악해야하기에 조금 걱정이 있었다. 거기다 프로젝트 기간이 2.5개월로 매우 짧아서 더욱 걱정이다!! 나는 여기서 1.5개월로 배정받았는데 아마 이후 예정된 프로젝트에 투입되느라 그런것으로..
벌써 입사한지 한달이 지나갔다. 입사하자마자 보낸 설연휴+생일반차로 거의 반은 놀먹한것 같긴하지만 그래도 나름 바쁘게 보냈다. 난 운이 좋게도 같이 입사한 다른 주임님들이 계셔서 외롭진 않았다. 다들 당연 경력직이셨지만 아주 완벽하게 이 직무에 맞는 경력은 아니었다. 한분은 '데이터분석'이라는 키워드가 맞으셨고, 다른 한분은 '신용평가'와 '금융업권'이라는 키워드가 맞은걸로 보였다. 나는 둘다이긴 한데 짧은 경력과 계약직이라는 점 때문에 뭐랄까 어설피 알고 있는 부분들이었다. 입사하고 4일간 '여신심사전략'과 'CSS모델링'에 대해 교육을 받고서 배운거 정리하는데만 일주일정도 공부를 해야했다. 이러한 교육시간이 너무 좋았는데, 왜냐하면 이전 회사에서는 계약직이기 때문에 그런지는 모르겠지만 업권이나 시스템..

1. 의사결정나무 : 한번에 하나의 설명변수를 사용하여 정확한 규칙들을 생성하는 알고리즘. 다음과 같이 하나의 설명변수의 조건에 따라 가지치기 되어 모든 조건이 한쪽만 갖게 되어 명확한 예측을 할 수 있을 때까지 나누어준다. - 어떤 기준이 올바른 기준일까? 기준점으로 나누었을 때 영역의 복잡도가 낮을 때 한쪽으로 쏠린 단순한 결과가 나왔을 때 수학적으로 엔트로피(복잡도를 표현한 식)이 낮을 때 - 좋은 기준점을 어떻게 정할까? 각 변수를 이용해 가능한 모든 기준점을 통해 구간을 분리 분리된 구간의 복잡도가 가장 낮은 기준점을 선택 위의 과정을 계속 반복 2. 오버피팅 : 학습 데이터를 너무 과도하게 학습하여 outlier에 민감한 결과를 나타냄 - 오버피팅 방지 분류시 각 구역에서 객체의 갯수가 n개 ..
1. 지도학습 : 여러 feature(input variable)의 패턴을 파악하여 target(target variable)을 예측. 지도학습의 종류는 선형회귀, KNN, RandomForest, Xgboost, Neural Network등이 있다. 1) KNN(k 근접 이웃) 1. KNN 알고리즘 프로세스 가장 가까운 k개의 점을 찾는다 (k는 마음대로 설정 가능) k개의 점이 어느 target에 속해있는지 확인 많은 범주 쪽으로 분류 2. k값의 결정 k가 너무 작으면 노이즈에 민감한 과적합(overfitting)의 우려가 있음 k가 너무 크면 지역적 구조를 파악 하 수 있는 능력을 잃어 과소적합(underfitting)의 우려가 있음 검증 데이터에 대한 에러가 가장 낮은 적절한 k를 찾아야 우수한..

Clustering (군집화) : 거리별로 데이터를 묶는 작업 1) K-means 주어진 값들 사이의 거리 혹은 유사성을 이용하여 분류 전체 데이터를 K개의 집단으로 그룹화 데이터를 기준점 중심으로 Euclidean 거리가 최소가 되도록 K개의 그룹으로 군집 (맨해튼 등 다른 거리법도 존재) 군집 별 중심 값에서 중심과의 거리를 기반으로 데이터를 분류하는 군집기법 거리를 이용한 분류로, 범주형 변수를 다루기 좋은 방법은 아님 짧은 계산 시가능로 반복된 작업 수행 주어진 자료에 대한 사전정보 없이 의미 있는 자료구조 찾기 가능 - 알고리즘 작동 방법 초기 K개의 랜덤한 군집 중심 선택 값들의 거리를 비교하고 가까운 군집에 할당 새로운 군집의 중심 계산 재정의 된 중심값 기준으로 다시 거리기반의 군집 재분류..

1. 공분산과 상관계수 1) 특징 - 먄약 x,y가 독립이면 공분산은 0 - 단, 공분산은 x와 y의 크기에 영향을 받기 때문에 상관성은 낮지만 절대적 점수가 높은 공분산이 반대의 경우보다 높게 나올 수 있음 - 상관계수는 공분산의 단점을 보완하여 -1에서 1까지의 범위로 정규화 2) 상관관계와 인과관계 - 상관관계는 두 변수 사이에서 보여지는 상관성만 나타낸것 - 인과관계는 x떄문에 y가 발생 - 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인 가능 2. 차원축소 1) 차원축소 : 3차원에서 2차원으로 차원을 줄이는 작업 ✔️ 차원축소를 하는 이유 - 시각적 용이함 - 변수의 조합을 통해 새로운 변수 발견 - 단, 데이터 특징이 많아지면 이를 채우기 위핸 데이터 수도 많아야함(오버피팅 문제..

1. 데이터 요청하기 # API를 이용해 자료를 받아오기 위힌 requests 라이브러리 import requests # 받은 API 인증키를 입력 apikey = '인증키' # 요청할 URL 주소를 만들기 # 한번에 최대 1천개까지만 가능하므로, 먼저 1부터 1000번 까지의 데이터를 가져온다 startnum = 1 endnum = 1000 url1 = f'http://openapi.seoul.go.kr:8088/{apikey}/json/bikeList/{startnum}/{endnum}/' # 자료 요청 json1 = requests.get(url1).json() # 데이터 요청 타입에 따라 변경할 수 있음 ex)텍스트 : .txt() # 데이터 확인 json1 아래는 서울시 공공자전거의 실시간 대여..
# 일시를 관리하는 datetime 라이브러리 from datetime import datetime 1. 문자를 입력한 날짜 형태로 날짜 타입으로 변경 - datetime.strptime('날짜str', str형태) %Y : 연도(4자리) %m: 월(2자리) %d: 일자(2자리) %H : 시간 %M : 분 %S : 초 ex) str형태 %Y-%m-%d %H:%M:%S * m의 대문자 여부를 잘 확인해야한다! 소문자는 월, 대문자는 분을 의미한다. date_str = str(20190601) # 숫자가 아닌 문자로 입력 date = datetime.strptime(date_str, "%Y%m%d") date → datetime.datetime(2019, 6, 1, 0, 0) date_str = '2019-..