'분류 전체보기' 카테고리의 글 목록 (4 Page)

2022.09.26· Data/MLDL

6장의 내용을 실습했습니다. 베이스라인 모델 훈련 베이스라인 모델이란 뼈대가 되는 가장 기본적인 모델을 뜻합니다. 이 베이스라인 모델에서 출발해 성능을 점차 향상시키는 방향으로 모델링해보도록 하겠습니다. import pandas as pd # 데이터 경로 data_path = '/kaggle/input/bike-sharing-demand/' train = pd.read_csv(data_path + 'train.csv') test = pd.read_csv(data_path + 'test.csv') submission = pd.read_csv(data_path + 'sampleSubmission.csv') 피처엔지니어링 (데이터 변환) 훈련 데이터와 테스트 데이터에 공통으로 반영해야 하기 때문에, 피처 엔지..

자전거 수요 예측 경진대회

2022.09.26· Data/MLDL

6장의 내용을 실습했습니다. 데이터 둘러보기 dataframe 형태로 훈련, 테스트, 제출 샘플 데이터를 불러옵니다. import numpy as np import pandas as pd # 판다스 임포트 # 데이터 경로 data_path = '/kaggle/input/bike-sharing-demand/' train = pd.read_csv(data_path + 'train.csv') # 훈련 데이터 test = pd.read_csv(data_path + 'test.csv') # 테스트 데이터 submission = pd.read_csv(data_path + 'sampleSubmission.csv') # 제출 샘플 데이터 train.shape, test.shape 훈련데이터가 10,886행 12열로, ..

하이퍼파라미터 최적화

2022.09.19· Data/MLDL

5장의 내용을 실습했습니다. 하이퍼파라미터는 사용자가 직접 설정해야하는 값이다. 모델이 좋은 성능을 내기위해 어떤 하이퍼파라미터가 어떤 값을 가지면 좋을지 찾는 작업이 하이퍼파라미터 최적화이다. 대표적인 최적화방법으로는 그리드서치, 랜덤서치, 베이지안 최적화 세가지가 있다. 그리드 서치 가장 기본적인 하이퍼 파라미터 기법으로, 주어진 하이퍼파라미터를 모두 순회하며 가장 좋은 성능을 내는 값을 찾는 방법이다. 모든 경우의 수를 탐색하기에 시간이 오래 걸린다. 랜덤 서치 하이퍼파라미터를 무작위로 탐색해 가장 좋은 성능을 내는 값을 찾는 기법. 무작위라는 한계 때문에 사용빈도가 낮다. RandomizedSearchCV() 메서드로 수행할 수 있다. 베이지안 최적화 사전 정보를 바탕으로 최적 하이퍼파라미터 값을..

주요 머신러닝 모델

2022.09.19· Data/MLDL

5장의 내용을 실습했습니다. 선형 회귀 모델 독립변수 x와 종속변수 y의 관계를 선형으로 모델링한 것 ( y = wx +b) import numpy as np import matplotlib.pyplot as plt np.random.seed(0) # 시드값 고정 w0 = 5 # y절편 w1 = 2 # 회귀계수 noise = np.random.randn(100, 1) # 노이즈, 표준정규분포를 따르는 데이터 100개를 생성 x = 4 * np.random.rand(100, 1) # 0~4 사이 실숫값 100개 생성 (x값) y = w1*x + w0 + noise # y값 plt.scatter(x, y); # np.random.rand(100, 1) : 0~1 사이의 무작위값 100개 생성, 독립변수 x값..

교차검증

2022.09.19· Data/MLDL

5장의 내용을 실습했습니다. 모델을 훈련만 하고, 성능을 검증해 보지 않으면 두가지 문제가 발생할 수 있습니다. 첫째, 모델이 과대적합될 가능성이 있다. 둘째, 제출 전까지 모델성능을 확인하기 어렵다. 이러한 문제를 막기 위해서 교차검증을 해야합니다. 교차검증이란 훈련데이터를 여러 그룹으로 나누어 일부는 훈련 시, 일부는 검증 시 사용하여 모델 성능을 측정하는 기법입니다. K 폴드 교차 검증 일반적인 교차 검증 기법으로, 전체 훈련 데이터를 K개의 그룹으로 나누고 1개를 검증 데이터로, K-1개를 훈련데이터로 지정 후 평가합니다. 이 과정을 K번 구하고 평균을 구해 최종 평가 점수를 도출합니다. K폴드 교차 검증 시 데이터가 어떻게 나뉘는지 실습했습니다. import numpy as np from skl..

[BigQuery] 데이터 마이닝

2022.07.04· Language/SQL

8장 22강의 내용을 실습했습니다. 샘플 데이터 어소시에이션 분석 (연관성 분석) 어소시에이션 분석 : 데이터마이닝 분야 중 하나인 '상관 규칙 추출'의 대표적 방법으로 상관 규칙을 대량의 데이터에서 찾아내는 것을 의미합니다. (상관 규칙이란 '상품 A를 구매했다면 상품B도 구매한다.'와 같이 시간적 차이와 인과관계를 갖는 규칙을 의미합니다.) 즉, 어소시에이션 분석이란 데이터 내부의 연관성, 즉 상품과 상품간의 상호 관계 또는 종속 관계를 찾아내는 분석법입니다. 이러한 연관성을 파악하면 ‘어떤 상품을 누구에게 팔아야 할 것인지’ 혹은 ‘누가 어떤 상품을 구매할 것인지’를 예측하여 매출을 극대화시킬 수 있습니다. 어소시에이션 분석에 사용되는 지표 지지도 상관 규칙이 어느 정도의 확률로 발생하는지를 나타내..

[BigQuery] 입력 양식 최적화하기

2022.07.01· Language/SQL

6장 16강을 실습한 내용입니다. 샘플데이터 1. 확인 화면에서의 오류율을 집계하는 쿼리 확인 화면에서의 오류율을 집계하는 쿼리/confirm 페이지에서 오류가 발생해 재입력 화면을 출력하는 경우를 집계한다.SELECT COUNT(*) AS confirm_count ,SUM(CASE WHEN status = 'error' THEN 1 ELSE 0 END) AS error_count ,AVG(CASE WHEN status = 'error' THEN 1.0 ELSE 0.0 END) AS error_rate ,SUM(CASE WHEN status = 'error' THEN 1.0 ELSE 0.0 END) / COUNT(DISTINCT session) AS error_per_userfrom sta..

티스토리툴바