전체 글 180

딥러닝(tensorflow)을 이용한 자동차 구매 가격 예측

https://dbfoot.tistory.com/170 머신러닝을 이용한 자동차 구매 가격 예측과 joblib이용해 모델 저장하기 다음과 같은 컬럼을 가지고 있는 데이터셋을 읽어서, 어떠한 고객이 있을때, 그 고객이 얼마정도의 차를 구매할 수 있을지를 예측하여, 그 사람에게 맞는 자동차를 보여주려 합니다. 컬럼 : Custom dbfoot.tistory.com 여기서 이어집니다. 필요한 라이브러리를 import합니다. import tensorflow.keras from keras.models import Sequential from keras.layers import Dense from sklearn.preprocessing import MinMaxScaler import tensorflow as tf ..

딥러닝 2022.03.28

머신러닝을 이용한 자동차 구매 가격 예측과 joblib이용해 모델 저장하기

다음과 같은 컬럼을 가지고 있는 데이터셋을 읽어서, 어떠한 고객이 있을때, 그 고객이 얼마정도의 차를 구매할 수 있을지를 예측하여, 그 사람에게 맞는 자동차를 보여주려 합니다. 컬럼 : Customer Name Customer e-mail Country Gender Age Annual Salary Credit Card Debt Net Worth (순자산) 예측하고자 하는 값 : Car Purchase Amount 구글드라이브 import from google.colab import drive drive.mount('/content/drive') 필요한 라이브러리 import import numpy as np import pandas as pd import matplotlib.pyplot as plt im..

머신러닝 2022.03.28

colab에서 구글 드라이브의 csv 파일 읽기

구글드라이브 import(필수) from google.colab import drive drive.mount('/content/drive') 기다리시면 아래와 같은 창이 나옵니다. 첫번째 방법(한줄이지만 경로와 csv파일 다 적어줘야 한다.) 작업중 한개의 csv파일을 불러온다면 이거 추천 pd.read_csv('csv파일 위치 경로') 두번째 방법 미리 경로 설정을 미리하고 나중에 csv파일만 가져오는 방법. import os os.chdir('현재 경로') 판다스 임포트 해준 후 import pandas as pd csv파일 불러오기 pd.read_csv('csv파일')

머신러닝 2022.03.28

구글 Colab 을 이용한 파이썬 개발 환경 설정

파이썬 머신러닝을 통한 데이터 마이닝의 필수인 google colab 환경 설정 1. 구글 계정 생성하여 지메일 로그인 https://gmail.com 으로 이동하여, 구글 계정을 생성하고 지메일 로그인 한다. 이미 계정이 있으면, 지메일에 로그인 한다. 2. 구글 코랩 google colab 사이트로 이동 (구글 로그인) "Google 드라이브" 탭을 선택하고, 테스트로 "새노트" 클릭하여, 파일 하나 만들어보자. 잘 만들어지면 다 되었다. 구글 코랩 colab 연동 3. 구글드라이브를 실행 지메일의 우측 상단의 점9개 모양을 클릭 아래 앱들 중에서, 드라이브 앱을 클릭한다 구글 코랩 Colab 파이썬 데이터분석 이직 취업 전문 교육 4. 구글 드라이브에서, 실습을 위한 "새폴더" 새로 생성 새로만들기..

머신러닝 2022.03.28

Hierarchical Clustering 과 Dendrogram 보기

구글드라이브 import from google.colab import drive drive.mount('/content/drive') 필요한 라이브러리 한글 가능 import import numpy as np import pandas as pd import matplotlib.pyplot as plt df=pd.read_csv('/content/drive/MyDrive/위치/Mall_Customers.csv') X값 설정 X=df.iloc[:,3:] Dendrogram 그리고, 최적의 클러스터 개수를 찾아봅니다. 필요한 라이브러리 먼저 import 합니다. import scipy.cluster.hierarchy as sch sch.dendrogram(sch.linkage(X,method='ward')) ..

머신러닝 2022.03.28

K-Means Clustering 설명, 알고리즘

Unsupervised Learning 입니다 k개의 그룹을 만든다. 즉, 비슷한 특징을 갖는 것들끼리 묶는 것 다음을 2개, 3개, 4개 그룹 등등 원하는 그룹으로 만들 수 있다. 알고리즘 또 다시 중심에 직교하는 선을 긋고, 자신의 영역안에 있는 것들을 자신의 색으로 바꾼다. 중심을 이동해서, 영역을 나눴는데, 나눈 영역안에 다른 카테고리가 더 이상 나타나지 않으면, 끝냅니다. Random Initialization Trap 다음과 같은 데이터 분포가 있다고 가정했을 때 우리가 원하는 클러스터링 그룹화는, 아래와 같은 것입니다. 원치 않는 그룹화가 되어버렸습니다. 위와 같은 문제를 해결한 것이, K-Means++ 알고리즘입니다. 몇개로 분류할지는 어떻게 결정할까? K의 개수를 정하는 방법 within..

머신러닝 2022.03.28

Decision Tree

계속하여 이것인지 저것인지 결정합니다. 구글드라이브 import from google.colab import drive drive.mount('/content/drive') 필요한 라이브러리 한글 가능 import import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') e..

머신러닝 2022.03.28

Support Vector Machine

아래의 3개 의 선 모두, 분류하는 선이 모두 맞습니다. 그러면 어떤것이 더 정확할까요? 분류선에 가장 가까운 데이터들을, 가장 큰 마진(margin)으로 설정하는 선으로 결정하자. 분류선을 Maximum Margin Classifer 라고 합니다. SVM은 다른 머신러닝 알고리즘과 비교해서 무엇이 특별할까요? 사과인지 오렌지인지 분석하는 문제 일반적인 사과와 오렌지들은, 클래서파이어에서 멀리 분포합니다. 정상적이지 않은 것들, 즉 구분하기 힘든 부분에 있는 것들은 클래서파이어 근처에 있게 되며, 이 데이터들이 레이블링 되어 있으므로, Margin을 최대화 하여 분류하기 때문에, 특이한 것들까지 잘 분류하는 문제에 SVM 이 좋습니다. 구글드라이브 import from google.colab import..

머신러닝 2022.03.28

K-Nearest Neighbor (K-NN)

다음처럼 카테고리가 레이블링 되어 있는 데이터가 존재합니다. 새로운 데이터가 생겼을때, 이를 어디로 분류해야 할까.. 왜 빨간색으로 분류를 했을까요 hyper parameter : 우리가 결정해줘야 하는 파라미터(항목) K-NN 알고리즘 내 주위에 몇개의 이웃을 확인해 볼 것 인가를 결정한다. => K 새로운 데이터가 발생 시, Euclidean distance에 의해서, 가장 가까운 K개의 이웃을 택한다. K개의 이웃의 카테고리를 확인한다. 카테고리의 숫자가 많은 쪽으로, 새로운 데이터의 카테고리를 정해버린다. 구글드라이브 import from google.colab import drive drive.mount('/content/drive') 필요한 라이브러리 한글 가능 import import num..

머신러닝 2022.03.28