머신러닝 17

Facebook의 Prophet을 이용해 아보카도 가격 예측 plot,count plot차트 시각화 하기

데이터는 미국의 아보카도 리테일 데이터 입니다. (2018년도 weekly 데이터) 아보카도 거래량과 가격이 나와 있습니다. 컬럼 설명 : Date - The date of the observation AveragePrice - the average price of a single avocado type - conventional or organic year - the year Region - the city or region of the observation Total Volume - Total number of avocados sold 4046 - Total number of avocados with PLU 4046 sold - PLU는 농산물 코드입니다 4225 - Total number of av..

머신러닝 2022.03.29

WordCloud Visualizing 스팸이메일 단어 워드클라우드

https://dbfoot.tistory.com/173 Naive Bayes 나이브 베이즈와 Vectorizing 벡터라이징을 이용한 스팸 분류 예시 5,574개의 이메일 메시지가 있으며, 스팸인지 아닌지의 정보를 가지고 있다. 컬럼 : text, spam spam 컬럼의 값이 1이면 스팸이고, 0이면 스팸이 아닙니다. 스팸인지 아닌지 분류하는 인공지능을 만들 dbfoot.tistory.com 여기서 이어집니다. from wordcloud import WordCloud, STOPWORDS 스팸만 들어있는 이메일의 내용을 가져와서 화면에 어떤 단어가 많이 나왔는지 시각화 하려 합니다. 데이터프레임에 있는 문자열을 하나의 문자열로 만들어 줘야합니다. 1. 각 행의 문자열을 리스트로 받아옵니다. spam['t..

머신러닝 2022.03.29

Naive Bayes 나이브 베이즈와 Vectorizing 벡터라이징을 이용한 스팸 분류 예시

5,574개의 이메일 메시지가 있으며, 스팸인지 아닌지의 정보를 가지고 있다. 컬럼 : text, spam spam 컬럼의 값이 1이면 스팸이고, 0이면 스팸이 아닙니다. 스팸인지 아닌지 분류하는 인공지능을 만들자 - 수퍼바이즈드 러닝의 분류 문제! 구글드라이브 import from google.colab import drive drive.mount('/content/drive') 필요한 라이브러리 import import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline spam_df=pd.read_csv('/content/drive/MyDrive/위치/emails...

머신러닝 2022.03.29

머신러닝을 이용한 자동차 구매 가격 예측과 joblib이용해 모델 저장하기

다음과 같은 컬럼을 가지고 있는 데이터셋을 읽어서, 어떠한 고객이 있을때, 그 고객이 얼마정도의 차를 구매할 수 있을지를 예측하여, 그 사람에게 맞는 자동차를 보여주려 합니다. 컬럼 : Customer Name Customer e-mail Country Gender Age Annual Salary Credit Card Debt Net Worth (순자산) 예측하고자 하는 값 : Car Purchase Amount 구글드라이브 import from google.colab import drive drive.mount('/content/drive') 필요한 라이브러리 import import numpy as np import pandas as pd import matplotlib.pyplot as plt im..

머신러닝 2022.03.28

colab에서 구글 드라이브의 csv 파일 읽기

구글드라이브 import(필수) from google.colab import drive drive.mount('/content/drive') 기다리시면 아래와 같은 창이 나옵니다. 첫번째 방법(한줄이지만 경로와 csv파일 다 적어줘야 한다.) 작업중 한개의 csv파일을 불러온다면 이거 추천 pd.read_csv('csv파일 위치 경로') 두번째 방법 미리 경로 설정을 미리하고 나중에 csv파일만 가져오는 방법. import os os.chdir('현재 경로') 판다스 임포트 해준 후 import pandas as pd csv파일 불러오기 pd.read_csv('csv파일')

머신러닝 2022.03.28

구글 Colab 을 이용한 파이썬 개발 환경 설정

파이썬 머신러닝을 통한 데이터 마이닝의 필수인 google colab 환경 설정 1. 구글 계정 생성하여 지메일 로그인 https://gmail.com 으로 이동하여, 구글 계정을 생성하고 지메일 로그인 한다. 이미 계정이 있으면, 지메일에 로그인 한다. 2. 구글 코랩 google colab 사이트로 이동 (구글 로그인) "Google 드라이브" 탭을 선택하고, 테스트로 "새노트" 클릭하여, 파일 하나 만들어보자. 잘 만들어지면 다 되었다. 구글 코랩 colab 연동 3. 구글드라이브를 실행 지메일의 우측 상단의 점9개 모양을 클릭 아래 앱들 중에서, 드라이브 앱을 클릭한다 구글 코랩 Colab 파이썬 데이터분석 이직 취업 전문 교육 4. 구글 드라이브에서, 실습을 위한 "새폴더" 새로 생성 새로만들기..

머신러닝 2022.03.28

Hierarchical Clustering 과 Dendrogram 보기

구글드라이브 import from google.colab import drive drive.mount('/content/drive') 필요한 라이브러리 한글 가능 import import numpy as np import pandas as pd import matplotlib.pyplot as plt df=pd.read_csv('/content/drive/MyDrive/위치/Mall_Customers.csv') X값 설정 X=df.iloc[:,3:] Dendrogram 그리고, 최적의 클러스터 개수를 찾아봅니다. 필요한 라이브러리 먼저 import 합니다. import scipy.cluster.hierarchy as sch sch.dendrogram(sch.linkage(X,method='ward')) ..

머신러닝 2022.03.28

K-Means Clustering 설명, 알고리즘

Unsupervised Learning 입니다 k개의 그룹을 만든다. 즉, 비슷한 특징을 갖는 것들끼리 묶는 것 다음을 2개, 3개, 4개 그룹 등등 원하는 그룹으로 만들 수 있다. 알고리즘 또 다시 중심에 직교하는 선을 긋고, 자신의 영역안에 있는 것들을 자신의 색으로 바꾼다. 중심을 이동해서, 영역을 나눴는데, 나눈 영역안에 다른 카테고리가 더 이상 나타나지 않으면, 끝냅니다. Random Initialization Trap 다음과 같은 데이터 분포가 있다고 가정했을 때 우리가 원하는 클러스터링 그룹화는, 아래와 같은 것입니다. 원치 않는 그룹화가 되어버렸습니다. 위와 같은 문제를 해결한 것이, K-Means++ 알고리즘입니다. 몇개로 분류할지는 어떻게 결정할까? K의 개수를 정하는 방법 within..

머신러닝 2022.03.28

Decision Tree

계속하여 이것인지 저것인지 결정합니다. 구글드라이브 import from google.colab import drive drive.mount('/content/drive') 필요한 라이브러리 한글 가능 import import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') e..

머신러닝 2022.03.28