구글드라이브 import
from google.colab import drive
drive.mount('/content/drive')
필요한 라이브러리 한글 가능 import
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_csv('/content/drive/MyDrive/위치/Mall_Customers.csv')
X값 설정
X=df.iloc[:,3:]
Dendrogram 그리고, 최적의 클러스터 개수를 찾아봅니다.
필요한 라이브러리 먼저 import 합니다.
import scipy.cluster.hierarchy as sch
sch.dendrogram(sch.linkage(X,method='ward'))
plt.title('Dendrogram')
plt.xlabel('Customers')
plt.ylabel('Euclidean Distances')
plt.show()
Training the Hierarchical Clustering model
from sklearn.cluster import AgglomerativeClustering
hc = AgglomerativeClustering(n_clusters = 5)
y_pred=hc.fit_predict(X)
df['Group']=y_pred
df
그루핑 정보를 확인
plt.scatter(X.values[y_pred == 0, 0], X.values[y_pred == 0, 1], s = 100, c = 'red', label = 'Cluster 1')
plt.scatter(X.values[y_pred == 1, 0], X.values[y_pred == 1, 1], s = 100, c = 'blue', label = 'Cluster 2')
plt.scatter(X.values[y_pred == 2, 0], X.values[y_pred == 2, 1], s = 100, c = 'green', label = 'Cluster 3')
plt.scatter(X.values[y_pred == 3, 0], X.values[y_pred == 3, 1], s = 100, c = 'cyan', label = 'Cluster 4')
plt.scatter(X.values[y_pred == 4, 0], X.values[y_pred == 4, 1], s = 100, c = 'magenta', label = 'Cluster 5')
plt.title('Clusters of customers')
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')
plt.legend()
plt.show()
'머신러닝' 카테고리의 다른 글
colab에서 구글 드라이브의 csv 파일 읽기 (0) | 2022.03.28 |
---|---|
구글 Colab 을 이용한 파이썬 개발 환경 설정 (0) | 2022.03.28 |
K-Means Clustering 예시풀이 (0) | 2022.03.28 |
K-Means Clustering 설명, 알고리즘 (0) | 2022.03.28 |
Decision Tree (0) | 2022.03.28 |