https://dbfoot.tistory.com/173
Naive Bayes 나이브 베이즈와 Vectorizing 벡터라이징을 이용한 스팸 분류 예시
5,574개의 이메일 메시지가 있으며, 스팸인지 아닌지의 정보를 가지고 있다. 컬럼 : text, spam spam 컬럼의 값이 1이면 스팸이고, 0이면 스팸이 아닙니다. 스팸인지 아닌지 분류하는 인공지능을 만들
dbfoot.tistory.com
여기서 이어집니다.
from wordcloud import WordCloud, STOPWORDS
스팸만 들어있는 이메일의 내용을 가져와서 화면에 어떤 단어가 많이 나왔는지 시각화 하려 합니다.
데이터프레임에 있는 문자열을 하나의 문자열로 만들어 줘야합니다.
1. 각 행의 문자열을 리스트로 받아옵니다.
spam['text'].tolist()
2. 리스트에 들어있는 문자열을 join 함수 이용해서 하나로 만들어 줍니다.
words_as_one_string=''.join(spam['text'].tolist())
3. 워드 클라우드 만들기
from PIL import Image
#첨부한 이미지를 가져옵니다.
img = Image.open('apple.jpg')
#이미지를 넘파이로 만들어줍니다.
img_mask = np.array(img)
#워드클라우드의 스탑워즈를 내 메모리에 생성해서 사용합니다
my_stopwords = STOPWORDS
my_stopwords.add('subject')
my_stopwords.add('us')
my_stopwords.add('one')
wc = WordCloud(background_color='white',mask=img_mask,stopwords=my_stopwords,max_words=100)
wc.generate(words_as_one_string)
plt.figure(figsize=(10,6))
plt.imshow(wc)
plt.axis('off')
plt.show()
'머신러닝' 카테고리의 다른 글
Facebook의 Prophet을 이용해 아보카도 가격 예측 plot,count plot차트 시각화 하기 (0) | 2022.03.29 |
---|---|
Naive Bayes 나이브 베이즈와 Vectorizing 벡터라이징을 이용한 스팸 분류 예시 (0) | 2022.03.29 |
머신러닝을 이용한 자동차 구매 가격 예측과 joblib이용해 모델 저장하기 (0) | 2022.03.28 |
colab에서 구글 드라이브의 csv 파일 읽기 (0) | 2022.03.28 |
구글 Colab 을 이용한 파이썬 개발 환경 설정 (0) | 2022.03.28 |