https://dbfoot.tistory.com/173
여기서 이어집니다.
from wordcloud import WordCloud, STOPWORDS
스팸만 들어있는 이메일의 내용을 가져와서 화면에 어떤 단어가 많이 나왔는지 시각화 하려 합니다.
데이터프레임에 있는 문자열을 하나의 문자열로 만들어 줘야합니다.
1. 각 행의 문자열을 리스트로 받아옵니다.
spam['text'].tolist()
2. 리스트에 들어있는 문자열을 join 함수 이용해서 하나로 만들어 줍니다.
words_as_one_string=''.join(spam['text'].tolist())
3. 워드 클라우드 만들기
from PIL import Image
#첨부한 이미지를 가져옵니다.
img = Image.open('apple.jpg')
#이미지를 넘파이로 만들어줍니다.
img_mask = np.array(img)
#워드클라우드의 스탑워즈를 내 메모리에 생성해서 사용합니다
my_stopwords = STOPWORDS
my_stopwords.add('subject')
my_stopwords.add('us')
my_stopwords.add('one')
wc = WordCloud(background_color='white',mask=img_mask,stopwords=my_stopwords,max_words=100)
wc.generate(words_as_one_string)
plt.figure(figsize=(10,6))
plt.imshow(wc)
plt.axis('off')
plt.show()
'머신러닝' 카테고리의 다른 글
Facebook의 Prophet을 이용해 아보카도 가격 예측 plot,count plot차트 시각화 하기 (0) | 2022.03.29 |
---|---|
Naive Bayes 나이브 베이즈와 Vectorizing 벡터라이징을 이용한 스팸 분류 예시 (0) | 2022.03.29 |
머신러닝을 이용한 자동차 구매 가격 예측과 joblib이용해 모델 저장하기 (0) | 2022.03.28 |
colab에서 구글 드라이브의 csv 파일 읽기 (0) | 2022.03.28 |
구글 Colab 을 이용한 파이썬 개발 환경 설정 (0) | 2022.03.28 |