# "\t \n"를 기준으로 작업을 진행하기
with open('data/war_of_flower.txt', 'r') as f:
text = f.readlines()
import re
result, tokenizer = [], re.compile(r"^\d+")
for t in text:
if t.replace(" ","").find('곽철용') != -1:
if "".join(tokenizer.findall(t)):
pass
elif t.replace(" ","").find(':') != -1:
result.append(" ".join(t.split(":")[1:]))
else:
result.append(t.replace('\t', ''))
from konlpy.tag import Mecab
result = " ".join(result)
token_kcw = [_ for _ in Mecab().nouns(result) if len(_) >2]
token_kcw_unique = list(set(token_kcw))
len(token_kcw_unique)
40
"// ".join(token_kcw_unique)
'케이드// 용팔이// 배신자// 젓가락질// 뒷자리// 스피커폰// 뒷머리// 사이즈// 신경질// 마요네즈// 조수석// 모니터// 넥타이// 골프채// 판대기// 손가락// 대통령// 워키토키// 사무실// 기집애// 똘마니// 화투판// 그걸로// 피투성이// 오야지// 한마디// 자본주의// 비닐하우스// 깡다구// 아버지// 변사체// 운전자// 이걸로// 허리춤// 패거리// 청요리// 선순데// 이야기// 손모가지// 대한민국'
%matplotlib inline
import matplotlib.pyplot as plt
from wordcloud import WordCloud
font_file = "data/D2Coding.ttf"
wcloud = WordCloud(font_file, relative_scaling=0, collocations=False).generate(" ".join(token_kcw))
plt.figure(figsize=(12,12))
plt.imshow(wcloud)
plt.axis("off")
(-0.5, 399.5, 199.5, -0.5)
from konlpy.tag import Mecab
result = " ".join(text)
tokens = [_ for _ in Mecab().nouns(result) if len(_) >2]
len(tokens)
895
%matplotlib inline
import matplotlib.pyplot as plt
from wordcloud import WordCloud
font_file = "data/D2Coding.ttf"
wcloud = WordCloud(font_file, relative_scaling=0, collocations=False).generate(" ".join(tokens))
plt.figure(figsize=(12,12))
plt.imshow(wcloud)
plt.axis("off")
(-0.5, 399.5, 199.5, -0.5)