#!/usr/bin/env python
# coding: utf-8
#
# # **Stop Words**
# **[불용어 언어목록 보는 파이썬 코드내용](https://stackoverflow.com/questions/48641112/why-the-num-of-languages-in-nltk-corpus-stop-words-is-different-depending-on-t)**
#
# ## **1 불용어 처리**
# Stop Words
# In[ ]:
# 영문 내용을 소문자로 전처리
texts = 'I like such a Wonderful Snow Ice Cream'
texts = texts.lower()
texts
# In[ ]:
# text를 token으로 변환
from nltk import word_tokenize
tokens = word_tokenize(texts)
tokens
# In[ ]:
# import nltk
# nltk.download('stopwords')
# In[ ]:
# Stopwords 사용가능한 언어목록
from nltk.corpus import stopwords
stopwords.ensure_loaded
stopwords.__dict__.get('_fileids')
# In[ ]:
from nltk.corpus import stopwords
stopwords.words("=Quiz!=")[::18]
# In[ ]:
tokens = [word for word in tokens
if word not in stopwords.words("=Quiz!=")]
print(tokens)
#
# ## **2 한글의 불용어 처리**
# 인터넷에 공개되어 있는 불용어100 자료 (idf 값까지 txt에는 포함)
# In[ ]:
# 한글 텍스트자료 불러오기
f = open('./data/stopword_kr.txt', 'r', encoding='utf-8')
s = f.read()
f.close()
stop_words = [ txt.split('\t')[:3] for txt in s.split('\n') ]
stop_words[:10]