#!/usr/bin/env python
# coding: utf-8

# # Stemming Words
# 
# **Stemming** reduz a palavra ao seu **stem**. O resultado é menos legível para humanos, porém torna o texto mais comparável através das observações.
# 
# #### Exemplo:
# 
# "Tradição" e "Tradicional" possuem o mesmo **stem**: "tradi"

# In[1]:


from nltk.stem.porter import PorterStemmer


# ### Criando Dados Textuais

# In[9]:


tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting']
palavras = ['my', 'name', 'is', 'gabriel', 'identifying', 'running', 'music', 'reading', 'observation']


# ### Stemming
# 
# Stemming irá reduzir a palavra ao seu **stem** através da identificação e remoção de afixos (por exemplo gerúndio) enquanto mantém o significado raiz da palavra. O Construtor `PorterStemmer` da biblioteca NLTK implementa o muito utilizado *Porter stemming algorithm*.

# In[10]:


# Cria o stemmer
porter = PorterStemmer()

# Aplica o stemmer
[porter.stem(word) for word in tokenized_words]


# In[11]:


[porter.stem(word) for word in palavras]