#!/usr/bin/env python # coding: utf-8 # # Stemming Words # # **Stemming** reduz a palavra ao seu **stem**. O resultado é menos legível para humanos, porém torna o texto mais comparável através das observações. # # #### Exemplo: # # "Tradição" e "Tradicional" possuem o mesmo **stem**: "tradi" # In[1]: from nltk.stem.porter import PorterStemmer # ### Criando Dados Textuais # In[9]: tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting'] palavras = ['my', 'name', 'is', 'gabriel', 'identifying', 'running', 'music', 'reading', 'observation'] # ### Stemming # # Stemming irá reduzir a palavra ao seu **stem** através da identificação e remoção de afixos (por exemplo gerúndio) enquanto mantém o significado raiz da palavra. O Construtor `PorterStemmer` da biblioteca NLTK implementa o muito utilizado *Porter stemming algorithm*. # In[10]: # Cria o stemmer porter = PorterStemmer() # Aplica o stemmer [porter.stem(word) for word in tokenized_words] # In[11]: [porter.stem(word) for word in palavras]