#!/usr/bin/env python # coding: utf-8 # # Algoritmo KNN # ### Breve introdução ao algoritmo KNN para classificação. # O algoritmo KNN (**K Nearest Neighbor**) é um dos algoritmos mais simples para se utilizar na área de inteligência artificial. O mais interessante desse algoritmo é a possibilidade dele ser aplicado em dois métodos distintos: # # > - Classificação; # > - Regressão; # # Na classificação, o modelo irá classificar em qual grupo um determinado elemento faz parte. Enquanto isso, na regressão temos uma predição de um valor númerico para um elemento, baseada em determinadas informações sobre a mesma. # A principal ferramenta que utilizamos em sua construção é o **Cálculo de Distâncias Euclidiano**, uma fórmula bastante conhecida entre as pessoas que já tiveram contato com procedimentos matemáticos. # - Cálculo da Distância Euclidiana (DE): # > $DE(x,y)=\sqrt[2]{\sum_{i}^{p}(x_{1}-y_{1})^{2}}$ # > Quanto maior for o resultado da Distância Euclidiana, mais distante dois pontos estão entre sí, e quanto menor for o resultado da Distância Euclidiana, menos distantes dois pontos estão entre sí. # Mas como isso se aplica na prática? # ##### Exemplo # |**Filmes**|**Violência**|**Romance**|**Ação**|**Comédia**| # |:---------|:------------|:----------|:-------|-----------| # |Invocação do Mal|0.6|0.0|0.3|0.0| # |Floresta Maldita|0.9|0.0|0.5|0.1| # |Meu Passado me Condena|0.1|0.2|0.1|0.9| # |Vizinhos 2|0.0|0.1|0.2|0.8| # |Deadpool|0.5|0.0|0.7|0.1| # |Tirando o Atraso|0.0|0.2|0.2|0.8| # Temos 5 filmes acima com uma distribução de porcentagens que qualificam os gêneros abordados no enredo de cada um deles. Perceba que foi criado um dataset para construção de filmes que pode ser usado em um sistema de recomedações, assim como o usado na Netflix. # Se um determinado filme assistido possui também uma determinada recomendação em cada categoria, caso fosse realizando a soma da distância euclidiana entre pares de filmes, teriamos para resultados muito grandes filmes com pouca semelhança e para resultados aproximados filmes bastante semelhantes. # Vamos ver quão próximo o filme Invocação do Mal é dos filmes Floresta Maldita e Tirando o Atraso: # $DE(Invocação do Mal, Floresta Maldita)=\sqrt[2]{(0.6 -0.9)^{2} + (0.0-0.0)^{2} +(0.3 - 0.5) + (0.0 - 0.1)} = 0.37$ # $DE(Invocação do Mal, Tirando o Atraso)=\sqrt[2]{(0.6 -0.0)^{2} + (0.0-0.2)^{2} +(0.3 - 0.2) + (0.0 - 0.8)} = 1.02$ # É perceptível que os Filmes Invocação do Mal e Floresta Maldita são bem semelhantes pela distância euclidiana se comparados com o resultado da distância euclidiana de Invocação do Mal com Tirando o Atraso. # E de mesmo modo é feito com todos os filmes presentes. Além disso, quanto mais rico de informações for o dataset e, esse possuir um alto grau de confiança, melhor é o sistema de classificação de filmes que uma empresa poderia implementar em seus serviços. # ### Alguma dúvida? Entre em contato comigo: # - [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br)