Independentemente de como chegamos a um modelo, uma parte importante do processo de modelagem é o ajuste dos parâmetros do modelo.
O tipo de ajuste depende do tipo de modelagem.
Veremos aqui, o método de mínimos quadrados, aplicável em modelos lineares nos parâmetros.
Considere, para efeito de motivação, o problema de se achar a reta que passa por dois pontos no plano.
Em uma aplicação, esses pontos seriam os dados da amostra.
Vamos supor que eles sejam $(2, 1)$ e $(3, 4)$.
Nesse caso, a reta passa por $(2,1)$ e tem inclinação $(4-1)/(3-2) = 3$. Logo, é dada por
Podemos, também, enxergar isso como um problema de álgebra linear. Isso é feito procurando-se uma reta $y = mx + b$ que passe pelos dois pontos.
Nesse caso, temos o problema de ajustar os parâmetros $m$ e $b$ aos dados $(2,1)$ e $(3,4)$.
Nesse ajuste, temos as condições
usando uma equação pra escrever $b$ em função de $m$ e sem seguida resolvendo a outra equação para $m$.
Na prática, no entanto, o modelo não é perfeito, os dados não são precisos e a solução não é tão simples.
Em alguns casos, podemos ter poucos dados, em outros, podemos ter muitos.
Poucos dados nos dão muitas incertezas. Pense no problema de se achar uma reta sobre a qual só temos a informação de um ponto por onde ela passa.
Muitos dados nos dão aproximações, nem sempre muito boas. Pense no problema de se achar uma reta que passa perto de três pontos não-colineares.
Digamos, no entanto, que temos apenas um ponto $(1,2)$. (uma simplificação exagerada do que pode acontecer na prática).
Há infinitas soluções para $m$ e $b$ tais que $y=mx + b$ passe por $(1,2)$, basta que
Nesse caso, podemos simplificar o modelo e/ou exigir uma condição a mais.
Podemos simplificar o modelo exigindo que a reta seja horizontal:
Um problema oposto é o de ajustar uma reta a mais de dois pontos.
Isso funciona bem quando todos os pontos são colineares.
Caso contrário, teremos, no máximo, uma aproximação.
Como fazer essa aproximação?
A resposta tradicional é a de usar mínimos quadrados, ou seja, procurar a reta que minimiza o erro quadrático.
Por exemplo, digamos que queiramos ajustar a reta $y=mx + b$ aos pontos $(1,2)$, $(2,1)$ e $(3,4)$.
É imediato deduzir, a partir da visualização dos pontos no plano, que é impossível achar tal reta. O mesmo pode ser deduzido a partir do sistema linear ou do escalonamento da matriz.
Mas podemos buscar a solução que melhor aproxima os dados no sentido do erro quadrático, como veremos a seguir.
A ideia, então, é achar a reta mais próxima dos pontos em algum sentido.
Para cada abscissa $x_i$ de cada ponto $(x_i, y_i)$ da amostra, temos a ordenada correspondente $y_i$ e ordenada $\hat y_i = mx_i + b$ obtida pelo modelo.
A diferença entre $y_i$ e $\hat y_i$ é chamada de resíduo no ponto $i$:
onde $N=3$, nesse caso (três pontos).
Logo, existe pelo menos uma solução.
As soluções podem ser encontradas procurando-se o ponto crítico da função
Para minimizar $E(\boldsymbol{\beta}) = \|\mathbf{y} - A\boldsymbol{\beta}\|^2$, olhamos, novamente, para os seus pontos críticos.
A derivada direcional de $E(\boldsymbol{\beta})$ na direção de um vetor unitário $\boldsymbol{\alpha}$ é (verifique!)
Não precisamos nos restringir a modelos lineares $y=mx + b$.
Podemos procurar polinômios de ordem mais alta
E com um determinado número de dados $(x_1, y_1), \ldots, (x_N, y_N)$.
Nesse caso, os resíduos são
Observe que $A^tA$ é uma matriz quadrada $m\times m$, para exatamente $m$ parâmetros.
A sua invertibilidade depende do posto de $A$.
Caso seja invertível, a solução é única e pode ser escrita na forma
A invertibilidade de $A^tA$ está diretamente ligada ao posto de $A$.
Observe que o núcleo de $A^t$ é ortogonal à imagem de $A$. De fato,
então $$ \boldsymbol{\alpha} \cdot \boldsymbol{\gamma} = \boldsymbol{\alpha} \cdot A\boldsymbol{\beta} = A^t\boldsymbol{\alpha} \cdot \boldsymbol{\beta} = \mathbf{0} \cdot \boldsymbol{\beta} = \mathbf{0}. $$
Lembremos, nesse momento, que uma matriz quadrada é invertível se e somente se o seu núcleo se reduz à origem.
Assim, $A^tA$ é invertível se, e somente se, o núcleo de $A$ tem dimensão nula. Isso é equivalente a dizer que o seu posto é máximo.
Finalmente, $A$ tem posto máximo/dimensão nula se pelo menos $m$ colunas são linearmente independentes.
Como podemos garantir que $A$ tenha posto máximo? Ou de outra forma, que tenha $m$ colunas linearmente independentes?
Para isso, é, primeiramente, necessário que o número de pontos da amostra seja maior do que o número de parâmetros: $N\geq m$.
Caso contrário, como o contradomínio de $A$ é $N$, o seu posto é limitado por $N$:
Em segundo lugar, quando $N \geq m$, precisamos que as amostras sejam obtidas em pelo menos $m$ abscissas distintas $x_i$.
De fato, com $m$ abscissas distintas, podemos reordenar as linhas de $A$ para que as abscissas distintas sejam $x_1, \dots, x_m$.
Em seguida, olhamos para as primeiras $m$ linhas da matriz $A$, que vamos chamar de $A_m$:
$A_m$ é uma matriz quadrada $m\times m$.
$A_m$ nada mais é do que composição de $A$ com a projeção $P_m$ de $\mathbb{R}^N= \mathbb{R}^m \times \mathbb{R}^{N-m}$, nas $m$ primeiras coordenadas $\mathbb{R}^m$.
Assim, se $A_m$ for invertível, então $A_m=P_mA$ tem posto $m$, logo $A$ também o tem.
Há várias demontrações disso, veja em Vandermonde matrix, mas a mais básica, feita por indução na dimensão $m$, não está lá.
De qualquer forma, observe que esse determinante é não-nulo se, e somente se, todos os $x_i$'s, para $i=1, \ldots, m$, são distintos.
Isso é exatamente a nossa hipótese de que pelo menos $m$ dados são obtidos em abscissas distantes.
Assim, sendo o determinante não-nulo, a matriz $A_m$ é invertível e $A$ tem posto $m$, como queríamos.
O modelo não precisa ser um polinômio, nem ser de um única variável, para ser tratado como feito acima.
Pode ser, por exemplo, qualquer função da forma
Ou, analogamente, em mais de duas variáveis e com termos não necessariamente polinomiais.
O que é importante é que o modelo seja linear nos parâmetros $\boldsymbol{\beta}$. Assim, a forma da matriz $A$ pode mudar, mas o problema de mínimos quadrados continua sendo resolvido por
Mostre que $(m,b) = (1,1)$ é a solução de $m + b = 2$ que minimiza $m^2 + b^2$.
Mostre que $(m,b) = (2,0)$ é a solução de $m + b = 2$ que minimiza $\epsilon|m| + |b|$ para $0<\epsilon<1$. O que acontece no caso $\epsilon=1$? E quando $\epsilon>1$? E se objetivo for minimizar $\max\{|m|,|b|\}$? Ou minimizar $\operatorname{sgn}|m|+\operatorname{sgn}|b|$ (onde $\operatorname{sign}(r) = 0$, se $r=0$, ou $r/|r|$, se $r\neq 0$)?
Em qual das abscissas $x=1, \ldots, 5$ temos o resíduo com o maior erro no caso em que o modelo é $\hat y= 5x + x^2$ e a amostra é dada pelos pontos $(x,y) = (1, 2)$, $(2, 3)$, $(3, 4)$, $(4, 3)$ e $(5, 2)$?
O que acontece se quisermos ajustar uma parábola $y=ax + bx^2 + c$ aos dados $(1,1)$, $(1,3)$ e $(2,2)$?
Se quisermos ajustar um modelo $y=\beta_0 + \beta_1\sin(x) + \beta_2\cos(x)$ a dados $(x_1,y_1)$, $(x_2,y_2)$, $(x_3,y_3)$, qual a condição em $x_1, x_2, x_3$ que garante que existe um, e somente um, conjunto de parâmetros $\boldsymbol{\beta}=(\beta_0, \beta_1, \beta_2)$ que melhor ajusta o modelo no sentido dos mínimos quadrados?