Predição do valor de imóveis com Regressão, Árvores e Métodos de Ensemble: um estudo com LOOCV

Publicado em: 09/01/2026

Como referenciar este texto: ‘Predição do valor de imóveis com Regressão, Árvores e Métodos de Ensemble: um estudo com LOOCV’. Rodrigo Terra. Publicado em: 09/01/2026. Link da postagem: https://www.makerzine.com.br/dados/predicao-do-valor-de-imoveis-com-regressao-arvores-e-metodos-de-ensemble-um-estudo-com-loocv.

A predição de valores imobiliários é um problema clássico de regressão em aprendizado de máquina, frequentemente utilizado para comparar metodologias supervisionadas e discutir trade-offs entre viés, variância e interpretabilidade. Neste estudo, utilizo o Boston Housing Dataset para investigar o desempenho de quatro abordagens amplamente adotadas: Regressão Linear, Árvore de Regressão, Bagging e Random Forest.

O foco do trabalho não está apenas na obtenção de bons resultados preditivos, mas principalmente na comparação sistemática entre modelos, utilizando um processo rigoroso de validação cruzada Leave-One-Out (LOOCV) e métricas complementares de avaliação.

Dataset e variável resposta

O Boston Housing Dataset contém informações socioeconômicas e estruturais de bairros da região de Boston. A variável resposta do problema é:

medv: valor médio das casas ocupadas pelo proprietário (em milhares de dólares)

As variáveis explicativas incluem indicadores como número médio de cômodos, taxa de criminalidade, distância a centros de emprego, impostos locais, entre outras.

Apesar de seu uso histórico, o dataset apresenta limitações éticas conhecidas, o que reforça seu papel como exemplo didático e experimental, e não como base para aplicações reais contemporâneas.

Metodologia

Foram implementados quatro modelos de regressão:

Regressão Linear
Modelo paramétrico, utilizado como baseline, com padronização das variáveis.
Árvore de Regressão
Modelo não paramétrico, capaz de capturar relações não lineares, porém sensível a variações nos dados.
Bagging de Árvores
Ensemble baseado em bootstrap aggregating, com o objetivo de reduzir a variância do modelo base.
Random Forest
Ensemble de árvores com subamostragem de atributos, buscando reduzir correlação entre estimadores e melhorar generalização.

Validação cruzada: Leave-One-Out (LOOCV)

Para todos os modelos, foi adotada a Leave-One-Out Cross-Validation, na qual:

Cada observação é utilizada uma vez como teste
O modelo é treinado com todas as demais observações
O processo é repetido até que todas as amostras tenham sido avaliadas

Essa abordagem é computacionalmente custosa, mas oferece uma estimativa quase não enviesada do erro de generalização, sendo especialmente útil em datasets de tamanho moderado.

Métricas de avaliação

Foram utilizadas duas métricas complementares:

Erro Quadrático Médio (MSE)
Mede o erro médio ao quadrado entre valores observados e preditos, penalizando grandes desvios.
Correlação de Pearson (r)
Avalia o grau de associação linear entre valores observados e preditos, complementando o MSE ao capturar alinhamento de tendência.

A combinação dessas métricas permite analisar tanto precisão absoluta quanto coerência estrutural das predições.

Resultados

Os resultados mostram diferenças claras entre as metodologias avaliadas.

De forma geral:

A Regressão Linear apresenta desempenho razoável, mas limitado pela suposição de linearidade.
A Árvore de Regressão isolada tende a apresentar maior variância, refletida em erros mais dispersos.
Bagging reduz significativamente a variabilidade das predições ao agregar múltiplas árvores.
Random Forest alcança o melhor equilíbrio entre erro e correlação, beneficiando-se da redução de variância e da diversidade entre árvores.

Esses padrões ficam evidentes tanto nas métricas quantitativas quanto nos gráficos de:

valores observados vs. preditos
resíduos vs. valores preditos

Análise gráfica dos resíduos

A análise dos resíduos revela aspectos importantes do comportamento dos modelos:

Modelos ensemble apresentam resíduos mais homogêneos e centrados em zero.
A árvore isolada exibe padrões estruturados, sugerindo instabilidade e sobreajuste local.
A regressão linear mostra tendência a erros sistemáticos em regiões onde relações não lineares são relevantes.

Essas observações reforçam a importância de ir além de métricas numéricas e analisar visualmente o desempenho dos modelos.

Discussão

Os resultados confirmam conceitos centrais do aprendizado de máquina:

Modelos simples são interpretáveis, mas limitados.
Modelos flexíveis capturam complexidade, mas sofrem com variância.
Métodos de ensemble oferecem uma solução prática para reduzir variância sem impor forte viés estrutural.

O uso de LOOCV garante robustez à comparação, embora aumente o custo computacional. Em contextos reais, estratégias como k-fold cross-validation podem oferecer melhor equilíbrio entre custo e precisão.

Conclusão

Este estudo demonstra como diferentes abordagens de regressão se comportam ao predizer valores imobiliários sob um protocolo rigoroso de validação. A comparação evidencia o papel central dos métodos de ensemble na melhoria do desempenho preditivo e reforça a importância de escolhas metodológicas alinhadas ao objetivo do problema.

Mais do que identificar o “melhor modelo”, o exercício destaca a necessidade de avaliar criticamente métricas, validação e comportamento dos erros, especialmente em aplicações orientadas à tomada de decisão baseada em dados.

Acesse o notebook

Acesse meu Github, para ter acesso ao notebook, bata clicar no botão ao lado →