Predição do valor de imóveis com Regressão, Árvores e Métodos de Ensemble: um estudo com LOOCV

Publicado em: 09/01/2026

Como referenciar este texto: Predição do valor de imóveis com Regressão, Árvores e Métodos de Ensemble: um estudo com LOOCV’. Rodrigo Terra. Publicado em: 09/01/2026. Link da postagem: https://www.makerzine.com.br/dados/predicao-do-valor-de-imoveis-com-regressao-arvores-e-metodos-de-ensemble-um-estudo-com-loocv.

A predição de valores imobiliários é um problema clássico de regressão em aprendizado de máquina, frequentemente utilizado para comparar metodologias supervisionadas e discutir trade-offs entre viés, variância e interpretabilidade. Neste estudo, utilizo o Boston Housing Dataset para investigar o desempenho de quatro abordagens amplamente adotadas: Regressão Linear, Árvore de Regressão, Bagging e Random Forest.

O foco do trabalho não está apenas na obtenção de bons resultados preditivos, mas principalmente na comparação sistemática entre modelos, utilizando um processo rigoroso de validação cruzada Leave-One-Out (LOOCV) e métricas complementares de avaliação.

Dataset e variável resposta

O Boston Housing Dataset contém informações socioeconômicas e estruturais de bairros da região de Boston. A variável resposta do problema é:

  • medv: valor médio das casas ocupadas pelo proprietário (em milhares de dólares)

As variáveis explicativas incluem indicadores como número médio de cômodos, taxa de criminalidade, distância a centros de emprego, impostos locais, entre outras.

Apesar de seu uso histórico, o dataset apresenta limitações éticas conhecidas, o que reforça seu papel como exemplo didático e experimental, e não como base para aplicações reais contemporâneas.

Metodologia

Metodologia

Foram implementados quatro modelos de regressão:

  1. Regressão Linear
    Modelo paramétrico, utilizado como baseline, com padronização das variáveis.

  2. Árvore de Regressão
    Modelo não paramétrico, capaz de capturar relações não lineares, porém sensível a variações nos dados.

  3. Bagging de Árvores
    Ensemble baseado em bootstrap aggregating, com o objetivo de reduzir a variância do modelo base.

  4. Random Forest
    Ensemble de árvores com subamostragem de atributos, buscando reduzir correlação entre estimadores e melhorar generalização.

Validação cruzada: Leave-One-Out (LOOCV)

Para todos os modelos, foi adotada a Leave-One-Out Cross-Validation, na qual:

  • Cada observação é utilizada uma vez como teste

  • O modelo é treinado com todas as demais observações

  • O processo é repetido até que todas as amostras tenham sido avaliadas

Essa abordagem é computacionalmente custosa, mas oferece uma estimativa quase não enviesada do erro de generalização, sendo especialmente útil em datasets de tamanho moderado.

Métricas de avaliação

Foram utilizadas duas métricas complementares:

  • Erro Quadrático Médio (MSE)
    Mede o erro médio ao quadrado entre valores observados e preditos, penalizando grandes desvios.

  • Correlação de Pearson (r)
    Avalia o grau de associação linear entre valores observados e preditos, complementando o MSE ao capturar alinhamento de tendência.

A combinação dessas métricas permite analisar tanto precisão absoluta quanto coerência estrutural das predições.

Resultados

Os resultados mostram diferenças claras entre as metodologias avaliadas.

De forma geral:

  • A Regressão Linear apresenta desempenho razoável, mas limitado pela suposição de linearidade.

  • A Árvore de Regressão isolada tende a apresentar maior variância, refletida em erros mais dispersos.

  • Bagging reduz significativamente a variabilidade das predições ao agregar múltiplas árvores.

  • Random Forest alcança o melhor equilíbrio entre erro e correlação, beneficiando-se da redução de variância e da diversidade entre árvores.

Esses padrões ficam evidentes tanto nas métricas quantitativas quanto nos gráficos de:

  • valores observados vs. preditos

  • resíduos vs. valores preditos

Análise gráfica dos resíduos

A análise dos resíduos revela aspectos importantes do comportamento dos modelos:

  • Modelos ensemble apresentam resíduos mais homogêneos e centrados em zero.

  • A árvore isolada exibe padrões estruturados, sugerindo instabilidade e sobreajuste local.

  • A regressão linear mostra tendência a erros sistemáticos em regiões onde relações não lineares são relevantes.

Essas observações reforçam a importância de ir além de métricas numéricas e analisar visualmente o desempenho dos modelos.

Discussão

Os resultados confirmam conceitos centrais do aprendizado de máquina:

  • Modelos simples são interpretáveis, mas limitados.

  • Modelos flexíveis capturam complexidade, mas sofrem com variância.

  • Métodos de ensemble oferecem uma solução prática para reduzir variância sem impor forte viés estrutural.

O uso de LOOCV garante robustez à comparação, embora aumente o custo computacional. Em contextos reais, estratégias como k-fold cross-validation podem oferecer melhor equilíbrio entre custo e precisão.

Conclusão

Este estudo demonstra como diferentes abordagens de regressão se comportam ao predizer valores imobiliários sob um protocolo rigoroso de validação. A comparação evidencia o papel central dos métodos de ensemble na melhoria do desempenho preditivo e reforça a importância de escolhas metodológicas alinhadas ao objetivo do problema.

Mais do que identificar o “melhor modelo”, o exercício destaca a necessidade de avaliar criticamente métricas, validação e comportamento dos erros, especialmente em aplicações orientadas à tomada de decisão baseada em dados.

Acesse o notebook

Acesse meu Github, para ter acesso ao notebook, bata clicar no botão ao lado →