Analisando o mercado imobiliário com o California Housing Dataset

Publicado em: 20/12/2024

Como referenciar este texto: Analisando o mercado imobiliário com o California Housing Dataset’. Rodrigo Terra. Publicado em: 20/12/2024. Link da postagem: https://www.makerzine.com.br/dados/analisando-o-mercado-imobiliario-com-o-california-housing-dataset/.

Conteúdos que você verá nesta postagem

Este projeto utilizou o California Housing Dataset para explorar variáveis relacionadas ao mercado imobiliário, realizar análises preditivas e entender os fatores que influenciam os preços das casas. A seguir, apresento uma visão detalhada do processo seguido no notebook, desde a análise inicial até a modelagem avançada com otimização de hiperparâmetros.

1. Introdução ao Dataset

O California Housing Dataset contém informações sobre preços medianos de casas em diferentes regiões da Califórnia, junto com variáveis como renda média, idade das casas, população e localização geográfica. O objetivo foi prever os preços das casas com base nessas características.

2. Análise Exploratória de Dados

Estatísticas Descritivas: Foi realizada uma análise inicial para entender a distribuição e os valores médios das variáveis.

 

Visualizações:

  • Histogramas: Mostraram a distribuição de variáveis como renda média (MedInc) e idade das casas (HouseAge).
  • Boxplots: Identificaram outliers em variáveis numéricas.
  • Matriz de Correlação: Destacou a forte correlação positiva entre renda média e preços das casas, e relações negativas com latitude e longitude.

 

Insights:
Regiões com maior renda média tendem a ter preços mais elevados, enquanto localizações mais ao norte e no interior apresentam preços menores.

3. Engenharia de Variáveis

Duas variáveis derivadas foram criadas para enriquecer a análise:

  • Densidade Populacional (PopDensity): Relação entre população e ocupação média.
  • Tamanho Médio das Casas (AveHouseSize): Razão entre o número médio de quartos e a ocupação média.

 

Benefício:
Essas variáveis capturam nuances do mercado imobiliário, como a ocupação e o tamanho relativo das casas.

4. Preparação dos Dados

  • Padronização: Variáveis como renda, idade e localização foram escaladas usando StandardScaler para uniformizar as escalas e melhorar a performance dos modelos.
  • Divisão em Conjuntos: Os dados foram divididos em 80% para treino e 20% para teste.

5. Modelagem e Avaliação

Foram utilizados três modelos principais para prever os preços:

  1. Regressão Linear: Simplicidade e interpretabilidade.
  2. Árvore de Decisão: Modelagem baseada em regras de decisão.
  3. Random Forest: Combinação de múltiplas árvores para maior robustez.

 

Métricas Avaliadas:

  • MSE (Mean Squared Error): Erro médio quadrático.
  • R²: Coeficiente de determinação, indicando a proporção da variação explicada pelo modelo.

 

Resultados Iniciais:

  • O Random Forest superou os outros modelos em precisão, com menor MSE e maior R².

6. Visualizações e Análises

  • Distribuição Geográfica dos Preços: Um mapa de dispersão revelou regiões mais caras ao longo da costa da Califórnia.
  • Previsões vs. Valores Reais: Gráficos de resíduos mostraram erros uniformemente distribuídos, indicando um bom ajuste do modelo.

7. Otimização e Refinamento

O modelo Random Forest foi refinado:

  • Ajuste de Hiperparâmetros: Aumentou-se o número de estimadores (n_estimators) e limitou-se a profundidade máxima das árvores (max_depth), resultando em um modelo mais eficiente.
  • Importância das Variáveis: A renda média (MedInc) foi a variável mais relevante, seguida por latitude e longitude.

8. Conclusão

Este projeto demonstrou como integrar análise exploratória, engenharia de variáveis e modelagem preditiva para resolver problemas do mundo real. A aplicação do Random Forest permitiu capturar as complexidades do mercado imobiliário, enquanto as visualizações forneceram insights valiosos para tomada de decisão.

 

Aprendizados:

  • A importância de criar variáveis derivadas para enriquecer os dados.
  • Como ajustes de hiperparâmetros podem melhorar significativamente os resultados.
  • O papel das visualizações na comunicação de insights.

 

Próximos Passos:

  • Experimentar modelos avançados, como Gradient Boosting.
  • Incorporar dados externos, como taxas de criminalidade ou infraestrutura, para melhorar a predição.

Para ver e/ou baixar o notebook deste projeto, clique aqui.

Se você acha que este conteúdo pode ser útil para alguém, compartilhe!

Ao divulgar os textos do MakerZine, você contribui para que todo o material continue acessível e gratuito para todas as pessoas.