Explorando o dataset Iris com Python

Publicado em: 20/12/2024

Como referenciar este texto: Explorando o dataset Iris com Python’. Rodrigo Terra. Publicado em: 20/12/2024. Link da postagem: https://www.makerzine.com.br/dados/explorando-o-dataset-iris-com-python/.

Conteúdos que você verá nesta postagem

Neste projeto, analiso o famoso dataset Iris, um clássico da ciência de dados, para explorar, visualizar e modelar dados de classificação multiclasse.

A seguir, descrevo o processo detalhado realizado no notebook, incluindo as principais etapas, insights e técnicas utilizadas.

1. Introdução ao Dataset Iris

O dataset Iris contém informações sobre três espécies de flores: Setosa, Versicolor e Virginica. Cada amostra inclui quatro características: comprimento e largura da sépala, e comprimento e largura da pétala. O objetivo do projeto foi analisar os dados, identificar padrões e treinar modelos de machine learning para prever a espécie com base nas características.

2. Análise Exploratória de Dados

Estatísticas Descritivas:

  • Cálculo de estatísticas como média, desvio padrão, mínimo e máximo para cada variável.
  • Verificação de valores ausentes, garantindo a integridade dos dados.

 

Visualizações:

  • Histogramas: Distribuição de cada característica em relação às espécies.
  • Boxplots: Identificação de outliers e variação entre características.
  • Gráficos de Dispersão: Análise de relações entre pares de variáveis, separando as espécies.

 

Insights:
As pétalas apresentaram maior capacidade de discriminação entre espécies, enquanto as sépalas exibiram maior sobreposição.

3. Preparação dos Dados

  • Padronização: Utilizou-se StandardScaler para escalar os dados, garantindo média zero e desvio padrão igual a 1, o que melhora o desempenho de modelos como KNN e SVM.
  • Divisão em Conjuntos: Os dados foram separados em 80% para treino e 20% para teste.

4. Modelagem de Machine Learning

Foram utilizados quatro algoritmos principais para classificação:

  1. KNN (K-Nearest Neighbors): Baseado em proximidade entre pontos.
  2. Decision Tree: Criação de regras de decisão a partir dos dados.
  3. Random Forest: Combinação de múltiplas árvores de decisão para melhorar a robustez.
  4. SVM (Support Vector Machine): Criação de hiperplanos para separar as classes.

 

Avaliação Inicial:

  • Cada modelo foi avaliado no conjunto de teste, com métricas de acurácia variando de 93% a 96%.

5. Validação Cruzada

Para garantir a generalização, aplicou-se validação cruzada (5 folds) em todos os modelos.
Resultados:

  • O Random Forest teve o melhor desempenho médio, seguido pela SVM.

6. Avaliação Detalhada do Melhor Modelo

Focando na Decision Tree, foram realizadas análises detalhadas:

  • Relatório de Classificação: Detalhou métricas como precisão, recall e F1-score para cada classe.
  • Matriz de Confusão: Mostrou a relação entre previsões corretas e incorretas, destacando maior precisão para a classe Setosa.

7. Análise de Correlações

Foi gerada uma matriz de correlação para explorar as relações entre características:

  • Fortes correlações foram observadas entre as dimensões da pétala, corroborando a importância dessas variáveis na discriminação das espécies.

Conclusão

O projeto demonstrou como explorar, visualizar e modelar dados com o dataset Iris, integrando práticas robustas de análise e machine learning. Os insights obtidos sobre a separação das classes são valiosos para entender a relação entre características físicas e classificação.

 

Aprendizados:

  • A importância da preparação e validação dos dados.
  • Como diferentes modelos podem ser aplicados para resolver problemas de classificação multiclasse.

 

Próximos Passos:

  • Experimentar modelos mais avançados, como Gradient Boosting.
  • Explorar técnicas de seleção de características para melhorar a eficiência.

Para ver e/ou baixar o notebook, basta clicar aqui.

Se você acha que este conteúdo pode ser útil para alguém, compartilhe!

Ao divulgar os textos do MakerZine, você contribui para que todo o material continue acessível e gratuito para todas as pessoas.