Previsão da qualidade de vinhos tintos com regressão linear múltipla

Publicado em: 01/04/2025

Como referenciar este texto: Previsão da qualidade de vinhos tintos com regressão linear múltipla’. Rodrigo Terra. Publicado em: 01/04/2025. Link da postagem: https://www.makerzine.com.br/dados/previsao-da-qualidade-de-vinhos-tintos-com-regressao-linear-multipla/.

Conteúdos que você verá nesta postagem

Você já parou para pensar em como avaliamos a qualidade de um vinho? Normalmente, deixamos essa missão para sommeliers experientes ou simplesmente confiamos no nosso paladar. Mas… e se uma máquina pudesse prever essa qualidade? E mais: se ela pudesse fazer isso apenas analisando dados físico-químicos do vinho — sem sequer provar uma gota?

Foi com essa provocação em mente que decidi desenvolver este projeto. Como estudante de Ciência de Dados e curioso por aplicações reais da estatística, me interessei pelo Wine Quality Dataset, um conjunto de dados públicos com amostras de vinhos tintos portugueses, avaliados tanto em laboratório quanto por especialistas.

O desafio era claro: utilizar regressão linear múltipla para prever a nota de qualidade de um vinho com base em variáveis como acidez, teor alcoólico, pH e outras características químicas. A ideia era unir um problema do cotidiano com uma técnica clássica da ciência de dados — e, de quebra, exercitar o raciocínio analítico e a interpretação de modelos.

Explorando os Dados

O coração deste projeto é o Wine Quality Dataset, um conjunto de dados amplamente utilizado em projetos de ciência de dados e aprendizado de máquina. Ele está disponível publicamente no repositório da UCI Machine Learning, uma referência quando se trata de bases de dados confiáveis e bem documentadas.

O dataset contém 1.599 amostras de vinhos tintos portugueses, cada uma descrita por 11 variáveis físico-químicas obtidas em laboratório — como teor alcoólico, acidez volátil, densidade, sulfatos e pH. Esses dados são objetivos e medidos com precisão científica, o que torna o conjunto uma ótima base para análise preditiva.

Mas o detalhe mais interessante está na variável alvo: a qualidade do vinho. Essa nota vai de 0 a 10 e foi atribuída por um painel de degustadores, com base em critérios sensoriais. Ou seja, estamos tentando ensinar uma máquina a prever uma opinião humana a partir de dados químicos objetivos — um desafio e tanto!

Esse contraste entre o mensurável e o subjetivo é justamente o que torna esse dataset tão fascinante. Ele nos permite explorar até que ponto é possível traduzir o gosto humano em números — e o quanto nossa percepção pode (ou não) ser antecipada por modelos estatísticos.

Do Código à Previsão

Com os dados em mãos, era hora de colocar a mão no código e transformar números em previsões. A jornada seguiu um caminho clássico da ciência de dados, mas cheia de descobertas no percurso.

O primeiro passo foi separar as informações: de um lado, as variáveis independentes (como alcohol, volatile_acidity, sulphates, entre outras); do outro, a variável alvo, quality, que representa a nota atribuída ao vinho. Dividimos o conjunto em duas partes: 80% para treinar o modelo e 20% para testá-lo.

Com os dados preparados, aplicamos a regressão linear múltipla, uma técnica estatística que tenta encontrar a combinação ideal de variáveis para prever um valor numérico. No nosso caso, o modelo aprendeu a “pesar” cada uma das características químicas do vinho para estimar sua qualidade.

Depois do treinamento, veio a avaliação. Utilizamos três métricas principais:

  • MAE (Erro Médio Absoluto): 0.57

  • RMSE (Raiz do Erro Quadrático Médio): 0.74

  • R² (Coeficiente de Determinação): 0.26

Esses números mostram que o modelo acerta, em média, com um desvio de aproximadamente meio ponto na escala de qualidade. No entanto, o R² revela que apenas 26% da variação na qualidade é explicada pelas variáveis químicas. Em outras palavras: o modelo é útil, mas está longe de ser perfeito — o que faz sentido, já que o gosto humano é complexo e muitas vezes subjetivo.

As visualizações também contaram uma história. No gráfico de valores reais vs. previstos, vimos que o modelo tem uma tendência a “jogar no seguro”, prevendo notas próximas da média e errando mais nas extremidades (como nas notas 3 ou 8). Já o gráfico de resíduos mostrou uma distribuição relativamente equilibrada, indicando que os erros não seguem um padrão viciado.

No fim das contas, a regressão linear serviu como uma boa primeira tentativa. Funcionou? Sim, em parte. Mas deixou claro que modelos mais sofisticados podem — e devem — ser testados para capturar melhor a riqueza dos dados (e do vinho 🍷).

O que os Dados nos Dizem sobre Vinho

Depois de treinar o modelo, veio a parte mais divertida: interpretar os resultados. A regressão linear, além de prever, nos mostra quais variáveis mais influenciam o valor previsto. E, no caso dos vinhos tintos, alguns padrões se destacaram.

Entre os atributos físico-químicos analisados, os que mais contribuíram para prever a qualidade foram:

  • Álcool: vinhos com maior teor alcoólico tendem a receber notas mais altas. Isso faz sentido, já que o álcool influencia o corpo, aroma e sabor da bebida.

  • Sulfatos: associados à preservação e ao sabor, também tiveram peso positivo na previsão.

  • Acidez volátil: neste caso, quanto maior, pior. Altos níveis de acidez volátil são percebidos como um defeito sensorial, o que pode diminuir a nota.

Esses achados revelam que, mesmo sem provar o vinho, é possível encontrar sinais químicos que se correlacionam com a percepção de qualidade. Mas… só até certo ponto.

Aqui entra uma limitação interessante: modelos lineares são ótimos para relações matemáticas simples, mas o paladar humano é tudo, menos simples. A regressão linear não consegue captar nuances sensoriais, emoções ou preferências pessoais. Ela vê números, não experiências.

Então, será que dá pra ensinar uma máquina a ter gosto refinado? Talvez. Mas ela precisará de algo mais sofisticado: modelos não lineares, redes neurais, dados sensoriais detalhados… e talvez até uma taça na mão (mas aí já estamos entrando em ficção científica).

Por enquanto, o que conseguimos é uma aproximação objetiva de algo profundamente subjetivo. E só isso já é um baita passo.

Conheça o Projeto

Para ver e/ou baixar o notebook do projeto, basta clicar aqui.

Se você acha que este conteúdo pode ser útil para alguém, compartilhe!

Ao divulgar os textos do MakerZine, você contribui para que todo o material continue acessível e gratuito para todas as pessoas.