Medindo resultados obtidos

Para mensurar a qualidade do treinamento dos agentes desenvolvidos, utilizamos algumas medidas de avaliação de desempenho. Imagine que foi criado um modelo que é responsável por classificar se um tipo de doença é benigna ou maligna. O treinamento desse modelo em questão provavelmente será feito com  amostras de avaliações médicas, previamente etiquetadas de acordo diagnóstico médico, para que seja capaz de identificar quais são os casos em que a doença é maligna ou benigna.

A análise da da doença depende muito de sua complexidade e quantos atributos são fatores relevantes. Para tal, diversas medidas de avaliação foram criadas para auxiliar nessa tomada de decisão.

Resultados

Acurácia

A acurácia é uma das métricas mais simples que verifica a porcentagem de acerto de um classificador. Se de 100 amostras de diagnóstico um classificador conseguir classificar corretamente 80, teremos uma acurácia de 80%.

Matriz de Confusão

Também conhecida como matriz de erro ou tabela de contingência, a matriz de confusão é uma tabela que permite a visualização do desempenho de um algoritmo de aprendizagem de máquina sob vários aspectos. São dispostas as previsões e os valores reais em linhas e colunas e a partir disso é possível extrair alguns valores, tais como:

                    Valor Real ->

Predição

Benigno

Maligno

Total

Benigno

20 ou VP

30 ou FP

50

Maligno

15 ou FN

25 ou VN

40

Total

35

55

90

  • Verdadeiros Positivos (VP): apresenta a quantidade de diagnósticos benignos que foram classificados como tal.
  • Falsos Positivos (FP): diagnósticos classificados como benigno quando na verdade são malignos. Esse tipo de classificação pode orientar o profissional a deixar de realizar o tratamento em um paciente que o necessite.
  • Falsos Negativos (FN): tendo em vista que o diagnóstico foi maligno enquanto deveria ser classificado como benigno, o que poderia levar o profissional a iniciar um tratamento desnecessariamente.
  • Verdadeiros negativos: aqui encontra-se a quantidade de situações onde o risco é maligno e que form classificados corretamente como malignos.

Verdadeiros positivos e verdadeiros negativos podem ser utilizados para extrair a acurácia. Ou seja, apenas é analisado onde o classificador acertou. Entretanto, para alguns casos, a classificação incorreta, seja ela negativa ou positiva, pode ser um fator tão decisivo quanto os acertos. Um falso positivo afirma uma paciente não precisa receber tratamento quando na verdade deveria ser assistido. Ficar atento a resultados desse tipo pode ser tão importante quanto mensurar apenas a acurácia de um algoritmo.

Precisão

A precisão tem como objetivo identificar a porcentagem das amostras foi classificada positivamente. Ou seja, quantas amostras de diagnósticos foram classificadas de forma correta em relação ao número de falsos positivos. Utilizando a nossa Tabela da matriz de confusão, a Precisão seria:

[20(VP)] / [20(VP)+30(FP)]= 40%

Ou seja teríamos uma precisão de 40% tendo em vista o grande número de falsos positivos encontrados.

Taxa de sensibilidade

A cobertura, também conhecida como taxa de verdadeiro positivo ou taxa de sensibilidade, é semelhante a precisão só que para as amostras falsas negativas. Ou seja, verifica-se o quão completo é um classificador. Caso tenha um modelo possua uma baixa cobertura, entende-se que existe um grande número de falsos positivos. Para o nosso exemplo a cobertura seria:

[20(VP)]/[20(VP)+15(FN)] = 57%

Portanto, o grande número de falsos positivos influenciou diretamente na cobertura do modelo.

O objetivo das medidas de avaliação é detalhar o desempenho do algoritmo indicando quando ajustes devem ser feitos no modelo ou alertar para a necessidade de novos dados para treinamento. As medidas devem ser exploradas e analisadas de acordo com o domínio que está sendo aplicada. Para alguns casos, pode ser tolerável que algumas medidas não possuam valores excelentes. Particularmente na predição na saúde, os falsos positivos podem ser muito críticos por orientar o profissional a não realizar um procedimento necessário.