Una matriz de confusión es una tabla que se utiliza para evaluar el rendimiento de un modelo de aprendizaje automático. La tabla se compone de cuatro filas y cuatro columnas, donde cada fila representa una clase real y cada columna representa una clase predicha. Las cuatro clases utilizadas en la tabla son:
Verdaderos positivos (TP): Son los casos en los que el modelo predijo correctamente la clase positiva.
Verdaderos negativos (TN): Son los casos en los que el modelo predijo correctamente la clase negativa.
Falsos positivos (FP): Son los casos en los que el modelo predijo incorrectamente la clase positiva.
Falsos negativos (FN): Son los casos en los que el modelo predijo incorrectamente la clase negativa.
La matriz de confusión se puede utilizar para calcular una variedad de métricas, como la exactitud, la precisión, el recuerdo y la especificidad.
¿Por qué la matriz de confusión es mejor que la exactitud?
Las matrices de confusión son mejores que la exactitud por varias razones. En primer lugar, la exactitud no tiene en cuenta los falsos positivos y los falsos negativos, mientras que una matriz de confusión sí lo hace. Esto es importante porque no todos los errores son iguales: un falso positivo puede ser menos grave que un falso negativo.
En segundo lugar, una matriz de confusión puede darle una visión más matizada de cómo está funcionando su clasificador. Por ejemplo, si usted tiene un clasificador que es el 99% de precisión, una matriz de confusión puede decirle si eso es porque el clasificador es muy bueno en la identificación de ejemplos positivos, o muy bueno en la identificación de ejemplos negativos, o una combinación de ambos.
En tercer lugar, una matriz de confusión puede ayudarle a identificar problemas potenciales con su clasificador. Por ejemplo, si tiene un clasificador que tiene una precisión del 90%, pero la matriz de confusión muestra que el clasificador sólo identifica correctamente los ejemplos positivos el 50% de las veces, entonces sabe que hay un problema con el clasificador que necesita ser abordado.
¿Puede utilizarse la matriz de confusión para evaluar los modelos de regresión?
Sí, la matriz de confusión se puede utilizar para evaluar los modelos de regresión. En general, una matriz de confusión se utiliza para evaluar el rendimiento de un modelo de clasificación. Sin embargo, los mismos principios se pueden aplicar a los modelos de regresión también.
Una matriz de confusión para un modelo de regresión puede utilizarse para evaluar la precisión de las predicciones realizadas por el modelo. La matriz puede utilizarse para calcular una serie de estadísticas diferentes, como la precisión, la recuperación y la especificidad de las predicciones.
Para usar una matriz de confusión para evaluar un modelo de regresión, las predicciones hechas por el modelo deben ser discretizadas. Esto puede hacerse dividiendo los valores predichos en un número de categorías diferentes. Las categorías pueden definirse de diferentes maneras, dependiendo de los objetivos de la evaluación.
Una vez discretizadas las predicciones, la matriz de confusión puede utilizarse para calcular una serie de estadísticas diferentes. Estas estadísticas se pueden utilizar para comparar el rendimiento de diferentes modelos de regresión.
¿Qué es una buena precisión para la matriz de confusión?
Una matriz de confusión es una tabla que se utiliza a menudo para describir el rendimiento de un modelo de clasificación (o "clasificador") en un conjunto de datos de prueba para los que se conocen los valores verdaderos.
La matriz de confusión en sí es relativamente sencilla de entender, pero la terminología relacionada puede ser confusa. En particular, los términos "verdadero positivo", "verdadero negativo", "falso positivo" y "falso negativo" pueden ser confusos.
Un verdadero positivo es un resultado en el que el modelo predice correctamente la clase positiva.
Un verdadero negativo es un resultado en el que el modelo predice correctamente la clase negativa.
Un falso positivo es un resultado en el que el modelo predice incorrectamente la clase positiva.
Un falso negativo es un resultado en el que el modelo predice incorrectamente la clase negativa.
La precisión de un clasificador es el número de predicciones correctas dividido por el número total de predicciones.
La precisión puede considerarse como un resumen de la matriz de confusión, donde la proporción de verdaderos positivos es el elemento diagonal en la parte superior izquierda, la proporción de verdaderos negativos es el elemento diagonal en la parte inferior derecha, la proporción de falsos positivos es el elemento diagonal en la parte inferior izquierda, y la proporción de falsos negativos es el elemento diagonal en la parte superior derecha.
Un clasificador perfecto tendría una precisión de 1,0 (100%), lo que significa que no haría predicciones falsas.
Un clasificador que no es mejor que el azar tendría una precisión de 0,5 (50%).
Un clasificador que siempre predice la clase positiva tendría una precisión de 1,0, pero también tendría un número muy alto de falsos positivos.
Un clasificador que siempre predice la clase negativa tendría una precisión de 0,0, pero también tendría un número muy alto de falsos negativos.
En general, un clasificador que tiene una alta precisión y un bajo número de falsos positivos y falsos negativos se considera