Accuracy vs Recall: Definiendo la Calidad de los Algoritmos con ROC y Métricas.

La Ciencia de Datos se ha convertido en una parte esencial de las tecnologías modernas, desde aplicaciones y programas hasta servicios y sistemas. Para garantizar la eficacia de las estrategias de Data Science, es necesario medir la calidad de los datos resultantes. Dos métricas clave en el ámbito de la Ciencia de Datos son Accuracy & Recall. Comprender las diferencias entre ambas, y hacer hincapié en ellas en sus proyectos de Ciencia de Datos, le ayudará a asegurarse de que es capaz de medir con precisión la calidad de los datos que genera.

¿Qué es la Accuracy & Recall?

Accuracy & Recall son dos métricas clave utilizadas para medir y cuantificar la eficacia de un proyecto de Ciencia de Datos. La Accuracy mide el número total de errores que ha generado un algoritmo, mientras que Recall mide la proporción de verdaderos positivos frente a falsos negativos. Para ilustrar la diferencia entre Accuracy & Recall, considere un proyecto diseñado para identificar y clasificar imágenes. El algoritmo en cuestión podría generar los siguientes resultados: * Cuatro de cada cinco imágenes se clasificaron correctamente como perros. * Una de cada cinco imágenes se clasificó incorrectamente como un gato. En este caso, el Accuracy del algoritmo sería del 80%, mientras que Recall sólo sería del 50%. Esto se debe a que, aunque el algoritmo tuvo una alta Accuracy en términos de errores generales, sólo clasificó correctamente 4 de cada 5 perros, es decir, el 80%. Un concepto importante utilizado para medir la calidad de un algoritmo de aprendizaje automático es la matriz de confusión. La matriz de confusión es una matriz 2×2 (Tabla) que muestra el porcentaje de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos. Se utiliza para medir el rendimiento de un algoritmo de clasificación. Puede ayudar a identificar dónde se cometen errores en las predicciones y puede utilizarse para encontrar la solución más adecuada para su problema.

Accuracy

Es el % total de casos clasificados correctamente. Es una buena métrica si las categorías están equilibradas. El Accuracy, no es útil si hay desbalance de datos. Por ejemplo: Si se trata de clasificar a “no fumadores (95%)” de “fumadores (5%)”, y los fumadores son minoritarios, se genera el problema de entrenar al modelo en registros minoritarios, para evitar que el desbalance nos afecte se debe utilizar Downsampling y Upweighting.

Recall

Es el % de casos identificados correctamente como positivos del total de positivos verdaderos. Nos da información sobre el rendimiento del clasificador. Un ejemplo de Recall, es el diagnóstico clínico de un tumor ya sea este maligno o benigno. Aquí es importante no equivocarnos y no enviar al quirófano a un paciente sano. Aquí se debe buscar un mayor Recall. Como siguiente punto, dejo un ejemplo que integra ambas métricas (accuracy – recall), y una tercera (especificidad), y la implicancia en costos es el siguiente: Un banco desea colocar créditos para proyectos de vivienda, para lograr el objetivo desarrolla un ALGORITMO INICIAL, siendo este el siguiente: La matriz de confusión, indica que se han aprobado 1318 créditos de vivienda, sin embargo, han clasificado mal a 520 clientes, a quienes no debió otorgárseles el crédito, y por otro lado se dejo afuera a 1560 que si eran clientes aceptables. Luego de analizar el umbral, el ROC y AUC se detectó un error en la matriz de confusión INICIAL. La matriz de confusión, indica que los 520 potenciales créditos representan un mal otorgamiento por un valor de $78,000,000, y una pérdida de negocios por $234,000,000, que debieron ser asignado lo cual pone en riesgo la operación.

Luego de correr varios modelos algorítmicos, y ya con el umbral óptimo, aplicación de pruebas, la pérdida se lleva al mínimo con la matriz PROPUESTA. Como resultado de la optimización del algoritmo, por medio de diversos análisis (ROC, AUC), la mala asignación pasa de $78 millones a cifras de $3 millones. Cifra aún alta, pero con mucha mejor Accuracyque con la que la empresa contaba antes y con una potencial cartera en mora de menor riesgo para la operación del negocio.

En la ciencia de datos, la exactitud y la Accuracy suelen determinarse mediante métricas como la Tasa de error o el Error cuadrático medio. La tasa de error es la proporción de predicciones incorrectas respecto al total de predicciones. El error cuadrático medio (RMSE) es una medida de la diferencia media entre el valor predicho y el valor real. La exactitud y la Accuracy también se determinan mediante otras métricas, como la Accuracy & Recall, la puntuación F1 y la matriz de confusión.

¿Qué es ROC?

ROC es una métrica utilizada para medir algoritmos de clasificación. Significa «Receiver Operating Characteristic» y se utiliza para medir la Accuracy predictiva de un modelo. Es una combinación de Accuracy & Recall, lo que significa que mide las tasas de verdaderos positivos y falsos positivos del modelo. La curva ROC es una representación visual de las áreas bajo la curva (AUC) que se genera a partir de la tasa de falsos positivos (FPR) y la tasa de verdaderos positivos (TPR). En esta curva, las áreas bajo la curva representan la Accuracy del modelo y las formas de las curvas representan el nivel de recuerdo.

Insight

¿Por qué son importantes las métricas de Accuracy & Recall?

Son métricas importantes cuando se trata de comprender la eficacia de un proyecto de Ciencia de Datos. Comprender las diferencias entre Accuracy & Recall le ayudará a medir con la eficacia de un algoritmo para generar los resultados deseados. Accuracy se utiliza normalmente para medir los errores generales que genera un algoritmo. Si un científico de datos quiere asegurarse de que su algoritmo es capaz de detectar e identificar objetos de forma eficaz, el Accuracy es la métrica clave que debe tener en cuenta. Por otro lado, Recall permite una mejor comprensión de los verdaderos frente a los falsos positivos generados por el algoritmo. Si un científico de datos quiere saber lo bien que su algoritmo puede diferenciar entre verdaderos y falsos positivos, recall es la mejor métrica a tener en cuenta. Comprender las diferencias entre Accuracy y Recall es vital. Además, ROC es una métrica que combina las métricas de Accuracy & Recall y permite a los científicos de datos medir la eficacia de un algoritmo de clasificación. Utilizar estas métricas puede ayudarle a garantizar el éxito de sus proyectos de Ciencia de Datos. Comprender las diferencias entre Recall & Accuracy es esencial tanto para los científicos de datos como para los especialistas en marketing. Al comprender estos conceptos, las empresas pueden evaluar mejor el rendimiento de sus modelos y algoritmos de ciencia de datos y tomar decisiones más informadas sobre sus esfuerzos de marketing.

Con la ciencia de datos, el futuro de tu marca estará más claro, visítanos

www.analitika.com.sv

#AccuracyVsRecall #ROC #Metrics #AlgorithmQuality #MachineLearning Fuentes y citas

“What is Accuracy and Precision?” DataRobot, https://www.datarobot.com/wiki/accuracy-and-precision/
“Accuracy vs Precision: What’s the Difference?” Experfy, https://experfy.com/insights/accuracy-vs-precision/
“The Evolution of Market Research in the Age of Data Science” Market Research World, https://www.marketresearchworld.net/blog/the-evolution-of-market-research-in-the-age-of-data-science/
“Data Science and Market Research – How They Intersect” Oracle, https://www.oracle.com/corporate/marketing-cloud/data-science-market-research.html
“Data Science in Market Research: What It Is and How to Use It” Validity, https://www.validity.com/data-science-in-market-research/

Insights