El sobremuestreo y el submuestreo son dos técnicas que se utilizan para tratar conjuntos de datos desequilibrados, en los que una clase de datos está mucho más representada que la otra.
El sobremuestreo consiste en duplicar las instancias de la clase subrepresentada hasta que el conjunto de datos esté equilibrado. Esto puede conducir a un exceso de ajuste, pero a menudo es la única manera de obtener un conjunto de entrenamiento suficientemente grande para los algoritmos de aprendizaje profundo.
El submuestreo consiste en eliminar aleatoriamente los casos de la clase sobrerrepresentada hasta que el conjunto de datos esté equilibrado. Esto puede conducir a la pérdida de información, pero a menudo es la única manera de obtener un conjunto de entrenamiento suficientemente pequeño para los algoritmos tradicionales de aprendizaje automático. ¿Qué técnica de submuestreo es la mejor? No hay una respuesta definitiva a esta pregunta, ya que la mejor técnica de submuestreo variará en función del conjunto de datos específico y del problema en cuestión. Sin embargo, algunas técnicas de submuestreo comunes incluyen el submuestreo aleatorio, el submuestreo basado en clustering y el submuestreo de enlaces de Tomek. ¿Por qué es importante el sobremuestreo? Hay varias razones por las que el sobremuestreo es importante. Una razón es que puede ayudar a mejorar el rendimiento de sus modelos de aprendizaje automático. Esto se debe a que el sobremuestreo puede ayudar a reducir el sesgo en sus modelos. Otra razón es que puede ayudarle a comprender mejor sus datos. Esto se debe a que el sobremuestreo puede ayudarle a ver patrones en sus datos que no podría ver con un tamaño de muestra más pequeño.
¿El sobremuestreo mejora la precisión?
Sí, el sobremuestreo puede mejorar la precisión en algunos casos. Cuando se realiza un sobremuestreo, se duplican algunos de los casos minoritarios del conjunto de datos para que el clasificador tenga más posibilidades de identificarlos correctamente. Esto puede ser útil si el conjunto de datos original está muy desequilibrado, lo que significa que hay muchos más casos de una clase que de otra.
El sobremuestreo también puede ayudar a reducir la cantidad de sesgo en un conjunto de datos. El sesgo se produce cuando los datos de entrenamiento no son representativos del conjunto de datos del mundo real. Esto puede ocurrir si los datos se recogen de forma no aleatoria. Por ejemplo, si se intenta predecir si alguien dejará de pagar un préstamo y sólo se recogen datos de personas que ya han dejado de pagar, el conjunto de datos estará sesgado. El sobremuestreo puede ayudar a reducir este sesgo.
¿Causa el sobremuestreo un sobreajuste? El sobremuestreo puede causar un sobreajuste si el modelo no es capaz de generalizar desde los datos sobremuestreados a los datos reales. Esto puede ocurrir si los datos sobremuestreados son demasiado diferentes de los datos reales. Por ejemplo, si todos los puntos de datos sobremuestreados son de una clase y los datos reales son de otra clase, el modelo no podrá generalizar y se sobreajustará. ¿Qué técnica de submuestreo es la mejor? Esta pregunta no es definitiva. El mejor método de submuestreo dependerá de los datos que tenga y de sus objetivos de análisis. Algunas técnicas comunes de submuestreo son los enlaces de Tomek y el submuestreo aleatorio.