La ingeniería de características es el proceso de utilizar el conocimiento del dominio para extraer características de los datos en bruto. Estas características se pueden utilizar para mejorar el rendimiento de los algoritmos de aprendizaje automático.
La ingeniería de características es una parte crítica para construir modelos de aprendizaje automático exitosos. El proceso de ingeniería de características se puede dividir en tres pasos:
1. Selección de características: seleccionar un subconjunto de las características disponibles para usar en el modelo.
2. 2. Extracción de características: construir nuevas características a partir de los datos existentes.
3. Transformación de características: transformar las características para mejorar el poder predictivo del modelo.
La ingeniería de características es un proceso iterativo y a menudo es útil probar diferentes combinaciones de características para ver qué funciona mejor. Además, el proceso de ingeniería de características debería automatizarse en la medida de lo posible para facilitar la experimentación con diferentes combinaciones de características.
¿Cuáles son los tipos de ingeniería de características?
Hay muchos tipos de ingeniería de características, pero algunos comunes son:
Limpieza de datos: Se trata de limpiar los datos de cualquier valor no válido o que falte. Esto se hace a menudo utilizando técnicas como la imputación.
Transformación de datos: Se trata de transformar los datos en un formato más adecuado para la modelización. Esto puede implicar el escalado de los datos, la codificación de variables categóricas en un solo paso o la creación de nuevas características a partir de las existentes (por ejemplo, características polinómicas).
Selección de características: Se trata de seleccionar un subconjunto de las características originales para utilizarlas en el modelo. Esto puede hacerse manualmente o utilizando técnicas automatizadas como la importancia de las características o la regularización.
¿Es el PCA ingeniería de características?
No, PCA no es ingeniería de características.
PCA es una técnica de reducción de la dimensionalidad, que puede ser útil para visualizar los datos o para simplificar las tareas de aprendizaje automático. Sin embargo, el PCA no implica la creación de nuevas características a partir de datos existentes, como lo hace la ingeniería de características. ¿Qué hace que la ingeniería de características sea tan difícil? La ingeniería de rasgos es difícil porque requiere creatividad y conocimiento del dominio para crear nuevos rasgos que puedan ser útiles para un modelo de aprendizaje automático. La ingeniería de características puede llevar mucho tiempo, y a veces es necesario probar y equivocarse antes de encontrar las características adecuadas.
¿Cuáles son los dos pasos de la ingeniería de características?
1. El primer paso de la ingeniería de características es la selección de características, que es el proceso de selección de las características más relevantes del conjunto de datos que se utilizará para entrenar el modelo. Este paso es importante porque puede ayudar a reducir la complejidad del modelo y mejorar la precisión de las predicciones.
2. El segundo paso de la ingeniería de características es la extracción de características, que es el proceso de transformar las características seleccionadas en un formato adecuado para el modelo. Este paso es importante porque puede ayudar a mejorar el rendimiento del modelo.
¿Por qué es difícil la ingeniería de rasgos?
La ingeniería de rasgos es difícil porque requiere creatividad y conocimiento del dominio para encontrar nuevos rasgos que puedan ser útiles para un modelo de aprendizaje automático. Además, la ingeniería de características lleva mucho tiempo y a veces requiere un proceso de prueba y error para encontrar las mejores características a utilizar.