Una red neuronal convolucional (CNN) es un tipo de red neuronal artificial que se utiliza para procesar datos que tienen una topología cuadriculada, como las imágenes. Las CNN son similares a las redes neuronales tradicionales, pero están compuestas por una serie de capas convolucionales, que extraen características de los datos que pueden utilizarse para la clasificación u otras tareas.
Las capas convolucionales están formadas por un conjunto de neuronas que se conectan a una pequeña región de los datos de entrada, y realizan una operación de convolución sobre los datos para extraer características. Por ejemplo, una neurona en la primera capa convolucional podría estar conectada a una región de 5x5 de la imagen de entrada, y realizaría una operación de convolución en esa región para extraer características.
Las CNN suelen estar compuestas por una serie de capas convolucionales, seguidas de una serie de capas totalmente conectadas. La salida de la CNN puede utilizarse para la clasificación, la regresión u otras tareas. ¿Qué son los canales en las CNN? Un canal en una red neuronal convolucional (CNN) es un filtro que extrae una característica específica de una imagen de entrada. Por ejemplo, un canal puede extraer los bordes de una imagen. Los canales se combinan para formar la salida final de la CNN.
¿Qué es la clasificación de imágenes CNN? Una clasificación de imágenes CNN es un proceso de asignación de una etiqueta de clase a una imagen, que se realiza mediante una red neuronal convolucional (CNN) entrenada. Una CNN es un tipo de red neuronal artificial diseñada para trabajar con imágenes. Se compone de una serie de capas, cada una de las cuales realiza una tarea específica, como la convolución, la agrupación y la clasificación. El proceso de clasificación de imágenes de la CNN comienza con la capa de entrada, donde se introduce la imagen en la red. A continuación, la imagen es procesada por la capa convolucional, que extrae características de la imagen. La capa de agrupación reduce la dimensionalidad del mapa de características y la capa de clasificación asigna una etiqueta de clase a la imagen.
¿Qué es una CNN convolucional?
Las redes neuronales convolucionales (ConvNets o CNNs) son una categoría de redes neuronales que han demostrado ser muy eficaces en áreas como el reconocimiento y la clasificación de imágenes. Las ConvNets han tenido éxito en la identificación de rostros, objetos y señales de tráfico, además de impulsar la visión en robots y coches autoconducidos.
Las ConvNets son similares a las redes neuronales ordinarias en el sentido de que están formadas por neuronas que tienen pesos y sesgos aprendibles. Cada neurona recibe unas entradas, realiza un producto de puntos y, opcionalmente, lo sigue con una no linealidad. Toda la red sigue expresando una única función de puntuación diferenciable: desde los píxeles de la imagen en bruto en un extremo hasta las puntuaciones de la clase en el otro. Y todavía tienen una función de pérdida (por ejemplo, SVM/Softmax) en la última capa (totalmente conectada) y todos los consejos/trucos que conocemos sobre las redes neuronales todavía se aplican.
¿Qué hace que las redes neuronales sean diferentes?
Las redes neuronales convolucionales aprovechan el hecho de que la entrada consiste en imágenes y restringen la arquitectura de una manera más sensible. En concreto, a diferencia de una red totalmente conectada, en la que todos los nodos de una capa están totalmente conectados a todos los nodos de la capa anterior, una ConvNet tiene conexiones entre los nodos sólo en una región local. Las regiones locales están escasamente conectadas y están dispuestas en forma de mosaico para cubrir toda la entrada. Cada nodo de una capa está conectado a una pequeña región (normalmente 3x3 o 5x5) de la capa anterior. Este patrón de conectividad dispersa da lugar a muchos menos parámetros (pesos) y, sobre todo, reduce la cantidad de memoria necesaria para almacenar los parámetros. Por último, permite que las características aprendidas por la red se trasladen a toda la entrada.
Otro elemento importante de una ConvNet es la capa de agrupación. La capa de pooling (submuestreo) reduce la dimensionalidad de cada mapa de características pero ¿Qué son los canales en CNN? Los canales en CNN se refieren al número de filtros utilizados en la capa convolucional. Por ejemplo, si tenemos una imagen de entrada de 32x32x3 y utilizamos 10 filtros en la capa convolucional, la salida será de 32x32x10.