En este artículo vamos a ver qué es la Convolución en Visión por Computador.
El procedimiento de convolución
Veremos el ejemplo básico para entender el procedimiento de convolución
Snake1: Hermano esto es una manzana (FUSS FUSS)
Snake2: Está bien, pero ¿puedes darme alguna prueba? (alboroto alboroto alboroto)
Snake1: ¿Qué quieres decir con mamá serpiente nos dijo (FUSS FUSS)
Serpiente2: ����������
Estas dos pobres serpientes lucharon entre sí, pero ¿alguna vez has considerado que los humanos hacemos esto a menudo? ¿Piensa una vez?
Comparemos la visión humana con la visión de computadora por un segundo y pensemos en ello con tranquilidad.
Comparar la visión humana y la visión por computadora
¿Recuerdas en nuestra infancia que nos han enseñado mientras señalamos las frutas y al mismo tiempo visualizamos algo como ‘A’ para la manzana, ‘B’ para la pelota, etc.? Si ves esto, nuestros ojos se confunden con diferentes objetos. con la visualización y el almacenamiento de esa información, cómo se ve Apple en nuestro cerebro, se sabe que es una convolución en palabras simples.
Igual que si no ve el objeto, lo que significa que no está convolucionando para identificar o clasificar los alrededores.
¿Alguna vez pensaste que, como seres humanos, no le damos tanta importancia a los colores de un objeto en algún momento en lugar de centrarnos en la forma, el tamaño y la textura del objeto para entender cómo se ve? la manzana de color verde, color rojo, color amarillo-rojizo aún puedes entender que es una manzana porque puedes diferenciar entre forma, tamaño, la textura de diferentes objetos como manzana, mango, etc.
¿Qué pasa si nos enfocamos solo en los colores que podrían haber proporcionado información incorrecta, como que las manzanas siempre son rojas, etc.? pero no importa que el color no tenga importancia en absoluto, sino que nos enfocamos en la forma, el tamaño y la textura al principio para comprender mucho mejor porque el mismo objeto puede tener diferentes colores, lo que puede confundir nuestro cerebro en algún momento.
Si está buscando comprar una compañía de aceite refinado de la fortuna, entonces, ¿cómo se comporta? Ya tenemos la información almacenada en nuestro cerebro sobre cómo se ve el paquete de la fortuna, elegirá cada paquete de aceite refinado y luego leerá el nombre después de llegar a sé, oh hombre, no es la fortuna uno (nosotros, como seres humanos, no nos comportamos así), sino que aquí nuestros ojos están enfocados en extraer el elemento que buscamos (aceite refinado de la fortuna), ya tenemos la información almacenada en nuestro cerebro, entonces: en simple, saltamos instantáneamente de un estante a otro para encontrar el producto específico que busca y en simple usted está convolucionando a través de diferentes elementos basados en el aceite específico con la ayuda de información ya almacenada y extrayendo la información correcta instantáneamente, por lo tanto, sepa que es como convolución (uno de los aspectos importantes de la vida humana).
Ahora llevemos esto al siguiente nivel,
Considere la imagen de arriba, puede ver un elefante, un perro, un gato y un burro sin ningún problema, considérelo como una visión humana normal, pero ¿qué pasa si le digo que hay más de 15 animales en esta imagen, confundido verdad?
Bueno, ahora para descifrarlo, en lugar de resolver este acertijo, intente comprender el proceso que está siguiendo su cerebro en este momento, analicémoslo.
En primer lugar, estamos tratando de ver los bordes de estos animales en caso de que estén construyendo cualquier otro animal o no, por ejemplo, si analizas la trompa (nariz) de los elefantes, los bordes están construyendo un pez, pero ¿lo notaste en la primera mano? sin derecho
Ahora analice más, verá todos estos animales en la imagen de abajo.
Bueno, hasta ahora estábamos tratando de conectar los puntos entre la visión humana y la visión por computadora, pero dejemos la visión por computadora a un lado y pensemos en la visión humana, ¿no aplicamos primero una capa de convolución que extraía los bordes de los animales para construir el forma igual que lo hacemos en una red neuronal de convolución. Suponga que está ingresando a una habitación que nunca ha visto antes, saltará directamente al lugar al que desea ir o analizará primero las cosas, los pequeños objetos disponibles en la habitación y luego llegará al lugar al que desea ir.
Otro ejemplo puede ser cuando cruzas una calle muy transitada y llena de tráfico, ¿no te das cuenta primero de cada vehículo?
Bueno, dado que las redes neuronales de convolución aprenden de los datos, siguen el mismo paso, primero, intentan analizar el componente más pequeño, los bordes, y comprender la construcción básica de los objetos, como sabemos, al comenzar, las capas de convolución extraen los bordes y los gradientes primero, luego los patrones, partes de objetos y, finalmente, el objeto completo aparece en la imagen. Ya que ahora tenemos una comprensión clara del procedimiento de la visión en nuestras manos, hablemos de algo interesante.
“La importancia de la operación de convolución es la misma que la del agua para un ser humano”
En la infancia, cuando un niño tiene solo unos meses, nunca visualiza los objetos como lo hacemos nosotros. Un niño pequeño solo puede ver algunos bordes y patrones del entorno, esta es una de las razones por las que los niños lloran mucho cuando son bebés. Ven formas borrosas de diferentes objetos e incluso la ciencia dice que solo tienen vista en el rango de 20/200 a 20/400. Piensas en lo que está pasando allí, bueno, son cosas convolutivas, puedes considerar esa edad temprana como el inicio de capas de convolución.
Publicación traducida automáticamente
Artículo escrito por vivekdataebook y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA