Google Cloud Vision API es una de las herramientas de la Google Cloud Platform que permite realizar un análisis de un gran número de imágenes, para posteriormente extraer información de gran valor que contribuyan a su interpretación.

Google lanzó este sistema en el año 2015 con opciones para los desarrolladores, como la integración sencilla de las funciones de detección de visión en diferentes aplicaciones, el etiquetado de imágenes y contenido explícito, entre otros. Además, facilita tareas a los desarrolladores, y soporta formatos en archivos diferentes como JPEG o RAW.

Google Cloud Vision también detecta caras y puntos de referencia y cuenta con un reconocimiento óptico de caracteres, también conocido como Optical Character Recognition (OCR).

¿Qué encontrarás en este post?

Características de Google Cloud Vision API

Dentro de los elementos que caracterizan a Google Cloud Vision, se encuentran el face detection, landmark detection, text detection y logo detection, entre otras, que funcionan realizando una petición a esta herramienta. Te las detallamos a continuación:

Face detection

La detección de rostros de Google Cloud Vision permite detectar una o varias caras humanas dentro de una imagen, así como las propiedades o atributos faciales clave asociados, tales como el estado emocional y la información relacionada con las coordenadas de la posición del rostro, sus puntos de referencia y orientación. Esta opción no permite el reconocimiento facial individual de tipo específico.

La herramienta de detección de rostros tiene la función de hacer coincidir la información biométrica asociada a una cara detectada, con los datos biométricos de rostros almacenados y etiquetados, por lo que tienen un mejor funcionamiento en los casos donde la cara se ve de manera frontal.

🔴 ¿Quieres entrar de lleno al mundo DevOps & Cloud Computing? 🔴

Descubre el DevOps & Cloud Computing Full Stack Bootcamp de KeepCoding. La formación más completa del mercado y con empleabilidad garantizada

👉 Prueba gratis el Bootcamp en DevOps & Cloud Computing por una semana

Para el face detection es importante la distancia medida en píxeles entre pupilas, debido a que esto permite obtener una detección precisa. Google Cloud Vision, también llamado Google Vision, es capaz de ofrecer resultados efectivos cuando esta distancia es de un mínimo de 32 píxeles.

Landmark detection

La detección de puntos de referencia en Google Cloud Vision se encarga de detectar estructuras populares de tipo natural o artificial dentro de una determinada imagen. Además, esta API tiene la capacidad de detectar las características en un archivo de imagen local, siempre y cuando el usuario envíe los contenidos de este archivo de imagen como una string o cadena de caracteres codificada en el sistema de numeración posicional base64 en el contenido de la solicitud.

Esta herramienta también permite la detección de puntos de referencia en archivos remotos, es decir, propiedades directamente desde un archivo de imagen que se encuentre ubicado en plataformas de almacenamiento como Google Cloud Storage, o que estén en la web, sin que sea necesario enviar el contenido de este archivo de imagen dentro del cuerpo de la solicitud.

Para esta opción de detectar puntos de referencia, la API de Google Cloud Vision le devolverá al usuario la longitud y latitud del landmark identificado.

Label detection

CloudVision de Google ofrece una detección de etiquetas, que consiste en identificar y extraer información acerca de las entidades de una imagen en un amplio grupo de categorías. Estas etiquetas pueden identificar objetos en general, ubicaciones, acciones, animales, productos y demás.

El usuario también tiene la posibilidad de crear etiquetas personalizadas de orientación, a través de la plataforma Cloud AutoML Vision, donde podrá entrenar un modelo de aprendizaje automática personalizado que permite clasificar las imágenes.

Cabe resaltar que estas etiquetas solo se muestran en inglés y se devuelven en formato de estructura JSON junto con el porcentaje de acierto.

Text detection

Esta característica de Google Cloud Vision permite detectar y extraer texto de imágenes, mediante el uso del OCR o Reconocimiento Óptico de Caracteres, que tiene compatibilidad con varios idiomas y cuyos algoritmos en combinación con ciertas reglas semánticas se usan para el reconocimiento de matrícula, por lo que la API de Google Cloud Vision devuelve al usuario una cadena de texto con sus coordenadas, así como palabras individuales y sus cuadros de límite.

qué es google cloud vision API y para qué sirve

Existe una variación de la detección de texto y es la document text detection de Google Cloud Vision, donde también se extrae el texto de la imagen, pero la respuesta se optimiza para los textos y demás documentos de gran extensión. Se incluye un archivo en formato JSON que contiene los datos referentes a la página, la división, el bloque, el párrafo y la palabra.

Logo detection

La logo detection de CloudVision de Google se encarga de detectar los logotipos populares que se encuentren en una imagen, ya sea dentro de un archivo local o desde una imagen remota. Esta plataforma también permite que el usuario utilice una imagen ya especificada para detectar el logo o que especifique su propia imagen a través de la opción de personalización.

Ahora que ya conoces qué es el servicio Google Cloud Vision y cuáles son sus características y funcionalidades más importantes, no dudes en seguir aprendiendo gracias a nuestro DevOps & Cloud Computing Full Stack Bootcamp, donde en menos de 6 meses dominarás todo lo necesario para convertirte en un experto dentro del sector IT. ¡Inscríbete ahora!