¿Hay una aplicación donde puedo tomar una foto de algo y luego me dice qué es?

Esta es una pregunta bastante complicada, incluso si no lo parece. La respuesta corta es no”. El poco más largo es “todavía no”. Hablando estrictamente, hay varios marcos que pueden tener éxito en la identificación de objetos de un conjunto de varios (decenas) de objetos conocidos. Por ejemplo, puede ver uno de los conjuntos de datos de corrientes para probar algoritmos, los conjuntos de datos CIFAR10: CIFAR-10 y CIFAR-100. Solo hay diez clases, pero aunque nosotros, como humanos, podemos identificar rápidamente cada objeto, es muy difícil para una computadora, y necesita una cantidad gigantesca de ejemplos para aprenderlo correctamente. Entonces todavía hay trabajo antes de que podamos identificar cada objeto sin algún conjunto de objetos previo.

Sin embargo, en muchos casos tenemos accesos directos: por ejemplo, si está tomando una foto de la torre Eiffel, entonces el programa puede usar sus coordenadas GPS y deducir rápidamente que es probable que esté mirando la torre antes de hacer cualquier Análisis de la imagen. O, si busca una imagen a través de una URL, puede ser más fácil buscar lo que es a través del sitio web de origen, y no realizando un análisis de imagen.

Finalmente, si desea un programa que identifique los tipos de árboles, entonces es posible lograrlo primero creando una gran base de datos de árboles comunes / conocidos y enseñando el programa. Además, puede ‘engañar’ utilizando datos de GPS, por ejemplo, para ayudarlo en la identificación. Uno de los problemas aquí es que, si bien es posible identificar árboles si toma una foto de una manera específica, es decir, solo de la hoja del árbol en una condición de iluminación específica, etc., es mucho más difícil realizar la identificación cuando Me gustaría tomar la foto libremente.

Nuestra startup tiene una plataforma, llamada Human.io, que le permite implementar tareas de crowdsourcing de manera súper fácil. Como este era un ejemplo perfecto de algo que los humanos pueden hacer trivialmente pero es difícil para las computadoras, lo construí para mí mismo ya que tenía el mismo problema, iría a pasear a los perros y vería una flor bonita o una planta interesante y de ninguna manera para identificarlo

La búsqueda visual es bastante sencilla, toma una fotografía y otras personas pueden responder con lo que piensan que es tu artículo.


Usando esta herramienta, pude identificar una flor como una pasionaria y pensé que era bastante impresionante. Puede probar Visual Search, así como muchas otras cosas, instalando la aplicación Human.io para iOS o Android, los enlaces están en http://human.io .

Si es programador, intente crear sus propias cosas con Human.io, hemos dedicado mucho esfuerzo a facilitar las cosas, especialmente para las cosas que son móviles y sociales.

Se está investigando mucho en Scene Understanding, ya que es una tarea de visión por computadora de alto nivel. Debe leer sobre estas investigaciones y encontrará una respuesta que sea apropiada para su pregunta. Aunque puedes entender muchas escenas usando estas investigaciones, pero un sistema que puede imitar la visión humana es la próxima gran cosa en la que todos parecen concentrarse en la comprensión de la escena.

Todavía no creo que el tipo de potencia informática y los tamaños de bases de datos necesarios para ese nivel de reconocimiento de imágenes sean factibles en hardware de consumo o servidores básicos. Dale otros 5 o 10 años.

Supongo que se podría hacer una aplicación específicamente para reconocer los tipos de árboles, y no sería demasiado difícil, al menos no si la imagen mostrara claramente la forma de la hoja, el patrón de la corteza, etc. Pero si entiendo correctamente, desea un sistema que Reconozco casi cualquier cosa: un vestido, una tarjeta, un tipo específico de celda, una constelación … No creo que sea factible todavía, al menos no en algo cercano al tiempo real.

Hoy en día es posible identificar objetos o incluso personas con detalles relevantes de las imágenes tomadas a través de las cámaras normales de los teléfonos inteligentes debido a los recientes avances en Inteligencia Artificial (IA), el próximo gran avance en tecnología. La IA aún no se ha democratizado por completo, ya que no está disponible por razones como el costo de los componentes, la informática y el retorno de la inversión. Pero en estos días la informática se está volviendo más barata, la investigación y el desarrollo en IA están aumentando, y todos estos factores han hecho que la IA, la visión por computadora (CV) y el aprendizaje automático (ML) estén disponibles a un costo más viable económicamente.

Muchas empresas innovadoras han desarrollado aplicaciones y softwares que pueden identificar objetos de imágenes tomadas en teléfonos inteligentes / cámaras web, etc. utilizando los últimos avances en el campo de la visión por computadora.

A continuación se enumeran algunas de las nuevas empresas prometedoras que trabajan en visión artificial e inteligencia artificial:

  1. Mashgin : Startup está construyendo un quiosco de pago minorista con visión por computadora. El quiosco puede identificar varios artículos simultáneamente, en cualquier orientación y generar la factura después de un solo escaneo.
  2. AIndra – Aindra es una startup de inteligencia artificial (IA) que crea productos basados ​​en visión artificial (CV) y aprendizaje automático (ML). La plataforma impulsada por AI, CV y ​​ML de Aindra permite a las compañías de seguros, tecnología financiera y logística aprovechar el análisis visual de sus imágenes / videos existentes recopilados de escenarios de la vida real para la creación de perfiles de riesgo automatizados, estimación de daños, etc. de activos asegurables. La solución de gestión de identidad y fraude de Aindra es una plataforma lo suficientemente robusta como para procesar imágenes faciales capturadas por cualquier dispositivo de captura de fotos de bajo costo como teléfonos inteligentes, cámaras IP, etc.
  3. Oriense : crea un dispositivo especial impulsado por la visión por computadora (CV) y el aprendizaje automático (ML) para personas ciegas y con discapacidad visual, que resuelve tres problemas principales: evitar obstáculos, geo-navegación y reconocimiento de imágenes.
  4. Blue River Technology – Aplicación agrícola del reconocimiento de malezas utilizando Computer Vision (CV) en un campo agrícola y posterior eliminación por aceite orgánico caliente automáticamente.

PD: Estas nuevas empresas han presentado soluciones novedosas para casos de uso que tienen un alto potencial de crecimiento en el mercado.

Para más información sobre Inteligencia Artificial (IA), Visión por Computadora (CV) y Aprendizaje Automático (ML), consulte el blog de Aindra Systems .

¿Has probado las gafas de Google? Si tiene un teléfono Jelly Bean, también tiene búsqueda con opción de imagen … toma una foto e intentará encontrar una foto similar en línea … use esa foto para investigar más.

Esta es una tecnología nueva, por lo que el resultado no siempre es preciso o, en algunos casos, no hay ningún resultado. Pero esas dos aplicaciones deberían ser un buen comienzo.

Pude encontrar un té japonés que compré en Japón pero no sabía el tipo.

Secundaré la respuesta de Nipun arriba.

Las gafas de Google (aplicaciones de Android en Google Play) han existido por un tiempo y funcionan bastante bien. La desventaja en la actualidad es que la base de datos de objetos es limitada. Sin embargo, la opción de búsqueda de imágenes funciona bastante bien.

Escuché esta idea exacta hace aproximadamente un año, y no hay un software de registro en el mercado que pueda hacer eso que yo sepa. Para crear el software, no será barato si es posible, supongo que es fácil en las 6 cifras.

Las aplicaciones de reconocimiento de imágenes se están desarrollando rápidamente desde los últimos 6 meses.

Los más famosos se usan con fines de moda: puedes probar CamFind o Slyce si quieres. Blippar, y ahora Shazam también lanzaron sus propias aplicaciones.

Todavía hay trabajo por hacer en ese campo, el aprendizaje por computadora no es tan rápido como la forma en que nuestro cerebro interpreta las imágenes, incluso si el rendimiento ha mejorado desde los últimos años.

La compañía para la que trabajo, Xilopix, también está trabajando para desarrollar una aplicación, principalmente para comercio electrónico, de modo que las personas en la calle puedan tomar una foto de un atuendo que les guste, luego se reconoce y el usuario puede terminar comprándolo Los minoristas.
Podemos imaginar que esta tecnología se utilizará para identificar cualquier cosa en el futuro cercano, y esperamos que obtenga resultados relevantes.

Como dijeron Daniel e Ido, para ser eficientes, estas tecnologías necesitan un par de años más para mejorar.
Sin embargo, realmente creo que podría encontrar a su audiencia y ser fuertemente adoptada por los usuarios de teléfonos inteligentes en todo el mundo, ya que las personas usan su teléfono para buscar información, tomar fotos, etc.

Google goggles, pero prefiero la imagen de búsqueda, si encuentras una mejor, házmelo saber