¿Cuáles son algunos recursos de aprendizaje automático para comprender quién es el orador en una imagen determinada?

Puedo pensar en una manera de resolver esto.

Supuesto: El conjunto de imágenes pertenece al mismo grupo de personas y sus caras se pueden ver (boca, labios, mirada).

El conjunto de entrenamiento incluirá los parámetros de delimitación: gestos de las manos, aberturas de la boca y la mirada y la dirección de la cara y el rostro (lenguaje corporal). Los modelos pueden basarse en los campos aleatorios de Markov a escala global y cada parámetro es probablemente su propio algoritmo (hay un montón de investigación al respecto). Para aprender estos modelos, las múltiples técnicas de aprendizaje pueden ser útiles porque hay muchos factores a considerar para determinar quién está hablando en un conjunto de imágenes. El colector de dimensión inferior puede proporcionarle una estimación rápida de quién es el orador en el conjunto de imágenes.

Una cara habladora también puede ser un conjunto de entrenamiento y las interfaces dinámicas activas pueden darle modos de variación donde la cara está hablando. Este tipo de cae también bajo el vasto tema de aprendizaje múltiple.

Aquí hay un documento reciente relacionado con la identificación de los oradores en las imágenes. Recomendaría encarecidamente buscar las referencias porque el documento solo muestra resultados cuantitativos. Página en Rutgers

Ankur