En este trabajo se describe el diseño, implementación y evaluación de un
sistema de seguimiento de locutores usando fusión audiovisual.
La información de audio y vídeo es obtenida a partir de
agrupaciones (arrays) de micrófonos y
cámaras de vídeo situados en el entorno. El sistema propuesto
está compuesto por dos bloques de extracción de la información
de audio y vídeo respectivamente, y otro que fusiona esta
información en un plano de ocupación paralelo y a una altura
determinada del suelo. Un filtro de partículas que opera sobre la
información fusionada permite obtener finalmente la localización
estimada del locutor en cada instante de tiempo. Como bloque
de extracción de la información de audio se usa un algoritmo de
detección de actividad acústica por sectores (volúmenes cónicos
alrededor de cada array) sobre el plano de ocupación definido,
y posteriormente busca en el interior de las intersecciones de
los sectores activos la región de máxima potencia acústica,
usando el algoritmo Steered Response Power (SRP). El bloque de
extracción de la información de visión detecta rostros humanos
en las imágenes obtenidas con las cámaras de vídeo, con una
versión multi-pose del algoritmo Viola and Jones, y proyecta estas
detecciones sobre el plano de ocupación generado. El sistema ha
sido evaluado usando la base de datos AV16.3 con resultados
prometedores.
|