Inteligencia artificial para videovigilancia

 

La inteligencia artificial para la videovigilancia utiliza programas informáticos que analizan el audio y las imágenes de las cámaras de videovigilancia para reconocer personas, vehículos, objetos, atributos y eventos. El programa de contratistas de seguridad es el software para definir áreas restringidas dentro de la vista de la cámara (como un área cercada, un estacionamiento pero no la acera o la calle pública fuera del lote) y el programa para las horas del día (como después del cierre del negocio) para la propiedad protegida por la cámara de vigilancia . La inteligencia artificial ("AI") envía una alerta si detecta un intruso que rompe la "regla" establecida de que no se permite a ninguna persona en esa área durante ese momento del día.

El programa de IA funciona mediante el uso de visión artificial. La visión artificial es una serie de algoritmos., o procedimientos matemáticos, que funcionan como un diagrama de flujo o una serie de preguntas para comparar el objeto visto con cientos de miles de imágenes de referencia almacenadas de humanos en diferentes posturas, ángulos, posiciones y movimientos. La IA se pregunta si el objeto observado se mueve como las imágenes de referencia, si tiene aproximadamente el mismo tamaño de altura en relación con el ancho, si tiene la característica de dos brazos y dos piernas, si se mueve con una velocidad similar y si es vertical. de horizontales. Son posibles muchas otras preguntas, como el grado en que el objeto refleja, el grado en que es estable o vibra, y la suavidad con la que se mueve. Combinando todos los valores de las diversas preguntas, se deriva una clasificación general que le da a la IA la probabilidad de que el objeto sea o no un ser humano. Si el valor supera un límite establecido, se envía la alerta. Es característico de tales programas que son autoaprendizaje hasta cierto punto, aprendiendo, por ejemplo, que los humanos o los vehículos aparecen más grandes en ciertas partes de la imagen monitoreada, las áreas cercanas a la cámara, que en otras partes, que son las áreas más alejadas de la cámara.

Además de la regla simple que restringe el acceso de humanos o vehículos a ciertas áreas en ciertos momentos del día, se pueden establecer reglas más complejas. El usuario del sistema puede desear saber si los vehículos circulan en una dirección pero no en la otra. Los usuarios pueden desear saber que hay más de un cierto número preestablecido de personas dentro de un área en particular. La IA es capaz de mantener la vigilancia de cientos de cámaras simultáneamente. Su capacidad para detectar a un intruso en la distancia o bajo la lluvia o el resplandor es superior a la capacidad de los humanos para hacerlo.

Este tipo de IA para la seguridad se conoce como " basada en reglas " porque un programador humano debe establecer reglas para todas las cosas sobre las que el usuario desea recibir alertas. Esta es la forma más frecuente de IA para la seguridad. Muchos sistemas de cámaras de videovigilancia en la actualidad incluyen este tipo de capacidad de IA. El disco duro que alberga el programa puede estar ubicado en las propias cámaras o puede estar en un dispositivo separado que recibe la entrada de las cámaras.

Se ha desarrollado una forma de IA para la seguridad más nueva, no basada en reglas, llamada " análisis de comportamiento”. Este software es totalmente de autoaprendizaje sin entrada de programación inicial por parte del usuario o contratista de seguridad. En este tipo de análisis, la IA aprende cuál es el comportamiento normal de las personas, los vehículos, las máquinas y el entorno en función de su propia observación de patrones de diversas características, como tamaño, velocidad, reflectividad, color, agrupación, orientación vertical u horizontal, etc. La IA normaliza los datos visuales, lo que significa que clasifica y etiqueta los objetos y patrones que observa, creando definiciones continuamente refinadas de lo que es un comportamiento normal o promedio para los diversos objetos observados. Después de varias semanas de aprender de esta manera, puede reconocer cuándo las cosas rompen el patrón. Cuando observa tales anomalías, envía una alerta. Por ejemplo, es normal que los coches circulen por la calle. Un automóvil visto conduciendo hacia una acera sería una anomalía. Si un patio cercado normalmente está vacío por la noche, una persona que ingrese a esa área sería una anomalía.

Contenido

1             Historia

1.1          Planteamiento del problema

1.2          Intentos anteriores de solución

1.2.1      Cámaras de detección de movimiento

1.2.2      Detección de movimiento de vídeo avanzada

1.3          Advenimiento de la verdadera analítica de video

2             Aplicación práctica

2.1          Acción preventiva en tiempo real

2.1.1      Hablar abajo

2.1.2      Informe de incumplimiento verificado

3             Análisis de comportamiento

3.1          Entornos activos

3.1.1      Superar el problema de los entornos activos

3.1.2      Lo que la inteligencia artificial 'entiende'

3.1.3      Varía de la mentalidad tradicional de los sistemas de seguridad.

3.1.4      Limitaciones del análisis de comportamiento

3.1.5      Cuantificación de la conciencia situacional

4             Ver también

5             Referencias

6          Reconocimiento de actividad

7         Análisis de multitudes

Historia

Planteamiento del problema

Las limitaciones en la capacidad de los humanos para monitorear atentamente las imágenes en vivo de la videovigilancia llevaron a la demanda de inteligencia artificial que pudiera cumplir mejor la tarea. Los humanos que miran un solo monitor de video durante más de veinte minutos pierden el 95% de su capacidad para mantener la atención suficiente para discernir eventos significativos. Con dos monitores, esto se vuelve a reducir a la mitad. Dado que muchas instalaciones tienen docenas o incluso cientos de cámaras, la tarea está claramente más allá de la capacidad humana. En general, las vistas de la cámara de pasillos vacíos, instalaciones de almacenamiento, estacionamientos o estructuras son extremadamente aburridas y, por lo tanto, la atención se atenúa rápidamente. Cuando se monitorean varias cámaras, generalmente empleando un monitor de pared o un banco de monitores con vistas de pantalla dividida y rotando cada varios segundos entre un conjunto de cámaras y el siguiente, el tedio visual es rápidamente abrumador. Si bien las cámaras de videovigilancia proliferaron con gran adopción por parte de usuarios que iban desde concesionarios de automóviles y plazas comerciales hasta escuelas y negocios e instalaciones de alta seguridad como plantas nucleares, se reconoció en retrospectiva que la videovigilancia por parte de oficiales humanos (también llamados "operadores") no era práctica. e ineficaz. Los extensos sistemas de videovigilancia quedaron relegados a la mera grabación para un posible uso forense para identificar a alguien, después de un robo, incendio provocado, ataque o incidente. Donde se emplearon vistas de cámara de gran angular, particularmente para grandes áreas al aire libre, se descubrieron severas limitaciones incluso para este propósito debido a una resolución insuficiente. En estos casos, es imposible identificar al intruso o perpetrador porque su imagen es demasiado pequeña en el monitor.

Intentos anteriores de solución

Cámaras de detección de movimiento

En respuesta a las deficiencias de los guardias humanos para observar los monitores de vigilancia a largo plazo, la primera solución fue agregar detectores de movimiento a las cámaras. Se razonó que el movimiento de un intruso o perpetrador enviaría una alerta al oficial de monitoreo remoto obviando la necesidad de una vigilancia humana constante. El problema era que en un entorno exterior hay un movimiento constante o cambios de píxeles que componen la imagen total vista en la pantalla. El movimiento de las hojas de los árboles que se mueven con el viento, la basura esparcida por el suelo, los insectos, los pájaros, los perros, las sombras, los faros, los rayos de sol, etc., todo comprende movimiento. Esto provocó cientos o incluso miles de alertas falsas por día, lo que hizo que esta solución no funcionara, excepto en entornos interiores durante las horas no operativas.

Detección avanzada de movimiento de video

La próxima evolución redujo las alertas falsas hasta cierto punto, pero a costa de una calibración manual complicada y que consumía mucho tiempo. Aquí, se detectan los cambios de un objetivo, como una persona o un vehículo, en relación con un fondo fijo. Cuando el fondo cambia estacionalmente o debido a otros cambios, la confiabilidad se deteriora con el tiempo. La economía de responder a demasiadas alertas falsas nuevamente demostró ser un obstáculo y esta solución no fue suficiente.

Advenimiento de la verdadera analítica de video

El aprendizaje automático del reconocimiento visual se relaciona con los patrones y su clasificación. El verdadero análisis de video puede distinguir la forma humana, vehículos y botes u objetos seleccionados del movimiento general de todos los demás objetos y estática visual o cambios en píxeles en el monitor. Lo hace mediante el reconocimiento de patrones. Cuando el objeto de interés, por ejemplo, un ser humano, viola una regla preestablecida, por ejemplo, que la cantidad de personas no debe exceder cero en un área predefinida durante un intervalo de tiempo definido, se envía una alerta. Un rectángulo rojo o el llamado "cuadro delimitador" generalmente seguirán automáticamente al intruso detectado, y se envía un breve videoclip de esto como alerta.

Aplicación práctica

Detección de peatones

Acción preventiva en tiempo real

La detección de intrusos mediante videovigilancia tiene limitaciones basadas en la economía y la naturaleza de las cámaras de video. Por lo general, las cámaras al aire libre se configuran en una vista de gran angular y, sin embargo, miran a una gran distancia. La velocidad de fotogramas por segundo y el rango dinámico para manejar áreas muy iluminadas y con poca luz desafían aún más a la cámara para que sea realmente adecuada para ver a un intruso humano en movimiento. Por la noche, incluso en áreas al aire libre iluminadas, un sujeto en movimiento no capta suficiente luz por cuadro por segundo y, por lo tanto, a menos que esté muy cerca de la cámara, aparecerá como una delgada voluta o un fantasma apenas perceptible o completamente invisible. Las condiciones de deslumbramiento, oscurecimiento parcial, lluvia, nieve, niebla y oscuridad agravan el problema. Incluso cuando a un ser humano se le indica que mire la ubicación real en un monitor de un sujeto en estas condiciones, por lo general, el sujeto no será detectado. La IA puede mirar imparcialmente la imagen completa y las imágenes de todas las cámaras simultáneamente. Usando modelos estadísticos de grados de desviación de su patrón aprendido de lo que constituye la forma humana, detectará un intruso con alta confiabilidad y una baja tasa de falsas alertas incluso en condiciones adversas. Su aprendizaje se basa en aproximadamente un cuarto de millón de imágenes de humanos en varias posiciones, ángulos, posturas, etc.

Una cámara de un megapíxel con análisis de video incorporado pudo detectar a un humano a una distancia de aproximadamente 350 'y un ángulo de visión de aproximadamente 30 grados en condiciones no ideales. Se pueden establecer reglas para una "valla virtual" o intrusión en un área predefinida. Se pueden establecer reglas para viajes direccionales, objetos dejados atrás, formación de multitudes y algunas otras condiciones. La inteligencia artificial para la videovigilancia se usa ampliamente en China. Ver Vigilancia masiva en China.

Talk-down

Una de las características más poderosas del sistema es que un oficial u operador humano, al recibir una alerta de la IA, podría hablar inmediatamente al intruso a través de altavoces públicos al aire libre. Esto tenía un alto valor de disuasión ya que la mayoría de los delitos son oportunistas y el riesgo de captura para el intruso se vuelve tan pronunciado cuando una persona viva le habla que es muy probable que desista de la intrusión y se retire. El oficial de seguridad describiría las acciones del intruso para que el intruso no tuviera dudas de que una persona real lo estaba observando. El oficial anunciaría que el intruso estaba infringiendo la ley y que se estaba contactando a la policía y que estaban siendo grabados en video.

Informe de incumplimiento verificado

La policía recibe una gran cantidad de falsas alarmas de alarmas antirrobo. De hecho, la industria de la seguridad informa que más del 98% de tales alarmas son falsas. En consecuencia, la policía da una respuesta de muy baja prioridad a las alarmas antirrobo y puede tardar entre veinte minutos y dos horas en responder al sitio. Por el contrario, el delito detectado por análisis de vídeo se informa al oficial de seguimiento central, quien verifica con sus propios ojos que se trata de un delito real en curso. Él o ella luego envían a la policía, que le da la máxima prioridad a tales llamadas.

Análisis de comportamiento

Entornos activos

Si bien el análisis de video basado en reglas funcionó de manera económica y confiable para muchas aplicaciones de seguridad, hay muchas situaciones en las que no puede funcionar. [9] Para un área interior o exterior a la que nadie pertenece durante ciertos momentos del día, por ejemplo, durante la noche, o para áreas a las que nadie pertenece en ningún momento, como una torre de telefonía celular , el análisis tradicional basado en reglas es perfectamente apropiado. En el ejemplo de una torre de telefonía móvil, el raro momento en que un técnico de servicio puede necesitar acceder al área simplemente requeriría llamar con un código de acceso para poner la respuesta de monitoreo "en prueba" o inactivada por el breve tiempo que la persona autorizada estuvo allí. .

Pero hay muchas necesidades de seguridad en entornos activos en los que cientos o miles de personas pertenecen a todos lados todo el tiempo. Por ejemplo, un campus universitario, una fábrica activa, un hospital o cualquier instalación operativa activa. No es posible establecer reglas que discriminen entre personas legítimas y delincuentes o malhechores.

Superando el problema de los entornos activos

Usando análisis de comportamiento, una IA de autoaprendizaje no basada en reglas toma los datos de las cámaras de video y clasifica continuamente los objetos y eventos que ve. Por ejemplo, una persona que cruza una calle es una clasificación. Un grupo de personas es otra clasificación. Un vehículo es una clasificación, pero con el aprendizaje continuo se discriminaría un autobús público de un camión pequeño y de una motocicleta. Con una sofisticación cada vez mayor, el sistema reconoce patrones en el comportamiento humano. Por ejemplo, podría observar que las personas pasan por una puerta de acceso controlado de una en una. La puerta se abre, la persona presenta su tarjeta o tag de proximidad, la persona pasa y la puerta se cierra. Este patrón de actividad, observado repetidamente, forma la base de lo que es normal en la visión de la cámara que observa esa escena. Ahora bien, si una persona autorizada abre la puerta pero una segunda persona no autorizada "de seguimiento" agarra la puerta antes de que se cierre y pase, ese es el tipo de anomalía que crearía una alerta. Este tipo de análisis es mucho más complejo que el análisis basado en reglas. Mientras que el análisis basado en reglas funciona principalmente para detectar intrusos en áreas donde normalmente nadie está presente en momentos definidos del día, el análisis de comportamiento funciona donde las personas están activas para detectar cosas que están fuera de lo común.

Un incendio al aire libre sería un evento inusual y causaría una alerta, al igual que una nube de humo ascendente. Los vehículos que conducen en sentido contrario a una entrada de un solo sentido también tipificarían el tipo de evento que tiene una firma visual fuerte y se desviaría del patrón observado repetidamente de vehículos que conducen en el sentido correcto en el carril. Alguien arrojado al suelo por un atacante sería un evento inusual que probablemente generaría una alerta. Esto es específico de la situación. Entonces, si la cámara viera un gimnasio donde se practica la lucha libre, la IA aprendería que es habitual que un humano tire al suelo a otro, en cuyo caso no alertaría sobre esta observación.

Lo que la inteligencia artificial 'entiende'

La IA no sabe ni entiende lo que es un humano, un fuego o un vehículo. Es simplemente encontrar las características de estas cosas en función de su tamaño, forma, color, reflectividad, ángulo, orientación, movimiento, etc. Luego encuentra que los objetos que ha clasificado tienen patrones típicos de comportamiento. Por ejemplo, los humanos caminan por las aceras y, a veces, por las calles, pero no suelen trepar por los costados de los edificios. Los vehículos circulan por las calles, pero no por las aceras. Así, el comportamiento anómalo de alguien escalando un edificio o de un vehículo virando hacia una acera activaría una alerta.

Varía de la mentalidad tradicional de los sistemas de seguridad

Los sistemas de alarma típicos están diseñados para no pasar por alto los verdaderos positivos (eventos de delitos reales) y para tener una tasa de falsas alarmas lo más baja posible. En ese sentido, las alarmas antirrobo pasan por alto muy pocos casos positivos verdaderos, pero tienen una tasa muy alta de falsas alarmas, incluso en un ambiente interior controlado. Las cámaras de detección de movimiento pasan por alto algunos aspectos positivos verdaderos, pero están plagadas de falsas alarmas abrumadoras en un entorno exterior. El análisis basado en reglas detecta de manera confiable la mayoría de los verdaderos positivos y tiene una baja tasa de falsos positivos, pero no puede funcionar en entornos activos, solo en entornos vacíos. También se limitan a la simple discriminación de si un intruso está presente o no.

Algo tan complejo o sutil como el estallido de una pelea o un empleado que infringe un procedimiento de seguridad no es posible que un análisis basado en reglas detecte o discrimine. Con análisis de comportamiento, lo es. Los lugares donde la gente se mueve y trabaja no presentan un problema. Sin embargo, la IA puede detectar muchas cosas que parecen anómalas pero que son de naturaleza inocente. Por ejemplo, si los estudiantes de un campus caminan en una plaza, eso se aprenderá con normalidad. Si un par de estudiantes decidieran llevar una sábana grande al aire libre ondeando al viento, eso podría desencadenar una alerta. El oficial de monitoreo sería alertado para mirar su monitor y vería que el evento no es una amenaza y luego lo ignoraría. El grado de desviación de la norma que activa una alerta se puede configurar para que solo se informen las cosas más anormales. Sin embargo, esto todavía constituye una nueva forma de interacción humana y de IA no tipificada por la mentalidad tradicional de la industria de alarmas. Esto se debe a que habrá muchas falsas alarmas que, sin embargo, pueden ser valiosas para enviar a un oficial humano que pueda observar rápidamente y determinar si la escena requiere una respuesta. En este sentido, es un "toque en el hombro" de la IA para que el humano mire algo.

Limitaciones del análisis de comportamiento

Debido a que tantas cosas complejas se procesan continuamente, el software muestra hasta una resolución muy baja de solo 1 CIF para conservar la demanda computacional. La resolución de 1 CIF significa que un objeto del tamaño de un ser humano no se detectará si la cámara utilizada es de gran angular y el ser humano se encuentra a una distancia de entre 60 y 80 pies, según las condiciones. Los objetos más grandes, como vehículos o humo, serían detectables a mayores distancias.

Cuantificación de la conciencia situacional

La utilidad de la inteligencia artificial para la seguridad no existe en el vacío y su desarrollo no fue impulsado por estudios puramente académicos o científicos. Más bien, se dirige a las necesidades del mundo real y, por lo tanto, a las fuerzas económicas. Su uso para aplicaciones que no son de seguridad, como la eficiencia operativa, el mapa de calor del comprador de las áreas de exhibición (es decir, cuántas personas hay en un área determinada en el espacio comercial) y la asistencia a clases están desarrollando usos. Los humanos no están tan bien calificados como la IA para compilar y reconocer patrones que consisten en conjuntos de datos muy grandes que requieren cálculos simultáneos en múltiples ubicaciones remotas vistas. No hay nada innatamente humano en tal conciencia. Se ha demostrado que tal multitarea descentra la atención y el rendimiento humanos. Las IA tienen la capacidad de manejar dichos datos. A los efectos de la seguridad que interactúa con las cámaras de video, funcionalmente tienen una mejor agudeza visual que los humanos o la aproximación de la máquina. Para juzgar las sutilezas de los comportamientos o las intenciones de los sujetos o los grados de amenaza, los humanos siguen siendo muy superiores en el estado actual de la tecnología. Entonces la IA

La seguridad en el mundo práctico se determina económicamente de modo que el gasto en seguridad preventiva normalmente nunca excederá el costo percibido del riesgo a evitar. Los estudios han demostrado que las empresas normalmente solo gastan alrededor de una veinticinco parte de la cantidad en seguridad que les cuestan sus pérdidas reales. Lo que según la pura teoría económica debería ser una equivalencia u homeostasis, por lo tanto se queda muy corto. Una teoría que explica esto es la disonancia cognitiva, o la facilidad con la que las cosas desagradables como el riesgo se pueden desviar de la mente consciente. Sin embargo, la seguridad es un gasto importante, y la comparación de los costos de diferentes medios de seguridad es siempre lo más importante entre los profesionales de la seguridad.

Otra razón por la que se subestiman las futuras amenazas o pérdidas de seguridad es que, a menudo, solo se considera el costo directo de una pérdida potencial en lugar del espectro de pérdidas consecuentes que se experimentan concomitantemente. Por ejemplo, la destrucción por vandalismo de una máquina de producción personalizada en una fábrica o de un camión con remolque refrigerado daría como resultado un largo tiempo de reemplazo durante el cual no se podría atender a los clientes, lo que resultaría en la pérdida de su negocio. Un delito violento tendrá un gran daño en las relaciones públicas de un empleador, más allá de la responsabilidad directa por no proteger al empleado.

El análisis de comportamiento funciona de manera única más allá de la simple seguridad y, debido a su capacidad para observar violaciones en patrones estándar de protocolos, puede encontrar de manera efectiva actos inseguros de los empleados que pueden resultar en incidentes de compensación laboral o de responsabilidad pública. Aquí también, la evaluación de los costos de futuros incidentes no se corresponde con la realidad. Un estudio realizado por Liberty Mutual Insurance Company mostró que el costo para los empleadores es aproximadamente seis veces el costo directo asegurado, ya que los costos no asegurados de los daños indirectos incluyen trabajadores de reemplazo temporal, costos de contratación de reemplazos, costos de capacitación, tiempo de los gerentes en informes o tribunales, daños la moral de otros trabajadores y el efecto sobre los clientes y las relaciones públicas. El potencial de la IA en forma de análisis de comportamiento para interceptar y prevenir dichos incidentes de manera proactiva es significativo.

Reconocimiento de actividad

El reconocimiento de actividades tiene como objetivo reconocer las acciones y objetivos de uno o más agentes a partir de una serie de observaciones sobre las acciones de los agentes y las condiciones ambientales. Desde la década de 1980, este campo de investigación ha captado la atención de varias comunidades informáticas debido a su fuerza para brindar soporte personalizado para muchas aplicaciones diferentes y su conexión con muchos campos de estudio diferentes, como la medicina, la interacción humano-computadora o la sociología.

Debido a su naturaleza multifacética, diferentes campos pueden referirse al reconocimiento de actividades como reconocimiento de planes, reconocimiento de objetivos, reconocimiento de intenciones, reconocimiento de comportamiento, estimación de ubicación y servicios basados ​​en la ubicación.

Tipos

Reconocimiento de actividad de un solo usuario basado en sensores

El reconocimiento de actividad basado en sensores integra el área emergente de las redes de sensores con técnicas novedosas de extracción de datos y aprendizaje automático para modelar una amplia gama de actividades humanas. Los dispositivos móviles (p. ej., teléfonos inteligentes) proporcionan suficientes datos de sensor y potencia de cálculo para permitir que el reconocimiento de la actividad física proporcione una estimación del consumo de energía durante la vida cotidiana. Los investigadores de reconocimiento de actividad basado en sensores creen que al habilitar computadoras y sensores ubicuos para monitorear el comportamiento de los agentes (bajo consentimiento), estas computadoras estarán mejor preparadas para actuar en nuestro nombre. Sensores visuales que incorporan información de color y profundidad, como el kinect, permiten un reconocimiento automático de acciones más preciso y fusionan muchas aplicaciones emergentes, como la educación interactiva y los entornos inteligentes. Las vistas múltiples del sensor visual permiten el desarrollo del aprendizaje automático para el reconocimiento de acción invariable de vista automática. Los sensores más avanzados que se utilizan en los sistemas de captura de movimiento 3D permiten un reconocimiento automático de alta precisión, a costa de una configuración del sistema de hardware más complicada.

Niveles de reconocimiento de actividad basado en sensores

El reconocimiento de actividad basado en sensores es una tarea desafiante debido a la naturaleza ruidosa inherente de la entrada. Así, el modelado estadístico ha sido el principal impulso en esta dirección en capas, donde se realiza y conecta el reconocimiento en varios niveles intermedios. En el nivel más bajo donde se recopilan los datos del sensor, el aprendizaje estadístico se refiere a cómo encontrar las ubicaciones detalladas de los agentes a partir de los datos de la señal recibida. En un nivel intermedio, la inferencia estadística puede estar preocupado por cómo reconocer las actividades de los individuos a partir de las secuencias de ubicación inferidas y las condiciones ambientales en los niveles inferiores. Además, al más alto nivel, una de las principales preocupaciones es averiguar el objetivo general o los sub objetivos de un agente a partir de las secuencias de actividad mediante una combinación de razonamiento lógico y estadístico.

Reconocimiento de actividad multiusuario basado en sensores

El reconocimiento de actividades para múltiples usuarios usando sensores en el cuerpo apareció por primera vez en el trabajo de ORL usando sistemas de distintivos activos  a principios de la década de 1990. Se utilizaron otras tecnologías de sensores, como los sensores de aceleración, para identificar patrones de actividad grupal durante escenarios de oficina. Las actividades de usuarios múltiples en entornos inteligentes se abordan en Gu et al. En este trabajo, investigan el problema fundamental de reconocer actividades para múltiples usuarios a partir de lecturas de sensores en un entorno doméstico y proponen un enfoque novedoso de minería de patrones para reconocer actividades de un solo usuario y de múltiples usuarios en una solución unificada.

Reconocimiento de actividad grupal basado en sensores

El reconocimiento de actividades de grupo es fundamentalmente diferente del reconocimiento de actividad de un solo usuario o de múltiples usuarios en que el objetivo es reconocer el comportamiento del grupo como una entidad, en lugar de las actividades de los miembros individuales dentro de él. El comportamiento grupal es de naturaleza emergente, lo que significa que las propiedades del comportamiento del grupo son fundamentalmente diferentes de las propiedades del comportamiento de los individuos dentro de él, o cualquier suma de ese comportamiento. Los principales desafíos están en modelar el comportamiento de los miembros individuales del grupo, así como los roles del individuo dentro de la dinámica del grupo  y su relación con el comportamiento emergente del grupo en paralelo. Los desafíos que aún deben abordarse incluyen la cuantificación del comportamiento y los roles de las personas que se unen al grupo, la integración de modelos explícitos para la descripción de roles en algoritmos de inferencia y evaluaciones de escalabilidad para grupos y multitudes muy grandes. El reconocimiento de actividad grupal tiene aplicaciones para la gestión de multitudes y la respuesta en situaciones de emergencia, así como para redes sociales y aplicaciones Quantified Self .

Aproximaciones

Reconocimiento de actividad a través de la lógica y el razonamiento

Los enfoques basados ​​en la lógica realizan un seguimiento de todas las explicaciones lógicamente consistentes de las acciones observadas. Por lo tanto, se deben considerar todos los planes u objetivos posibles y consistentes. Kautz proporcionó una teoría formal del reconocimiento del plan. Describió el reconocimiento de planes como un proceso de inferencia lógica de circunscripción. Todas las acciones y planes se denominan uniformemente metas, y el conocimiento de un reconocedor se representa mediante un conjunto de declaraciones de primer orden, denominado jerarquía de eventos. La jerarquía de eventos está codificada en lógica de primer orden, que define abstracción, descomposición y relaciones funcionales entre tipos de eventos.

El marco general de Kautz para el reconocimiento de planes tiene una complejidad de tiempo exponencial en el peor de los casos, medida en el tamaño de la jerarquía de entrada. Lesh y Etzioni fueron un paso más allá y presentaron métodos para ampliar el reconocimiento de objetivos para ampliar su trabajo computacionalmente. En contraste con el enfoque de Kautz, donde la biblioteca de planes se representa explícitamente, el enfoque de Lesh y Etzioni permite la construcción automática de bibliotecas de planes a partir de primitivas de dominio. Además, introdujeron representaciones compactas y algoritmos eficientes para el reconocimiento de objetivos en bibliotecas de planos grandes.

Los planes y objetivos inconsistentes se podan repetidamente cuando llegan nuevas acciones. Además, también presentaron métodos para adaptar un reconocedor de objetivos para manejar el comportamiento idiosincrásico individual dado una muestra del comportamiento reciente de un individuo. Pollack et al. Describió un modelo de argumentación directa que puede conocer la fuerza relativa de varios tipos de argumentos para la descripción de creencias e intenciones.

Un problema serio de los enfoques basados ​​en la lógica es su incapacidad o inviabilidad inherente para representar la incertidumbre. No ofrecen ningún mecanismo para preferir un enfoque consistente a otro e incapaces de decidir si un plan en particular es más probable que otro, siempre que ambos puedan ser lo suficientemente consistentes para explicar las acciones observadas. También existe una falta de capacidad de aprendizaje asociada con los métodos basados ​​en la lógica.

Otro enfoque para el reconocimiento de actividades basado en la lógica es utilizar el razonamiento de flujo basado en la programación de conjuntos de respuestas, y se ha aplicado al reconocimiento de actividades para aplicaciones relacionadas con la salud, que utiliza restricciones débiles para modelar un grado de ambigüedad/incertidumbre.

Reconocimiento de actividad mediante razonamiento probabilístico

La teoría de la probabilidad y los modelos de aprendizaje estadístico se aplican más recientemente en el reconocimiento de actividades para razonar sobre acciones, planes y metas bajo incertidumbre. En la literatura, ha habido varios enfoques que representan explícitamente la incertidumbre en el razonamiento sobre los planes y objetivos de un agente.

Usando datos de sensores como entrada, Hodges y Pollack diseñaron sistemas basados ​​en aprendizaje automático para identificar a las personas mientras realizan actividades diarias de rutina, como preparar café. Intel Research (Seattle) Lab y la Universidad de Washington en Seattle han realizado algunos trabajos importantes sobre el uso de sensores para detectar planes humanos. Algunos de estos trabajos infieren modos de transporte de usuarios a partir de lecturas de identificadores de radiofrecuencia (RFID) y sistemas de posicionamiento global (GPS).

 Se ha demostrado que el uso de modelos probabilísticos temporales funciona bien en el reconocimiento de actividad y, en general, supera a los modelos no temporales. Los modelos generativos como el modelo oculto de Markov (HMM) y las redes bayesianas dinámicas (DBN) formuladas de manera más general son opciones populares en el modelado de actividades a partir de datos de sensores. Los modelos discriminativos como los campos aleatorios condicionales (CRF) también se aplican comúnmente y también dan un buen rendimiento en el reconocimiento de actividad.

Los modelos generativos y discriminativos tienen sus pros y sus contras y la elección ideal depende de su área de aplicación. Aquí se puede encontrar un conjunto de datos junto con implementaciones de varios modelos populares (HMM, CRF) para el reconocimiento de actividad.

Los modelos probabilísticos temporales convencionales, como el modelo oculto de Markov (HMM) y el modelo de campos aleatorios condicionales (CRF), modelan directamente las correlaciones entre las actividades y los datos del sensor observados. En los últimos años, cada vez más evidencia ha respaldado el uso de modelos jerárquicos que tienen en cuenta la rica estructura jerárquica que existe en los datos de comportamiento humano. La idea central aquí es que el modelo no correlaciona directamente las actividades con los datos del sensor, sino que divide la actividad en subactividades (a veces denominadas acciones) y modela las correlaciones subyacentes en consecuencia. Un ejemplo podría ser la actividad de preparar un salteado, que se puede desglosar en las subactividades o acciones de cortar verduras, freír las verduras en una sartén y servirlas en un plato. Ejemplos de un modelo jerárquico de este tipo son los modelos de Markov ocultos en capas (LHMM) y el modelo de Markov oculto jerárquico (HHMM), que han demostrado superar significativamente a su contraparte no jerárquica en el reconocimiento de actividad. 

Enfoque basado en la minería de datos para el reconocimiento de actividades

A diferencia de los enfoques tradicionales de aprendizaje automático, recientemente se ha propuesto un enfoque basado en la minería de datos. En el trabajo de Gu et al., el problema del reconocimiento de actividad se formula como un problema de clasificación basado en patrones. Propusieron un enfoque de minería de datos basado en patrones discriminatorios que describen cambios significativos entre dos clases de actividad de datos para reconocer actividades secuenciales, intercaladas y concurrentes en una solución unificada. Gilbert et al. use esquinas 2D tanto en el espacio como en el tiempo. Estos se agrupan espacial y temporalmente mediante un proceso jerárquico, con un área de búsqueda creciente. En cada etapa de la jerarquía, las características más distintivas y descriptivas se aprenden de manera eficiente a través de la minería de datos (regla a priori).

Reconocimiento de actividad basado en GPS

El reconocimiento de actividad basado en la ubicación también puede basarse en datos de GPS para reconocer actividades.

Uso del sensor

Reconocimiento de actividad basado en la visión

Es un problema muy importante y desafiante rastrear y comprender el comportamiento de los agentes a través de videos tomados por varias cámaras. La técnica principal empleada es la Visión por Computador. El reconocimiento de actividad basado en la visión ha encontrado muchas aplicaciones, como la interacción humano-computadora, el diseño de interfaz de usuario, el aprendizaje de robots y la vigilancia, entre otras. Las conferencias científicas en las que a menudo aparece el trabajo de reconocimiento de actividad basado en la visión son ICCV y CVPR .

Se ha trabajado mucho en el reconocimiento de actividades basado en la visión. Los investigadores han probado una serie de métodos, como el flujo óptico, el filtrado de Kalman , los modelos ocultos de Markov , etc., bajo diferentes modalidades, como cámara única, estéreo e infrarrojos. Además, los investigadores han considerado múltiples aspectos sobre este tema, incluido el seguimiento de peatones individuales, el seguimiento de grupos y la detección de objetos caídos.

Recientemente, algunos investigadores han utilizado cámaras RGBD como Microsoft Kinect para detectar actividades humanas. Las cámaras de profundidad añaden una dimensión adicional, es decir, una profundidad que la cámara 2D normal no proporciona. La información sensorial de estas cámaras de profundidad se ha utilizado para generar un modelo de esqueleto en tiempo real de humanos con diferentes posiciones corporales. Esta información esquelética proporciona información significativa que los investigadores han utilizado para modelar actividades humanas que se entrenan y luego se utilizan para reconocer actividades desconocidas.

Con la reciente emergencia del aprendizaje profundo, el reconocimiento de actividad basado en video RGB ha experimentado un rápido desarrollo. Utiliza videos capturados por cámaras RGB como entrada y realiza varias tareas, que incluyen: clasificación de video, detección de inicio y fin de actividad en videos y localización espacio-temporal de la actividad y las personas que realizan la actividad.

A pesar del notable progreso del reconocimiento de actividad basado en la visión, su uso para la mayoría de las aplicaciones de vigilancia visual sigue siendo una aspiración lejana. Por el contrario, el cerebro humano parece haber perfeccionado la capacidad de reconocer las acciones humanas. Esta capacidad se basa no solo en el conocimiento adquirido, sino también en la aptitud de extraer información relevante para un contexto dado y un razonamiento lógico. Sobre la base de esta observación, se ha propuesto mejorar los sistemas de reconocimiento de actividad basados ​​en la visión integrando el razonamiento de sentido común y el conocimiento contextual y de sentido común.

Niveles de reconocimiento de actividad basado en la visión

En el reconocimiento de actividad basado en visión, el proceso computacional a menudo se divide en cuatro pasos, a saber, detección humana, seguimiento humano, reconocimiento de actividad humana y luego una evaluación de actividad de alto nivel.

Localización de acciones de grano fino

En el reconocimiento de actividad basado en visión por computadora , la localización de acciones de granularidad fina generalmente proporciona máscaras de segmentación por imagen que delimitan el objeto humano y su categoría de acción (por ejemplo, Segment-Tube). A menudo se emplean técnicas como las redes dinámicas de Markov , CNN y LSTM para explotar las correlaciones semánticas entre fotogramas de vídeo consecutivos.

Reconocimiento automático de la marcha

Una forma de identificar a personas específicas es por cómo caminan. El software de reconocimiento de la marcha se puede utilizar para registrar la marcha o el perfil de características de la marcha de una persona en una base de datos con el fin de reconocer a esa persona más tarde, incluso si lleva un disfraz.

Reconocimiento de actividad basado en Wi-Fi

Cuando el reconocimiento de actividad se realiza en interiores y en ciudades utilizando las señales Wi-Fi ampliamente disponibles y los puntos de acceso 802.11 , hay mucho ruido e incertidumbre. Estas incertidumbres se pueden modelar utilizando un modelo de red bayesiano dinámico. En un modelo de objetivo múltiple que puede razonar sobre los objetivos intercalados del usuario, se aplica un modelo de transición de estado determinista.  Otro método posible modela las actividades concurrentes y entrelazadas en un enfoque probabilístico. Un modelo de descubrimiento de acciones del usuario podría segmentar las señales Wi-Fi para producir posibles acciones.

Modelos básicos de reconocimiento Wi-Fi

Uno de los pensamientos principales del reconocimiento de actividad de Wi-Fi es que cuando la señal atraviesa el cuerpo humano durante la transmisión; que provoca la reflexión, la difracción y la dispersión. Los investigadores pueden obtener información de estas señales para analizar la actividad del cuerpo humano.

Modelo de transmisión estática

Como se muestra en , cuando las señales inalámbricas se transmiten en interiores, los obstáculos como las paredes, el suelo y el cuerpo humano provocan varios efectos, como la reflexión, la dispersión, la difracción y la difracción. Por lo tanto, el extremo receptor recibe múltiples señales de diferentes caminos al mismo tiempo, porque las superficies reflejan la señal durante la transmisión, lo que se conoce como efecto de caminos múltiples .

El modelo estático se basa en estos dos tipos de señales: la señal directa y la señal reflejada. Debido a que no hay obstáculos en el camino directo, la transmisión de señal directa se puede modelar mediante la ecuación de transmisión de Friis :

 {\displaystyle P_{r}={\frac {P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}d^{2}}}}

{\displaystyle P_{t}}P_{t}es la potencia alimentada a los terminales de entrada de la antena transmisora;

{\displaystyle P_{r}}P_{r}es la potencia disponible en los terminales de salida de la antena receptora;

{\ estilo de visualización d}des la distancia entre antenas;

{\displaystyle G_{t}}G_{t}está transmitiendo la ganancia de la antena;

{\displaystyle G_{r}}Gramo}está recibiendo ganancia de antena;

{\ estilo de visualización \ lambda}\lambdaes la longitud de onda de la radiofrecuencia

Si consideramos la señal reflejada, la nueva ecuación es:

{\displaystyle P_{r}={\frac {P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}(d+4h)^{2} }}}{\displaystyle P_{r}={\frac {P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}(d+4h)^{2} }}}

{\ estilo de visualización h}hes la distancia entre los puntos de reflexión y la trayectoria directa.

Cuando aparece un humano, tenemos una nueva ruta de transmisión. Por lo tanto, la ecuación final es:

{\displaystyle P_{r}={\frac {P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}(d+4h+\Delta )^{ 2}}}}{\displaystyle P_{r}={\frac {P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}(d+4h+\Delta )^{ 2}}}}

{\ estilo de visualización \ Delta}\Deltaes la diferencia aproximada de la trayectoria causada por el cuerpo humano.

Modelo de transmisión dinámica

En este modelo, consideramos el movimiento humano, que hace que la ruta de transmisión de la señal cambie continuamente. Podemos usar el Desplazamiento Doppler para describir este efecto, que está relacionado con la velocidad del movimiento.

{\displaystyle \Delta f={\frac {2v\cos \theta}{c}}f}{\displaystyle \Delta f={\frac {2v\cos \theta}{c}}f}

Al calcular el desplazamiento Doppler de la señal de recepción, podemos determinar el patrón del movimiento y, por lo tanto, identificar aún más la actividad humana. Por ejemplo, en [46] el desplazamiento Doppler se usa como una huella digital para lograr una identificación de alta precisión para nueve patrones de movimiento diferentes.

Zona de Fresnel

La zona de Fresnel se utilizó inicialmente para estudiar la interferencia y la difracción de la luz, que luego se utiliza para construir el modelo de transmisión de señales inalámbricas. La zona de Fresnel es una serie de intervalos elípticos cuyos focos son las posiciones del emisor y el receptor.

Cuando una persona se mueve a través de diferentes zonas de Fresnel, la ruta de la señal formada por el reflejo del cuerpo humano cambia, y si las personas se mueven verticalmente a través de las zonas de Fresnel, el cambio de señal será periódico. En el artículo,  y aplicaron el modelo de Fresnel a la tarea de reconocimiento de actividad y obtuvieron un resultado más preciso.

Modelado del cuerpo humano

En algunas tareas, debemos considerar modelar el cuerpo humano con precisión para lograr mejores resultados. Por ejemplo, [48] describió el cuerpo humano como cilindros concéntricos para la detección de la respiración. El exterior del cilindro denota la caja torácica cuando las personas inhalan, y el interior denota eso cuando las personas exhalan. Entonces, la diferencia entre el radio de esos dos cilindros representa la distancia de movimiento durante la respiración. El cambio de las fases de la señal se puede expresar en la siguiente ecuación:

{\displaystyle \theta =2\pi {\frac {2\,\Delta d}{\lambda }}}{\displaystyle \theta =2\pi {\frac {2\,\Delta d}{\lambda }}}

{\ estilo de visualización \ theta}\ thetaes el cambio de las fases de la señal;

{\ estilo de visualización \ lambda}\lambdaes la longitud de onda de la radiofrecuencia;

{\ estilo de visualización \ Delta d}\Delta des la distancia en movimiento de la caja torácica;

Conjuntos de datos

Hay algunos conjuntos de datos populares que se utilizan para comparar el reconocimiento de actividad o los algoritmos de reconocimiento de acción.

UCF-101: consta de 101 clases de acción humana, más de 13k clips y 27 horas de datos de video. Las clases de acción incluyen maquillarse, jugar dhol, tiro de cricket, afeitarse la barba, etc.

HMDB51: esta es una colección de videos realistas de varias fuentes, incluidas películas y videos web. El conjunto de datos se compone de 6.849 clips de video de 51 categorías de acción (como "saltar", "besar" y "reír"), y cada categoría contiene al menos 101 clips.

Cinética: este es un conjunto de datos significativamente más grande que los anteriores. Contiene 400 clases de acción humana, con al menos 400 videoclips para cada acción. Cada clip dura alrededor de 10 segundos y está tomado de un video de YouTube diferente. Este conjunto de datos fue creado por DeepMind.

Aplicaciones

Al monitorear automáticamente las actividades humanas, se puede brindar rehabilitación en el hogar a las personas que sufren lesiones cerebrales traumáticas. Se pueden encontrar aplicaciones que van desde aplicaciones relacionadas con la seguridad y soporte logístico hasta servicios basados ​​en la ubicación. Se han desarrollado sistemas de reconocimiento de actividad para la observación de vida silvestre y la conservación de energía en edificios.

Análisis de multitudes

El análisis de multitudes es la práctica de interpretar datos sobre el movimiento natural de grupos u objetos. Masas de cuerpos, particularmente humanos, son los sujetos de estos análisis de seguimiento de multitudes que incluyen cómo se mueve una multitud en particular y cuándo cambia un patrón de movimiento. Los investigadores usan los datos para predecir futuros movimientos de multitudes, densidad de multitudes y planificar respuestas a eventos potenciales, como aquellos que requieren rutas de evacuación. Las aplicaciones del análisis de multitudes pueden variar desde la simulación de multitudes de videojuegos hasta la seguridad y la vigilancia.

Antecedentes 

Debido al crecimiento de la población, el análisis de multitudes se ha convertido en un tema de gran interés en las disciplinas sociales y técnicas. Las personas utilizan el análisis de multitudes para desarrollar estrategias de gestión de multitudes en eventos públicos, así como en el diseño de espacios públicos, la vigilancia visual y los entornos virtuales. Los objetivos incluyen hacer que las áreas sean más convenientes y prevenir desastres provocados por multitudes.

Algunas multitudes no se pueden analizar tan fácilmente como otras. La psicología de una multitud impacta en cómo se divide y se estudia. Las multitudes pueden ser casuales, como un grupo de peatones caminando por la calle, o causales, como personas que participan en un maratón o una protesta. Pueden ser tan activos y erráticos como una multitud o tan pasivos como una audiencia. Si bien la multitud principal es el sujeto de la mayor parte del análisis, se deben tener en cuenta las anomalías, como alguien que se opone al flujo del tráfico o un ciclista que viaja a través de un grupo de peatones. Por lo tanto, el propósito de un grupo de individuos determina la interpretación de los datos obtenidos. Se han realizado importantes investigaciones para comprender la forma en que se mueven las multitudes a fin de predecir dónde pueden ocurrir las áreas de conflicto. Esta investigación se realiza analizando datos de multitudes y luego procediendo a crear modelos de situaciones similares utilizando software. Existen muchos modelos que simulan el comportamiento de la multitud, y algunos afirman "modelos macroscópicos como modelos basados ​​​​en redes o modelos de dinámica de fluidos, así como modelos microscópicos como, por ejemplo, el modelo de fuerza social o los autómatas celulares".

Metodología 

La densidad de multitudes se refiere a la cantidad de objetos dentro de una unidad de área, como personas por metro cuadrado. La densidad es importante para determinar la ocupación máxima de una habitación o edificio para abordar problemas de seguridad. Analizar áreas que se vuelven más densamente pobladas que otras es esencial para diseñar edificios y rutas de evacuación. Abordar tales preocupaciones implica la gestión y optimización de la multitud y sus patrones de movimiento previstos.

El flujo de multitudes implica la velocidad a la que los objetos de una multitud se mueven en un espacio. A una capacidad crítica, el flujo comienza a disminuir a medida que aumenta la densidad de la multitud. La ley de Yerkes-Dodson explica cómo el rendimiento se ve afectado por la cantidad de estrés en un individuo. El estrés es causado por factores externos, como un objeto que se acerca al individuo, una limitación de tiempo para que el individuo realice una tarea o la cantidad de agentes que lo acosan. 

En lo que respecta a la animación por computadora , los individuos simulados (conocidos como agentes) a menudo se escriben para representar un comportamiento realista similar al de una multitud. Siguen un algoritmo basado en el estrés, los campos de navegación y los agentes circundantes para manipular el comportamiento. El estudio de la producción de agentes inteligentes para seguir un comportamiento real cae dentro del campo de la inteligencia artificial .

Aplicaciones 

Los datos extraídos del análisis de multitudes son invaluables en una variedad de campos e implementaciones del mundo real.

Multitud de Inteligencia Artificial 

También conocida como inteligencia de enjambre , el análisis y la aplicación del movimiento de multitudes pueden contribuir al modelado del comportamiento grupal basado en modelos biológicos y artificiales. El comportamiento del instinto social se aplica a sistemas complejos que modelan múltiples agentes y sus interacciones. Los métodos basados ​​en la población se utilizan para representar las interacciones locales de los agentes con su entorno.

Sociología 

Existen innumerables aplicaciones sociales del análisis de multitudes que van desde usos dentro de las industrias del cine y los videojuegos hasta usos en la planificación pública. Dado que las simulaciones de multitudes se basan en dinámicas de grupo y psicología de multitudes , la precisión y la relevancia para situaciones de la vida real son claras. Un gran aspecto de la planificación pública y su uso del análisis de multitudes se encuentra dentro del ámbito de las representaciones situacionales para la evacuación de emergencia. Las evacuaciones se pueden planificar mediante el modelado y el estudio de la interacción y reacción de la multitud. Estas representaciones se basan en modelos y patrones biológicos, por lo que los movimientos predichos son bastante realistas. Se utilizan modelos similares dentro de las industrias cinematográficas para producir simulaciones y escenas realistas y realistas.

Simulaciones 

Un sistema puede generar una simulación de multitud realista con entradas dadas y simular cómo los objetos en movimiento simulados, o agentes, interactuarán entre sí y con el entorno. El objetivo es replicar los patrones de movimiento de una multitud dada una gran cantidad de agentes en un espacio determinado. Los algoritmos basados ​​en el análisis de multitudes intentan gestionar el movimiento de la multitud. Cuanto más eficiente y realista se vuelve una simulación, más complejo debe volverse el algoritmo. El software debe poder manipular la trayectoria de los agentes individuales en función de variables como los objetivos de los agentes, las fuerzas de estrés , los obstáculos y los niveles de excitación .

Comentarios