La inteligencia artificial para la videovigilancia utiliza
programas informáticos que analizan el audio y las imágenes de las cámaras de
videovigilancia para reconocer personas, vehículos, objetos, atributos y
eventos. El programa de contratistas de seguridad es el software para definir
áreas restringidas dentro de la vista de la cámara (como un área cercada, un
estacionamiento pero no la acera o la calle pública fuera del lote) y el
programa para las horas del día (como después del cierre del negocio) para la
propiedad protegida por la cámara de vigilancia . La inteligencia artificial
("AI") envía una alerta si detecta un intruso que rompe la
"regla" establecida de que no se permite a ninguna persona en esa
área durante ese momento del día.
El programa de IA funciona mediante el uso de visión artificial.
La visión artificial es una serie de algoritmos., o procedimientos matemáticos,
que funcionan como un diagrama de flujo o una serie de preguntas para comparar
el objeto visto con cientos de miles de imágenes de referencia almacenadas de
humanos en diferentes posturas, ángulos, posiciones y movimientos. La IA se
pregunta si el objeto observado se mueve como las imágenes de referencia, si
tiene aproximadamente el mismo tamaño de altura en relación con el ancho, si
tiene la característica de dos brazos y dos piernas, si se mueve con una
velocidad similar y si es vertical. de horizontales. Son posibles muchas otras
preguntas, como el grado en que el objeto refleja, el grado en que es estable o
vibra, y la suavidad con la que se mueve. Combinando todos los valores de las
diversas preguntas, se deriva una clasificación general que le da a la IA la
probabilidad de que el objeto sea o no un ser humano. Si el valor supera un
límite establecido, se envía la alerta. Es característico de tales programas
que son autoaprendizaje hasta cierto punto, aprendiendo, por ejemplo, que los
humanos o los vehículos aparecen más grandes en ciertas partes de la imagen
monitoreada, las áreas cercanas a la cámara, que en otras partes, que son las
áreas más alejadas de la cámara.
Además de la regla simple que restringe el acceso de humanos
o vehículos a ciertas áreas en ciertos momentos del día, se pueden establecer
reglas más complejas. El usuario del sistema puede desear saber si los
vehículos circulan en una dirección pero no en la otra. Los usuarios pueden
desear saber que hay más de un cierto número preestablecido de personas dentro
de un área en particular. La IA es capaz de mantener la vigilancia de cientos
de cámaras simultáneamente. Su capacidad para detectar a un intruso en la
distancia o bajo la lluvia o el resplandor es superior a la capacidad de los humanos
para hacerlo.
Este tipo de IA para la seguridad se conoce como "
basada en reglas " porque un programador humano debe establecer reglas
para todas las cosas sobre las que el usuario desea recibir alertas. Esta es la
forma más frecuente de IA para la seguridad. Muchos sistemas de cámaras de
videovigilancia en la actualidad incluyen este tipo de capacidad de IA. El
disco duro que alberga el programa puede estar ubicado en las propias cámaras o
puede estar en un dispositivo separado que recibe la entrada de las cámaras.
Se ha desarrollado una forma de IA para la seguridad más
nueva, no basada en reglas, llamada " análisis de comportamiento”. Este
software es totalmente de autoaprendizaje sin entrada de programación inicial
por parte del usuario o contratista de seguridad. En este tipo de análisis, la
IA aprende cuál es el comportamiento normal de las personas, los vehículos, las
máquinas y el entorno en función de su propia observación de patrones de
diversas características, como tamaño, velocidad, reflectividad, color,
agrupación, orientación vertical u horizontal, etc. La IA normaliza los datos
visuales, lo que significa que clasifica y etiqueta los objetos y patrones que
observa, creando definiciones continuamente refinadas de lo que es un
comportamiento normal o promedio para los diversos objetos observados. Después
de varias semanas de aprender de esta manera, puede reconocer cuándo las cosas
rompen el patrón. Cuando observa tales anomalías, envía una alerta. Por
ejemplo, es normal que los coches circulen por la calle. Un automóvil visto
conduciendo hacia una acera sería una anomalía. Si un patio cercado normalmente
está vacío por la noche, una persona que ingrese a esa área sería una anomalía.
Contenido
1 Historia
1.1 Planteamiento
del problema
1.2 Intentos
anteriores de solución
1.2.1 Cámaras de
detección de movimiento
1.2.2 Detección de
movimiento de vídeo avanzada
1.3 Advenimiento
de la verdadera analítica de video
2 Aplicación
práctica
2.1 Acción
preventiva en tiempo real
2.1.1 Hablar abajo
2.1.2 Informe de
incumplimiento verificado
3 Análisis
de comportamiento
3.1 Entornos
activos
3.1.1 Superar el
problema de los entornos activos
3.1.2 Lo que la
inteligencia artificial 'entiende'
3.1.3 Varía de la
mentalidad tradicional de los sistemas de seguridad.
3.1.4 Limitaciones
del análisis de comportamiento
3.1.5 Cuantificación
de la conciencia situacional
4 Ver
también
5 Referencias
6 Reconocimiento de actividad
7 Análisis de multitudes
Historia
Planteamiento del problema
Las limitaciones en la capacidad de los humanos para
monitorear atentamente las imágenes en vivo de la videovigilancia llevaron a la
demanda de inteligencia artificial que pudiera cumplir mejor la tarea. Los
humanos que miran un solo monitor de video durante más de veinte minutos
pierden el 95% de su capacidad para mantener la atención suficiente para
discernir eventos significativos. Con dos monitores, esto se vuelve a reducir a
la mitad. Dado que muchas instalaciones tienen docenas o incluso cientos de
cámaras, la tarea está claramente más allá de la capacidad humana. En general,
las vistas de la cámara de pasillos vacíos, instalaciones de almacenamiento,
estacionamientos o estructuras son extremadamente aburridas y, por lo tanto, la
atención se atenúa rápidamente. Cuando se monitorean varias cámaras, generalmente
empleando un monitor de pared o un banco de monitores con vistas de pantalla
dividida y rotando cada varios segundos entre un conjunto de cámaras y el
siguiente, el tedio visual es rápidamente abrumador. Si bien las cámaras de
videovigilancia proliferaron con gran adopción por parte de usuarios que iban
desde concesionarios de automóviles y plazas comerciales hasta escuelas y
negocios e instalaciones de alta seguridad como plantas nucleares, se reconoció
en retrospectiva que la videovigilancia por parte de oficiales humanos (también
llamados "operadores") no era práctica. e ineficaz. Los extensos
sistemas de videovigilancia quedaron relegados a la mera grabación para un
posible uso forense para identificar a alguien, después de un robo, incendio
provocado, ataque o incidente. Donde se emplearon vistas de cámara de gran
angular, particularmente para grandes áreas al aire libre, se descubrieron
severas limitaciones incluso para este propósito debido a una resolución
insuficiente. En estos casos, es imposible identificar al intruso o
perpetrador porque su imagen es demasiado pequeña en el monitor.
Intentos anteriores de solución
Cámaras de detección de movimiento
En respuesta a las deficiencias de los guardias humanos para
observar los monitores de vigilancia a largo plazo, la primera solución fue
agregar detectores de movimiento a las cámaras. Se razonó que el movimiento de
un intruso o perpetrador enviaría una alerta al oficial de monitoreo remoto
obviando la necesidad de una vigilancia humana constante. El problema era que
en un entorno exterior hay un movimiento constante o cambios de píxeles que
componen la imagen total vista en la pantalla. El movimiento de las hojas de
los árboles que se mueven con el viento, la basura esparcida por el suelo, los
insectos, los pájaros, los perros, las sombras, los faros, los rayos de sol,
etc., todo comprende movimiento. Esto provocó cientos o incluso miles de
alertas falsas por día, lo que hizo que esta solución no funcionara, excepto en
entornos interiores durante las horas no operativas.
Detección avanzada de movimiento de video
La próxima evolución redujo las alertas falsas hasta cierto
punto, pero a costa de una calibración manual complicada y que consumía mucho
tiempo. Aquí, se detectan los cambios de un objetivo, como una persona o un
vehículo, en relación con un fondo fijo. Cuando el fondo cambia estacionalmente
o debido a otros cambios, la confiabilidad se deteriora con el tiempo. La
economía de responder a demasiadas alertas falsas nuevamente demostró ser un
obstáculo y esta solución no fue suficiente.
Advenimiento de la verdadera analítica de video
El aprendizaje automático del reconocimiento visual se
relaciona con los patrones y su clasificación. El verdadero análisis de video
puede distinguir la forma humana, vehículos y botes u objetos seleccionados del
movimiento general de todos los demás objetos y estática visual o cambios en
píxeles en el monitor. Lo hace mediante el reconocimiento de patrones. Cuando
el objeto de interés, por ejemplo, un ser humano, viola una regla
preestablecida, por ejemplo, que la cantidad de personas no debe exceder cero
en un área predefinida durante un intervalo de tiempo definido, se envía una
alerta. Un rectángulo rojo o el llamado "cuadro delimitador"
generalmente seguirán automáticamente al intruso detectado, y se envía un breve
videoclip de esto como alerta.
Aplicación práctica
Detección de peatones
Acción preventiva en tiempo real
La detección de intrusos mediante videovigilancia tiene
limitaciones basadas en la economía y la naturaleza de las cámaras de video.
Por lo general, las cámaras al aire libre se configuran en una vista de gran
angular y, sin embargo, miran a una gran distancia. La velocidad de fotogramas
por segundo y el rango dinámico para manejar áreas muy iluminadas y con poca
luz desafían aún más a la cámara para que sea realmente adecuada para ver a un
intruso humano en movimiento. Por la noche, incluso en áreas al aire libre
iluminadas, un sujeto en movimiento no capta suficiente luz por cuadro por
segundo y, por lo tanto, a menos que esté muy cerca de la cámara, aparecerá
como una delgada voluta o un fantasma apenas perceptible o completamente
invisible. Las condiciones de deslumbramiento, oscurecimiento parcial, lluvia,
nieve, niebla y oscuridad agravan el problema. Incluso cuando a un ser humano
se le indica que mire la ubicación real en un monitor de un sujeto en estas
condiciones, por lo general, el sujeto no será detectado. La IA puede mirar
imparcialmente la imagen completa y las imágenes de todas las cámaras
simultáneamente. Usando modelos estadísticos de grados de desviación de su
patrón aprendido de lo que constituye la forma humana, detectará un intruso con
alta confiabilidad y una baja tasa de falsas alertas incluso en condiciones
adversas. Su aprendizaje se basa en aproximadamente un cuarto de millón de
imágenes de humanos en varias posiciones, ángulos, posturas, etc.
Una cámara de un megapíxel con análisis de video incorporado
pudo detectar a un humano a una distancia de aproximadamente 350 'y un ángulo
de visión de aproximadamente 30 grados en condiciones no ideales. Se pueden
establecer reglas para una "valla virtual" o intrusión en un área predefinida.
Se pueden establecer reglas para viajes direccionales, objetos dejados atrás,
formación de multitudes y algunas otras condiciones. La inteligencia artificial
para la videovigilancia se usa ampliamente en China. Ver Vigilancia masiva en China.
Talk-down
Una de las características más poderosas del sistema es que
un oficial u operador humano, al recibir una alerta de la IA, podría hablar
inmediatamente al intruso a través de altavoces públicos al aire libre. Esto
tenía un alto valor de disuasión ya que la mayoría de los delitos son
oportunistas y el riesgo de captura para el intruso se vuelve tan pronunciado
cuando una persona viva le habla que es muy probable que desista de la
intrusión y se retire. El oficial de seguridad describiría las acciones del
intruso para que el intruso no tuviera dudas de que una persona real lo estaba
observando. El oficial anunciaría que el intruso estaba infringiendo la ley y
que se estaba contactando a la policía y que estaban siendo grabados en video.
Informe de incumplimiento verificado
La policía recibe una gran cantidad de falsas alarmas de
alarmas antirrobo. De hecho, la industria de la seguridad informa que más del
98% de tales alarmas son falsas. En consecuencia, la policía da una respuesta
de muy baja prioridad a las alarmas antirrobo y puede tardar entre veinte
minutos y dos horas en responder al sitio. Por el contrario, el delito
detectado por análisis de vídeo se informa al oficial de seguimiento central,
quien verifica con sus propios ojos que se trata de un delito real en curso. Él
o ella luego envían a la policía, que le da la máxima prioridad a tales
llamadas.
Análisis de comportamiento
Entornos activos
Si bien el análisis de video basado en reglas funcionó de
manera económica y confiable para muchas aplicaciones de seguridad, hay muchas
situaciones en las que no puede funcionar. [9] Para un área interior o exterior
a la que nadie pertenece durante ciertos momentos del día, por ejemplo, durante
la noche, o para áreas a las que nadie pertenece en ningún momento, como una
torre de telefonía celular , el análisis tradicional basado en reglas es
perfectamente apropiado. En el ejemplo de una torre de telefonía móvil, el raro
momento en que un técnico de servicio puede necesitar acceder al área
simplemente requeriría llamar con un código de acceso para poner la respuesta
de monitoreo "en prueba" o inactivada por el breve tiempo que la
persona autorizada estuvo allí. .
Pero hay muchas necesidades de seguridad en entornos activos
en los que cientos o miles de personas pertenecen a todos lados todo el tiempo.
Por ejemplo, un campus universitario, una fábrica activa, un hospital o
cualquier instalación operativa activa. No es posible establecer reglas que
discriminen entre personas legítimas y delincuentes o malhechores.
Superando el problema de los entornos activos
Usando análisis de comportamiento, una IA de autoaprendizaje
no basada en reglas toma los datos de las cámaras de video y clasifica
continuamente los objetos y eventos que ve. Por ejemplo, una persona que cruza una
calle es una clasificación. Un grupo de personas es otra clasificación. Un
vehículo es una clasificación, pero con el aprendizaje continuo se
discriminaría un autobús público de un camión pequeño y de una motocicleta. Con
una sofisticación cada vez mayor, el sistema reconoce patrones en el
comportamiento humano. Por ejemplo, podría observar que las personas pasan por
una puerta de acceso controlado de una en una. La puerta se abre, la persona
presenta su tarjeta o tag de proximidad, la persona pasa y la puerta se cierra.
Este patrón de actividad, observado repetidamente, forma la base de lo que es
normal en la visión de la cámara que observa esa escena. Ahora bien, si una
persona autorizada abre la puerta pero una segunda persona no autorizada
"de seguimiento" agarra la puerta antes de que se cierre y pase, ese
es el tipo de anomalía que crearía una alerta. Este tipo de análisis es mucho
más complejo que el análisis basado en reglas. Mientras que el análisis basado
en reglas funciona principalmente para detectar intrusos en áreas donde
normalmente nadie está presente en momentos definidos del día, el análisis de
comportamiento funciona donde las personas están activas para detectar cosas
que están fuera de lo común.
Un incendio al aire libre sería un evento inusual y causaría
una alerta, al igual que una nube de humo ascendente. Los vehículos que
conducen en sentido contrario a una entrada de un solo sentido también
tipificarían el tipo de evento que tiene una firma visual fuerte y se desviaría
del patrón observado repetidamente de vehículos que conducen en el sentido
correcto en el carril. Alguien arrojado al suelo por un atacante sería un
evento inusual que probablemente generaría una alerta. Esto es específico de la
situación. Entonces, si la cámara viera un gimnasio donde se practica la lucha
libre, la IA aprendería que es habitual que un humano tire al suelo a otro, en
cuyo caso no alertaría sobre esta observación.
Lo que la inteligencia artificial 'entiende'
La IA no sabe ni entiende lo que es un humano, un fuego o un
vehículo. Es simplemente encontrar las características de estas cosas en
función de su tamaño, forma, color, reflectividad, ángulo, orientación,
movimiento, etc. Luego encuentra que los objetos que ha clasificado tienen
patrones típicos de comportamiento. Por ejemplo, los humanos caminan por las
aceras y, a veces, por las calles, pero no suelen trepar por los costados de
los edificios. Los vehículos circulan por las calles, pero no por las aceras.
Así, el comportamiento anómalo de alguien escalando un edificio o de un
vehículo virando hacia una acera activaría una alerta.
Varía de la mentalidad tradicional de los sistemas de
seguridad
Los sistemas de alarma típicos están diseñados para no pasar
por alto los verdaderos positivos (eventos de delitos reales) y para tener una
tasa de falsas alarmas lo más baja posible. En ese sentido, las alarmas
antirrobo pasan por alto muy pocos casos positivos verdaderos, pero tienen una
tasa muy alta de falsas alarmas, incluso en un ambiente interior controlado.
Las cámaras de detección de movimiento pasan por alto algunos aspectos
positivos verdaderos, pero están plagadas de falsas alarmas abrumadoras en un
entorno exterior. El análisis basado en reglas detecta de manera confiable la
mayoría de los verdaderos positivos y tiene una baja tasa de falsos positivos,
pero no puede funcionar en entornos activos, solo en entornos vacíos. También
se limitan a la simple discriminación de si un intruso está presente o no.
Algo tan complejo o sutil como el estallido de una pelea o
un empleado que infringe un procedimiento de seguridad no es posible que un
análisis basado en reglas detecte o discrimine. Con análisis de comportamiento,
lo es. Los lugares donde la gente se mueve y trabaja no presentan un problema.
Sin embargo, la IA puede detectar muchas cosas que parecen anómalas pero que
son de naturaleza inocente. Por ejemplo, si los estudiantes de un campus
caminan en una plaza, eso se aprenderá con normalidad. Si un par de estudiantes
decidieran llevar una sábana grande al aire libre ondeando al viento, eso
podría desencadenar una alerta. El oficial de monitoreo sería alertado para
mirar su monitor y vería que el evento no es una amenaza y luego lo ignoraría.
El grado de desviación de la norma que activa una alerta se puede configurar
para que solo se informen las cosas más anormales. Sin embargo, esto todavía
constituye una nueva forma de interacción humana y de IA no tipificada por la
mentalidad tradicional de la industria de alarmas. Esto se debe a que habrá
muchas falsas alarmas que, sin embargo, pueden ser valiosas para enviar a un
oficial humano que pueda observar rápidamente y determinar si la escena
requiere una respuesta. En este sentido, es un "toque en el hombro"
de la IA para que el humano mire algo.
Limitaciones del análisis de comportamiento
Debido a que tantas cosas complejas se procesan
continuamente, el software muestra hasta una resolución muy baja de solo 1 CIF
para conservar la demanda computacional. La resolución de 1 CIF significa que
un objeto del tamaño de un ser humano no se detectará si la cámara utilizada es
de gran angular y el ser humano se encuentra a una distancia de entre 60 y 80
pies, según las condiciones. Los objetos más grandes, como vehículos o humo,
serían detectables a mayores distancias.
Cuantificación de la conciencia situacional
La utilidad de la inteligencia artificial para la seguridad
no existe en el vacío y su desarrollo no fue impulsado por estudios puramente
académicos o científicos. Más bien, se dirige a las necesidades del mundo real
y, por lo tanto, a las fuerzas económicas. Su uso para aplicaciones que no son
de seguridad, como la eficiencia operativa, el mapa de calor del comprador de
las áreas de exhibición (es decir, cuántas personas hay en un área determinada
en el espacio comercial) y la asistencia a clases están desarrollando usos. Los
humanos no están tan bien calificados como la IA para compilar y reconocer
patrones que consisten en conjuntos de datos muy grandes que requieren cálculos
simultáneos en múltiples ubicaciones remotas vistas. No hay nada innatamente
humano en tal conciencia. Se ha demostrado que tal multitarea descentra la
atención y el rendimiento humanos. Las IA tienen la capacidad de manejar dichos
datos. A los efectos de la seguridad que interactúa con las cámaras de video,
funcionalmente tienen una mejor agudeza visual que los humanos o la
aproximación de la máquina. Para juzgar las sutilezas de los comportamientos o
las intenciones de los sujetos o los grados de amenaza, los humanos siguen
siendo muy superiores en el estado actual de la tecnología. Entonces la IA
La seguridad en el mundo práctico se determina
económicamente de modo que el gasto en seguridad preventiva normalmente nunca
excederá el costo percibido del riesgo a evitar. Los estudios han demostrado
que las empresas normalmente solo gastan alrededor de una veinticinco parte de
la cantidad en seguridad que les cuestan sus pérdidas reales. Lo que según la
pura teoría económica debería ser una equivalencia u homeostasis, por lo tanto
se queda muy corto. Una teoría que explica esto es la disonancia cognitiva, o
la facilidad con la que las cosas desagradables como el riesgo se pueden
desviar de la mente consciente. Sin embargo, la seguridad es un gasto
importante, y la comparación de los costos de diferentes medios de seguridad es
siempre lo más importante entre los profesionales de la seguridad.
Otra razón por la que se subestiman las futuras amenazas o
pérdidas de seguridad es que, a menudo, solo se considera el costo directo de
una pérdida potencial en lugar del espectro de pérdidas consecuentes que se
experimentan concomitantemente. Por ejemplo, la destrucción por vandalismo de
una máquina de producción personalizada en una fábrica o de un camión con
remolque refrigerado daría como resultado un largo tiempo de reemplazo durante
el cual no se podría atender a los clientes, lo que resultaría en la pérdida de
su negocio. Un delito violento tendrá un gran daño en las relaciones públicas
de un empleador, más allá de la responsabilidad directa por no proteger al
empleado.
El análisis de comportamiento funciona de manera única más
allá de la simple seguridad y, debido a su capacidad para observar violaciones
en patrones estándar de protocolos, puede encontrar de manera efectiva actos
inseguros de los empleados que pueden resultar en incidentes de compensación
laboral o de responsabilidad pública. Aquí también, la evaluación de los costos
de futuros incidentes no se corresponde con la realidad. Un estudio realizado
por Liberty Mutual Insurance Company mostró que el costo para los empleadores
es aproximadamente seis veces el costo directo asegurado, ya que los costos no
asegurados de los daños indirectos incluyen trabajadores de reemplazo temporal,
costos de contratación de reemplazos, costos de capacitación, tiempo de los
gerentes en informes o tribunales, daños la moral de otros trabajadores y el
efecto sobre los clientes y las relaciones públicas. El potencial de la IA en
forma de análisis de comportamiento para interceptar y prevenir dichos
incidentes de manera proactiva es significativo.
Reconocimiento de actividad
El reconocimiento de actividades tiene como objetivo
reconocer las acciones y objetivos de uno o más agentes a partir de una serie
de observaciones sobre las acciones de los agentes y las condiciones
ambientales. Desde la década de 1980, este campo de investigación ha captado la
atención de varias comunidades informáticas debido a su fuerza para brindar
soporte personalizado para muchas aplicaciones diferentes y su conexión con
muchos campos de estudio diferentes, como la medicina, la interacción
humano-computadora o la sociología.
Debido a su naturaleza multifacética, diferentes campos
pueden referirse al reconocimiento de actividades como reconocimiento de
planes, reconocimiento de objetivos, reconocimiento de intenciones,
reconocimiento de comportamiento, estimación de ubicación y servicios basados
en la ubicación.
Tipos
Reconocimiento de actividad de un solo usuario basado en
sensores
El reconocimiento de actividad basado en sensores integra el
área emergente de las redes de sensores con técnicas novedosas de extracción de
datos y aprendizaje automático para modelar una amplia gama de actividades
humanas. Los dispositivos móviles (p. ej., teléfonos inteligentes) proporcionan
suficientes datos de sensor y potencia de cálculo para permitir que el
reconocimiento de la actividad física proporcione una estimación del consumo de
energía durante la vida cotidiana. Los investigadores de reconocimiento de
actividad basado en sensores creen que al habilitar computadoras y sensores
ubicuos para monitorear el comportamiento de los agentes (bajo consentimiento),
estas computadoras estarán mejor preparadas para actuar en nuestro nombre.
Sensores visuales que incorporan información de color y profundidad, como el
kinect, permiten un reconocimiento automático de acciones más preciso y
fusionan muchas aplicaciones emergentes, como la educación interactiva y los
entornos inteligentes. Las vistas múltiples del sensor visual permiten el
desarrollo del aprendizaje automático para el reconocimiento de acción
invariable de vista automática. Los sensores más avanzados que se utilizan en
los sistemas de captura de movimiento 3D permiten un reconocimiento automático
de alta precisión, a costa de una configuración del sistema de hardware más
complicada.
Niveles de reconocimiento de actividad basado en sensores
El reconocimiento de actividad basado en sensores es una
tarea desafiante debido a la naturaleza ruidosa inherente de la entrada. Así,
el modelado estadístico ha sido el principal impulso en esta dirección en
capas, donde se realiza y conecta el reconocimiento en varios niveles
intermedios. En el nivel más bajo donde se recopilan los datos del sensor, el aprendizaje
estadístico se refiere a cómo encontrar las ubicaciones detalladas de los
agentes a partir de los datos de la señal recibida. En un nivel intermedio, la
inferencia estadística puede estar preocupado por cómo reconocer las actividades
de los individuos a partir de las secuencias de ubicación inferidas y las
condiciones ambientales en los niveles inferiores. Además, al más alto nivel,
una de las principales preocupaciones es averiguar el objetivo general o los
sub objetivos de un agente a partir de las secuencias de actividad mediante una
combinación de razonamiento lógico y estadístico.
Reconocimiento de actividad multiusuario basado en sensores
El reconocimiento de actividades para múltiples usuarios
usando sensores en el cuerpo apareció por primera vez en el trabajo de ORL
usando sistemas de distintivos activos a
principios de la década de 1990. Se utilizaron otras tecnologías de sensores,
como los sensores de aceleración, para identificar patrones de actividad grupal
durante escenarios de oficina. Las actividades de usuarios múltiples en
entornos inteligentes se abordan en Gu et al. En este trabajo, investigan el
problema fundamental de reconocer actividades para múltiples usuarios a partir
de lecturas de sensores en un entorno doméstico y proponen un enfoque novedoso
de minería de patrones para reconocer actividades de un solo usuario y de
múltiples usuarios en una solución unificada.
Reconocimiento de actividad grupal basado en sensores
El reconocimiento de actividades de grupo es
fundamentalmente diferente del reconocimiento de actividad de un solo usuario o
de múltiples usuarios en que el objetivo es reconocer el comportamiento del
grupo como una entidad, en lugar de las actividades de los miembros
individuales dentro de él. El comportamiento grupal es de naturaleza emergente,
lo que significa que las propiedades del comportamiento del grupo son
fundamentalmente diferentes de las propiedades del comportamiento de los
individuos dentro de él, o cualquier suma de ese comportamiento. Los
principales desafíos están en modelar el comportamiento de los miembros
individuales del grupo, así como los roles del individuo dentro de la dinámica
del grupo y su relación con el
comportamiento emergente del grupo en paralelo. Los desafíos que aún deben
abordarse incluyen la cuantificación del comportamiento y los roles de las
personas que se unen al grupo, la integración de modelos explícitos para la
descripción de roles en algoritmos de inferencia y evaluaciones de
escalabilidad para grupos y multitudes muy grandes. El reconocimiento de
actividad grupal tiene aplicaciones para la gestión de multitudes y la
respuesta en situaciones de emergencia, así como para redes sociales y
aplicaciones Quantified Self .
Aproximaciones
Reconocimiento de actividad a través de la lógica y el
razonamiento
Los enfoques basados en la lógica realizan un seguimiento
de todas las explicaciones lógicamente consistentes de las acciones observadas.
Por lo tanto, se deben considerar todos los planes u objetivos posibles y
consistentes. Kautz proporcionó una teoría formal del reconocimiento del plan.
Describió el reconocimiento de planes como un proceso de inferencia lógica de
circunscripción. Todas las acciones y planes se denominan uniformemente metas,
y el conocimiento de un reconocedor se representa mediante un conjunto de
declaraciones de primer orden, denominado jerarquía de eventos. La jerarquía de
eventos está codificada en lógica de primer orden, que define abstracción,
descomposición y relaciones funcionales entre tipos de eventos.
El marco general de Kautz para el reconocimiento de planes
tiene una complejidad de tiempo exponencial en el peor de los casos, medida en
el tamaño de la jerarquía de entrada. Lesh y Etzioni fueron un paso más allá y
presentaron métodos para ampliar el reconocimiento de objetivos para ampliar su
trabajo computacionalmente. En contraste con el enfoque de Kautz, donde la
biblioteca de planes se representa explícitamente, el enfoque de Lesh y Etzioni
permite la construcción automática de bibliotecas de planes a partir de
primitivas de dominio. Además, introdujeron representaciones compactas y
algoritmos eficientes para el reconocimiento de objetivos en bibliotecas de
planos grandes.
Los planes y objetivos inconsistentes se podan repetidamente
cuando llegan nuevas acciones. Además, también presentaron métodos para adaptar
un reconocedor de objetivos para manejar el comportamiento idiosincrásico
individual dado una muestra del comportamiento reciente de un individuo.
Pollack et al. Describió un modelo de argumentación directa que puede conocer
la fuerza relativa de varios tipos de argumentos para la descripción de
creencias e intenciones.
Un problema serio de los enfoques basados en la lógica es
su incapacidad o inviabilidad inherente para representar la incertidumbre. No
ofrecen ningún mecanismo para preferir un enfoque consistente a otro e
incapaces de decidir si un plan en particular es más probable que otro, siempre
que ambos puedan ser lo suficientemente consistentes para explicar las acciones
observadas. También existe una falta de capacidad de aprendizaje asociada con
los métodos basados en la lógica.
Otro enfoque para el reconocimiento de actividades basado en
la lógica es utilizar el razonamiento de flujo basado en la programación de
conjuntos de respuestas, y se ha aplicado al reconocimiento de actividades para
aplicaciones relacionadas con la salud, que utiliza restricciones débiles para
modelar un grado de ambigüedad/incertidumbre.
Reconocimiento de actividad mediante razonamiento
probabilístico
La teoría de la probabilidad y los modelos de aprendizaje
estadístico se aplican más recientemente en el reconocimiento de actividades
para razonar sobre acciones, planes y metas bajo incertidumbre. En la
literatura, ha habido varios enfoques que representan explícitamente la
incertidumbre en el razonamiento sobre los planes y objetivos de un agente.
Usando datos de sensores como entrada, Hodges y Pollack
diseñaron sistemas basados en aprendizaje automático para identificar a las
personas mientras realizan actividades diarias de rutina, como preparar café.
Intel Research (Seattle) Lab y la Universidad de Washington en Seattle han
realizado algunos trabajos importantes sobre el uso de sensores para detectar
planes humanos. Algunos de estos trabajos infieren modos de transporte de
usuarios a partir de lecturas de identificadores de radiofrecuencia (RFID) y
sistemas de posicionamiento global (GPS).
Los modelos generativos y discriminativos tienen sus pros y
sus contras y la elección ideal depende de su área de aplicación. Aquí se puede
encontrar un conjunto de datos junto con implementaciones de varios modelos
populares (HMM, CRF) para el reconocimiento de actividad.
Los modelos probabilísticos temporales convencionales, como
el modelo oculto de Markov (HMM) y el modelo de campos aleatorios condicionales
(CRF), modelan directamente las correlaciones entre las actividades y los datos
del sensor observados. En los últimos años, cada vez más evidencia ha
respaldado el uso de modelos jerárquicos que tienen en cuenta la rica
estructura jerárquica que existe en los datos de comportamiento humano. La idea
central aquí es que el modelo no correlaciona directamente las actividades con
los datos del sensor, sino que divide la actividad en subactividades (a veces
denominadas acciones) y modela las correlaciones subyacentes en consecuencia.
Un ejemplo podría ser la actividad de preparar un salteado, que se puede
desglosar en las subactividades o acciones de cortar verduras, freír las
verduras en una sartén y servirlas en un plato. Ejemplos de un modelo
jerárquico de este tipo son los modelos de Markov ocultos en capas (LHMM) y el
modelo de Markov oculto jerárquico (HHMM), que han demostrado superar
significativamente a su contraparte no jerárquica en el reconocimiento de
actividad.
Enfoque basado en la minería de datos para el reconocimiento
de actividades
A diferencia de los enfoques tradicionales de aprendizaje
automático, recientemente se ha propuesto un enfoque basado en la minería de
datos. En el trabajo de Gu et al., el problema del reconocimiento de actividad
se formula como un problema de clasificación basado en patrones. Propusieron un
enfoque de minería de datos basado en patrones discriminatorios que describen
cambios significativos entre dos clases de actividad de datos para reconocer
actividades secuenciales, intercaladas y concurrentes en una solución
unificada. Gilbert et al. use esquinas 2D tanto en el espacio como en el
tiempo. Estos se agrupan espacial y temporalmente mediante un proceso
jerárquico, con un área de búsqueda creciente. En cada etapa de la jerarquía,
las características más distintivas y descriptivas se aprenden de manera eficiente
a través de la minería de datos (regla a priori).
Reconocimiento de actividad basado en GPS
El reconocimiento de actividad basado en la ubicación
también puede basarse en datos de GPS para reconocer actividades.
Uso del sensor
Reconocimiento de actividad basado en la visión
Es un problema muy importante y desafiante rastrear y
comprender el comportamiento de los agentes a través de videos tomados por
varias cámaras. La técnica principal empleada es la Visión por Computador. El
reconocimiento de actividad basado en la visión ha encontrado muchas
aplicaciones, como la interacción humano-computadora, el diseño de interfaz de
usuario, el aprendizaje de robots y la vigilancia, entre otras. Las
conferencias científicas en las que a menudo aparece el trabajo de
reconocimiento de actividad basado en la visión son ICCV y CVPR .
Se ha trabajado mucho en el reconocimiento de actividades
basado en la visión. Los investigadores han probado una serie de métodos, como
el flujo óptico, el filtrado de Kalman , los modelos ocultos de Markov , etc.,
bajo diferentes modalidades, como cámara única, estéreo e infrarrojos. Además,
los investigadores han considerado múltiples aspectos sobre este tema, incluido
el seguimiento de peatones individuales, el seguimiento de grupos y la
detección de objetos caídos.
Recientemente, algunos investigadores han utilizado cámaras
RGBD como Microsoft Kinect para detectar actividades humanas. Las cámaras de
profundidad añaden una dimensión adicional, es decir, una profundidad que la
cámara 2D normal no proporciona. La información sensorial de estas cámaras de
profundidad se ha utilizado para generar un modelo de esqueleto en tiempo real
de humanos con diferentes posiciones corporales. Esta información esquelética proporciona
información significativa que los investigadores han utilizado para modelar
actividades humanas que se entrenan y luego se utilizan para reconocer
actividades desconocidas.
Con la reciente emergencia del aprendizaje profundo, el
reconocimiento de actividad basado en video RGB ha experimentado un rápido
desarrollo. Utiliza videos capturados por cámaras RGB como entrada y realiza
varias tareas, que incluyen: clasificación de video, detección de inicio y fin
de actividad en videos y localización espacio-temporal de la actividad y las
personas que realizan la actividad.
A pesar del notable progreso del reconocimiento de actividad
basado en la visión, su uso para la mayoría de las aplicaciones de vigilancia
visual sigue siendo una aspiración lejana. Por el contrario, el cerebro humano
parece haber perfeccionado la capacidad de reconocer las acciones humanas. Esta
capacidad se basa no solo en el conocimiento adquirido, sino también en la
aptitud de extraer información relevante para un contexto dado y un
razonamiento lógico. Sobre la base de esta observación, se ha propuesto mejorar
los sistemas de reconocimiento de actividad basados en la visión integrando
el razonamiento de sentido común y el conocimiento contextual y de sentido común.
Niveles de reconocimiento de actividad basado en la visión
En el reconocimiento de actividad basado en visión, el
proceso computacional a menudo se divide en cuatro pasos, a saber, detección
humana, seguimiento humano, reconocimiento de actividad humana y luego una evaluación
de actividad de alto nivel.
Localización de acciones de grano fino
En el reconocimiento de actividad basado en visión por
computadora , la localización de acciones de granularidad fina generalmente proporciona
máscaras de segmentación por imagen que delimitan el objeto humano y su
categoría de acción (por ejemplo, Segment-Tube). A menudo se emplean técnicas
como las redes dinámicas de Markov , CNN y LSTM para explotar las correlaciones
semánticas entre fotogramas de vídeo consecutivos.
Reconocimiento automático de la marcha
Una forma de identificar a personas específicas es por cómo
caminan. El software de reconocimiento de la marcha se puede utilizar para
registrar la marcha o el perfil de características de la marcha de una persona
en una base de datos con el fin de reconocer a esa persona más tarde, incluso
si lleva un disfraz.
Reconocimiento de actividad basado en Wi-Fi
Cuando el reconocimiento de actividad se realiza en
interiores y en ciudades utilizando las señales Wi-Fi ampliamente disponibles y
los puntos de acceso 802.11 , hay mucho ruido e incertidumbre. Estas
incertidumbres se pueden modelar utilizando un modelo de red bayesiano
dinámico. En un modelo de objetivo múltiple que puede razonar sobre los
objetivos intercalados del usuario, se aplica un modelo de transición de estado
determinista. Otro método posible modela
las actividades concurrentes y entrelazadas en un enfoque probabilístico. Un
modelo de descubrimiento de acciones del usuario podría segmentar las señales
Wi-Fi para producir posibles acciones.
Modelos básicos de reconocimiento Wi-Fi
Uno de los pensamientos principales del reconocimiento de
actividad de Wi-Fi es que cuando la señal atraviesa el cuerpo humano durante la
transmisión; que provoca la reflexión, la difracción y la dispersión. Los
investigadores pueden obtener información de estas señales para analizar la
actividad del cuerpo humano.
Modelo de transmisión estática
Como se muestra en , cuando las señales inalámbricas se
transmiten en interiores, los obstáculos como las paredes, el suelo y el cuerpo
humano provocan varios efectos, como la reflexión, la dispersión, la difracción
y la difracción. Por lo tanto, el extremo receptor recibe múltiples señales de
diferentes caminos al mismo tiempo, porque las superficies reflejan la señal
durante la transmisión, lo que se conoce como efecto de caminos múltiples .
El modelo estático se basa en estos dos tipos de señales: la
señal directa y la señal reflejada. Debido a que no hay obstáculos en el camino
directo, la transmisión de señal directa se puede modelar mediante la ecuación
de transmisión de Friis :
{\displaystyle P_{t}}P_{t}es la potencia alimentada a los
terminales de entrada de la antena transmisora;
{\displaystyle P_{r}}P_{r}es la potencia disponible en los
terminales de salida de la antena receptora;
{\ estilo de visualización d}des la distancia entre antenas;
{\displaystyle G_{t}}G_{t}está transmitiendo la ganancia de
la antena;
{\displaystyle G_{r}}Gramo}está recibiendo ganancia de
antena;
{\ estilo de visualización \ lambda}\lambdaes la longitud de
onda de la radiofrecuencia
Si consideramos la señal reflejada, la nueva ecuación es:
{\displaystyle P_{r}={\frac {P_{t}G_{t}G_{r}\lambda
^{2}}{(4\pi )^{2}(d+4h)^{2} }}}{\displaystyle P_{r}={\frac
{P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}(d+4h)^{2} }}}
{\ estilo de visualización h}hes la distancia entre los
puntos de reflexión y la trayectoria directa.
Cuando aparece un humano, tenemos una nueva ruta de
transmisión. Por lo tanto, la ecuación final es:
{\displaystyle P_{r}={\frac {P_{t}G_{t}G_{r}\lambda
^{2}}{(4\pi )^{2}(d+4h+\Delta )^{ 2}}}}{\displaystyle P_{r}={\frac
{P_{t}G_{t}G_{r}\lambda ^{2}}{(4\pi )^{2}(d+4h+\Delta )^{ 2}}}}
{\ estilo de visualización \ Delta}\Deltaes la diferencia
aproximada de la trayectoria causada por el cuerpo humano.
Modelo de transmisión dinámica
En este modelo, consideramos el movimiento humano, que hace
que la ruta de transmisión de la señal cambie continuamente. Podemos usar el
Desplazamiento Doppler para describir este efecto, que está relacionado con la
velocidad del movimiento.
{\displaystyle \Delta f={\frac {2v\cos
\theta}{c}}f}{\displaystyle \Delta f={\frac {2v\cos \theta}{c}}f}
Al calcular el desplazamiento Doppler de la señal de
recepción, podemos determinar el patrón del movimiento y, por lo tanto,
identificar aún más la actividad humana. Por ejemplo, en [46] el desplazamiento
Doppler se usa como una huella digital para lograr una identificación de alta
precisión para nueve patrones de movimiento diferentes.
Zona de Fresnel
La zona de Fresnel se utilizó inicialmente para estudiar la
interferencia y la difracción de la luz, que luego se utiliza para construir el
modelo de transmisión de señales inalámbricas. La zona de Fresnel es una serie
de intervalos elípticos cuyos focos son las posiciones del emisor y el
receptor.
Cuando una persona se mueve a través de diferentes zonas de
Fresnel, la ruta de la señal formada por el reflejo del cuerpo humano cambia, y
si las personas se mueven verticalmente a través de las zonas de Fresnel, el
cambio de señal será periódico. En el artículo, y aplicaron el modelo de Fresnel a la tarea de
reconocimiento de actividad y obtuvieron un resultado más preciso.
Modelado del cuerpo humano
En algunas tareas, debemos considerar modelar el cuerpo
humano con precisión para lograr mejores resultados. Por ejemplo, [48]
describió el cuerpo humano como cilindros concéntricos para la detección de la
respiración. El exterior del cilindro denota la caja torácica cuando las
personas inhalan, y el interior denota eso cuando las personas exhalan. Entonces,
la diferencia entre el radio de esos dos cilindros representa la distancia de
movimiento durante la respiración. El cambio de las fases de la señal se puede
expresar en la siguiente ecuación:
{\displaystyle \theta =2\pi {\frac {2\,\Delta d}{\lambda }}}{\displaystyle
\theta =2\pi {\frac {2\,\Delta d}{\lambda }}}
{\ estilo de visualización \ theta}\ thetaes el cambio de
las fases de la señal;
{\ estilo de visualización \ lambda}\lambdaes la longitud de
onda de la radiofrecuencia;
{\ estilo de visualización \ Delta d}\Delta des la distancia
en movimiento de la caja torácica;
Conjuntos de datos
Hay algunos conjuntos de datos populares que se utilizan
para comparar el reconocimiento de actividad o los algoritmos de reconocimiento
de acción.
UCF-101: consta de 101 clases de acción humana, más de 13k
clips y 27 horas de datos de video. Las clases de acción incluyen maquillarse,
jugar dhol, tiro de cricket, afeitarse la barba, etc.
HMDB51: esta es una colección de videos realistas de varias
fuentes, incluidas películas y videos web. El conjunto de datos se compone de
6.849 clips de video de 51 categorías de acción (como "saltar",
"besar" y "reír"), y cada categoría contiene al menos 101
clips.
Cinética: este es un conjunto de datos significativamente
más grande que los anteriores. Contiene 400 clases de acción humana, con al
menos 400 videoclips para cada acción. Cada clip dura alrededor de 10 segundos
y está tomado de un video de YouTube diferente. Este conjunto de datos fue
creado por DeepMind.
Aplicaciones
Al monitorear automáticamente las actividades humanas, se
puede brindar rehabilitación en el hogar a las personas que sufren lesiones
cerebrales traumáticas. Se pueden encontrar aplicaciones que van desde
aplicaciones relacionadas con la seguridad y soporte logístico hasta servicios
basados en la ubicación. Se han desarrollado sistemas de reconocimiento de
actividad para la observación de vida silvestre y la conservación de
energía en edificios.
Análisis de multitudes
El análisis de multitudes es la práctica de interpretar datos sobre el movimiento natural de grupos u objetos. Masas de cuerpos, particularmente humanos, son los sujetos de estos análisis de seguimiento de multitudes que incluyen cómo se mueve una multitud en particular y cuándo cambia un patrón de movimiento. Los investigadores usan los datos para predecir futuros movimientos de multitudes, densidad de multitudes y planificar respuestas a eventos potenciales, como aquellos que requieren rutas de evacuación. Las aplicaciones del análisis de multitudes pueden variar desde la simulación de multitudes de videojuegos hasta la seguridad y la vigilancia.
Antecedentes
Debido al crecimiento de la población, el análisis de multitudes se ha convertido en un tema de gran interés en las disciplinas sociales y técnicas. Las personas utilizan el análisis de multitudes para desarrollar estrategias de gestión de multitudes en eventos públicos, así como en el diseño de espacios públicos, la vigilancia visual y los entornos virtuales. Los objetivos incluyen hacer que las áreas sean más convenientes y prevenir desastres provocados por multitudes.
Algunas multitudes no se pueden analizar tan fácilmente como otras. La psicología de una multitud impacta en cómo se divide y se estudia. Las multitudes pueden ser casuales, como un grupo de peatones caminando por la calle, o causales, como personas que participan en un maratón o una protesta. Pueden ser tan activos y erráticos como una multitud o tan pasivos como una audiencia. Si bien la multitud principal es el sujeto de la mayor parte del análisis, se deben tener en cuenta las anomalías, como alguien que se opone al flujo del tráfico o un ciclista que viaja a través de un grupo de peatones. Por lo tanto, el propósito de un grupo de individuos determina la interpretación de los datos obtenidos. Se han realizado importantes investigaciones para comprender la forma en que se mueven las multitudes a fin de predecir dónde pueden ocurrir las áreas de conflicto. Esta investigación se realiza analizando datos de multitudes y luego procediendo a crear modelos de situaciones similares utilizando software. Existen muchos modelos que simulan el comportamiento de la multitud, y algunos afirman "modelos macroscópicos como modelos basados en redes o modelos de dinámica de fluidos, así como modelos microscópicos como, por ejemplo, el modelo de fuerza social o los autómatas celulares".
Metodología
La densidad de multitudes se refiere a la cantidad de objetos dentro de una unidad de área, como personas por metro cuadrado. La densidad es importante para determinar la ocupación máxima de una habitación o edificio para abordar problemas de seguridad. Analizar áreas que se vuelven más densamente pobladas que otras es esencial para diseñar edificios y rutas de evacuación. Abordar tales preocupaciones implica la gestión y optimización de la multitud y sus patrones de movimiento previstos.
El flujo de multitudes implica la velocidad a la que los objetos de una multitud se mueven en un espacio. A una capacidad crítica, el flujo comienza a disminuir a medida que aumenta la densidad de la multitud. La ley de Yerkes-Dodson explica cómo el rendimiento se ve afectado por la cantidad de estrés en un individuo. El estrés es causado por factores externos, como un objeto que se acerca al individuo, una limitación de tiempo para que el individuo realice una tarea o la cantidad de agentes que lo acosan.
En lo que respecta a la animación por computadora , los individuos simulados (conocidos como agentes) a menudo se escriben para representar un comportamiento realista similar al de una multitud. Siguen un algoritmo basado en el estrés, los campos de navegación y los agentes circundantes para manipular el comportamiento. El estudio de la producción de agentes inteligentes para seguir un comportamiento real cae dentro del campo de la inteligencia artificial .
Aplicaciones
Los datos extraídos del análisis de multitudes son invaluables en una variedad de campos e implementaciones del mundo real.
Multitud de Inteligencia Artificial
También conocida como inteligencia de enjambre , el análisis y la aplicación del movimiento de multitudes pueden contribuir al modelado del comportamiento grupal basado en modelos biológicos y artificiales. El comportamiento del instinto social se aplica a sistemas complejos que modelan múltiples agentes y sus interacciones. Los métodos basados en la población se utilizan para representar las interacciones locales de los agentes con su entorno.
Sociología
Existen innumerables aplicaciones sociales del análisis de multitudes que van desde usos dentro de las industrias del cine y los videojuegos hasta usos en la planificación pública. Dado que las simulaciones de multitudes se basan en dinámicas de grupo y psicología de multitudes , la precisión y la relevancia para situaciones de la vida real son claras. Un gran aspecto de la planificación pública y su uso del análisis de multitudes se encuentra dentro del ámbito de las representaciones situacionales para la evacuación de emergencia. Las evacuaciones se pueden planificar mediante el modelado y el estudio de la interacción y reacción de la multitud. Estas representaciones se basan en modelos y patrones biológicos, por lo que los movimientos predichos son bastante realistas. Se utilizan modelos similares dentro de las industrias cinematográficas para producir simulaciones y escenas realistas y realistas.
Simulaciones
Un sistema puede generar una simulación de multitud realista con entradas dadas y simular cómo los objetos en movimiento simulados, o agentes, interactuarán entre sí y con el entorno. El objetivo es replicar los patrones de movimiento de una multitud dada una gran cantidad de agentes en un espacio determinado. Los algoritmos basados en el análisis de multitudes intentan gestionar el movimiento de la multitud. Cuanto más eficiente y realista se vuelve una simulación, más complejo debe volverse el algoritmo. El software debe poder manipular la trayectoria de los agentes individuales en función de variables como los objetivos de los agentes, las fuerzas de estrés , los obstáculos y los niveles de excitación .
Comentarios
Publicar un comentario