Alarmas | Conciencia situacional y gestión de alarmas (parte 1)

Por Ing. Andrés Szlufik, MDE Network, andres.szlufik@mdenetwork.com.ar, www.mdenetwork.com.ar


 



Conceptos básicos de conciencia situacional

Se entiende por ‘conciencia situacional’ (del inglés situational awareness) a la percepción de uno mismo y la planta en relación al ambiente dinámico del proceso y sus posibles amenazas, con capacidad para pronosticar lo que ocurrirá, basado en la percepción.
Dicho de otra forma, es la capacidad de tener una percepción exacta de la situación, de reconocer rápidamente un cambio en ella, de comprender el impacto que provocaría cualquier modificación, de proyectar la situación en el futuro cercano. En suma, ¡de saber qué pasa alrededor nuestro!
La conciencia situacional no es un comportamiento específico. Por el contrario, es el producto o resultado de la actitud, y los consiguientes comportamientos y acciones. Podemos decir, también, que es el resultado de la comprensión, en un ambiente tridimensional, de lo que ha ocurrido, lo que está sucediendo y lo que podría llegar a suceder.
En una planta de procesos industriales, la conciencia situacional (también llamada “conciencia operacional” o “conciencia de situación”), típicamente se define en términos de tres niveles sucesivos de comportamiento de un operador:

  • Detección de una desviación potencial o real, a partir de un estado de operación esperado del proceso.
  • Compresión de cuál es el estado del proceso, interpretando qué desviación podría haber y qué sería necesario hacer para mitigar o corregir alguna perturbación del proceso.
  • Proyección del estado futuro del proceso, tomando como punto de partida el estado y trayectoria actuales, y el impacto esperado que podría provocar cualquier acción de corrección o control dirigida a la desviación o alteración del proceso.

Situaciones anormales

La definición que más me gusta para ‘situación anormal’ es la siguiente: “Perturbación o serie de perturbaciones en un proceso que hace que la operación de la planta se desvíe de su estado de funcionamiento normal, y en el que el sistema de control no es capaz resolver, requiriéndose de la intervención humana”.
Las perturbaciones pueden ser mínimas o catastróficas; a la vez, causar pérdidas de producción o, en casos graves, poner en peligro vidas humanas.
El resultado de una situación anormal puede ser la aparición de costos innecesarios por:

  • pérdidas de producción
  • productos fuera de especificaciones
  • daños a equipos, activos
  • cualquier otra cosa grave que quieran imaginar

En la mayoría de las industrias, las plantas trabajan 365/24 (todo el día, todos los días), y no pueden simplemente cambiar la fecha de producción: lo que se pierde, se pierde para siempre.
Uno de los problemas centrales de la gestión de las situaciones anormales es lo que se podría denominar como “paradoja de la automatización”: a medida que los sistemas se complejizan, se pone al operador en una posición cada vez más complicada e insostenible. ¿Por qué? En primer lugar, como los sistemas devinieron más complejos, a los operadores se les hace más difícil operarlos, entonces, la solución mágica a la dificultad operativa es… ¡agregar automatización! Lo que termina pasando es que la automatización en sí misma lo único que hace es aumentar la complejidad. Encima, además, es difícil mantener las habilidades operacionales de un operador en un entorno automatizado. Pero resulta ser que esas habilidades son las que, precisamente, más se necesitan cuando el sistema automatizado no es capaz de manejar un problema y es necesario que el operador intervenga (!).
En mi larga experiencia de más de treinta años recorriendo plantas industriales, he visto que las soluciones de automatización, a menudo, se han desarrollado sin la consideración de la persona que necesita interactuar con ella.
Habitualmente, los sistemas de automatización se han pensado (los hemos pensado) para que resuelvan efectivamente un problema bajo condiciones normales. Pero cuando se produce una anomalía o perturbación en un proceso, muchas veces la complejidad de la automatización disminuye la capacidad de las personas para intervenir y corregir el problema. De ahí que digamos que uno de los desafíos que tienen las plantas industriales es que posean sistemas que no estén “centrados en el operador”. (Cuando decimos ‘operador’, hablamos de los usuarios, que incluyen desde el operador de una consola hasta un gerente de planta). Por ende, se puede concluir que aumentar la tecnología no aumenta la conciencia situacional.
Un estudio realizado en múltiples plantas acerca de los sistemas de notificación de incidentes, que llevara a cabo el ASM Consortium, confirma lo que estimaba la teoría: las tres fuentes principales de situaciones anormales son:

  • la gente o los factores de contexto de trabajo
  • factores de equipos
  • factores de proceso

Respecto de la gente y los factores de contexto de trabajo, alcanzan un promedio de cuarenta y dos por ciento (42%) de los incidentes (rango de treinta y cinco a cincuenta y ocho por ciento —35 a 58%—). Los que influencian en este factor son los niveles de formación, habilidades y experiencia de los equipos de operaciones y sus niveles de estrés cuando un evento llega a la condición de alarma. Además, la estructura organizativa, las comunicaciones, medioambiente (ambiente de trabajo), procedimientos documentados y buenas prácticas (o falta de ellas) juegan un papel muy importante en la respuesta del operador.
Los factores relacionados a equipos representan un promedio del treinta y seis por ciento (36%) de los incidentes (rango de treinta a cuarenta y cinco por ciento —30 a 45%—). Esta categoría incluye la degradación y fallas en los equipos de proceso, tales como bombas, compresores y calderas, y fallas en el equipo de control, tales como sensores, válvulas y controladores.
Por último, los factores relacionados al proceso representan un promedio del veintidós por ciento (22%) de los incidentes (rango de tres a treinta y cinco por ciento —3 a 35%—). Los impactos provienen de la complejidad del proceso, tipos de materiales, modo de fabricación (producción por lotes vs. producción continua) y el estado de funcionamiento: permanente vs. arranques, paradas y transiciones.
De acuerdo con este estudio, si nos fijamos en las causas de los acontecimientos en sí, el noventa por ciento (90%) son prevenibles y la mayoría —según algunas estimaciones, la gran mayoría— se debe a las acciones (o inacciones) de la gente.
Los seres humanos siempre serán una parte del proceso de toma de decisiones en las operaciones de la planta y, por lo tanto, siempre habrá lugar para que el error humano contribuya a las situaciones anormales.

Tensión vs. desempeño: la curva “U” invertida


Curva ‘U’ invertida

Se dice que cualquier persona reacciona frente a distintos eventos de distinta manera, sin embargo, hay un patrón que permitiría explicar el desempeño de una persona según el grado de tensión a la que se la somete.
La hipótesis de la ‘U’ invertida propone que los aumentos en la tensión que experimenta una persona normalmente están acompañados por aumentos en la calidad del rendimiento o desempeño, solo hasta un cierto punto. Después de alcanzar cierto umbral, comienza a experimentar desempeños decrecientes: el aumento de la tensión, en realidad, resulta en el deterioro de la calidad del desempeño de ciertas tareas.
El problema radica en que los operadores están tratando, con demasiada complejidad, un sistema de control que no les está dando una solución al problema, y que no tiene el tiempo suficiente para analizar a fondo la situación y responder apropiadamente.
Las personas tenemos limitaciones; no somos buenos en la detección de problemas entre grandes volúmenes de datos, no siempre tenemos el tiempo para pensar cuándo debemos intervenir, y podemos no actuar consistentemente. Esto implica al sistema de automatización, aún cuando la información que manejemos sea la misma. Las personas también podemos tener dificultades para comunicarnos; por ejemplo, en la actualidad, es difícil enviar mensajes a plantas afectadas por una perturbación y, al mismo tiempo, ejecutar una acción compensatoria o correctiva. Además, la falta de comunicación o su total inexistencia pueden producirse a lo largo de los turnos, lo cual conduce a acciones inapropiadas.
Como lo muestra la figura 2, todas estas limitaciones humanas se ven agravadas por situaciones de estrés.
El objetivo de una empresa debe ser la de diseñar la organización, capacitación, sistemas de apoyo y de automatización sustentadas en las fortalezas humanas, dando apoyo y solución a sus, bien entendidas, limitaciones.

Consideraciones de diseño basadas en conciencia situacional

Jens Rasmussen, Tom Sheridan y David Woods, entre otros, han diseñado un modelo de control supervisor humano que permite, de manera simplificada, describir la conciencia situacional de un operador y sus actividades de respuesta.
La idea es evidenciar la manera en que un grupo de operaciones procesa la información que proviene del mismo proceso:

  • Orientar
  • Evaluar
  • Actuar
  • Comprobar

Para que sean efectivas, estas actividades de conciencia situacional necesitan estar soportadas por un diseño efectivo de sistemas de información de operaciones y de interfaces de usuario.
Algunos factores influyen en el grado de éxito en que resulta la intervención de un operador, según sea el punto del modelo de análisis mental en que se encuentre.
‘Codificación prominente’ o ‘resaltado’ es el concepto acerca de cómo se visualiza en una pantalla la información asociada a tareas críticas. Se debe buscar que capture la atención de un operador de manera precisa, sin distracciones ni competencia entre elementos. La utilización de una codificación prominente evita el desorden visual y ayuda a los operadores a optimizar su percepción, comprensión y respuesta ante una perturbación de un proceso. Por ejemplo, para las alarmas, establecer un código de colores y nombre común a todos los sistemas.
Este concepto puede ser válido para todos los sistemas: HMI (Human-Machine Interface, ‘interfaz humano-máquina’), alarmas, cuaderno de novedades, libros de turnos, paneles y tableros de mando, etc.

Conciencia situacional y la gestión eficiente de alarmas

Todos conocemos los sistemas SCADA o DCS de nuestras plantas, y sabemos la gran cantidad de alarmas que se generan en las plantas. El resultado más común es que uno encuentre salas de control con operadores fatigados y gran cantidad de alarmas del proceso demandando atención, ¿les resulta familiar?
A veces perdemos de vista una definición básica: “El propósito de un sistema de alarmas es dirigir la atención de los operadores hacia las condiciones de la planta, para exigir una acción”. No perdamos de vista que la definición de ‘alarma’ es “Evento que requiere una acción inmediata de un operador” (claro, que esta acción no debería ser la de reconocer o cancelar alarma).
En los inicios, cada lazo de control tenía un hardware asociado, con lo que las alarmas se racionalizaban por una cuestión de costos. Con la introducción de los sistemas de control de la actualidad, la cantidad de alarmas se disparó.
Los sistemas de gestión de alarmas deben adecuarse a la capacidad de registrar eventos por los operadores humanos.
La Asociación de Usuarios de Materiales y Equipo de la Ingeniería (EEMUA) es una organización sin fines de lucro con más de cincuenta años de historia destinada a ofrecer servicios para mejorar la seguridad, el medioambiente y la eficiencia de los procesos industriales. Dentro del ámbito en el que trabaja, en 1999 publicó una directiva de gestión de alarmas que se ha considerado el patrón a seguir por los grandes fabricantes industriales la EEMUA 191. Dicha recomendación orienta sobre el diseño, la gestión y la adquisición de sistemas de alarmas.
La Sociedad Internacional de Automatización (ISA), organización internacional sin fines de lucro enfocada al desarrollo de estándares relacionados con el mundo de la instrumentación, el control y la automatización, también ha adoptado EEMUA 191. La Norma ISA 18.2-2009 extiende las buenas prácticas de la recomendación e incorpora el concepto de gestión de cambios (MOC).
Si bien ninguna es una ley, son buenas prácticas internacionales que tienen varias consecuencias inmediatas y otras que son menos evidentes. El efecto principal es que un operador puede tomar mejores decisiones en su punto máximo de atención (ver curva “U” invertida). Pero, los efectos que se desprenden de ellos son la protección legal en caso de accidente y, por otro lado, frente a la compañía de seguros la baja en las primas.
Tanto una, como otra, tienen por objeto mejorar la seguridad dentro de la industria de procesos.
Luego de una serie de estudios realizados en distintas empresas de energía (petróleo y gas, refinación, petroquímica, generación eléctrica), EEMUA 191 logró definir algunos indicadores clave de desempeño (KPI) para evaluar la eficiencia de un sistema de alarmas; ellos son:

  • Promedio de alarmas por día
  • Promedio de alarmas activas
  • Tasa máxima permitida en diez minutos (10 min)
  • Promedio de alarmas en diez minutos (10 min)
  • Distribución de prioridades baja, media y alta


Ciclo de vida de una alarma

La EEMUA 191 ayuda a los ingenieros de control en la definición de prioridad de alarmas, que es clave para que los operadores de un sistema de control puedan distinguir qué alarma es la verdaderamente más importante. Su no detección puede traer consecuencias graves.
De acuerdo las recomendaciones de EEMUA 191, se debe fijar un objetivo de cantidad de alarmas por turno y por operador, que no debería exceder, para una operación normal, de una cada diez minutos, y mostrar no más que diez durante los primeros diez minutos seguidos a una salida de servicio o parada mayor.

Si hay sobresaturación de alarmas, el operador probablemente optará por:

  • Trabajar en aquellas menos importantes
  • Luchar contra todas ellas
  • Rendirse y abandonar la sala

En el momento enque hay una “inundación” de alarmas, es poco probable que un operador sea capaz de funcionar correctamente, y el sistema de alarma se vuelve más un obstáculo que una ayuda. Estos problemas pueden evitarse mediante un sistema de gestión de alarmas bien diseñado.

MDE Network | Contacto: Ing. Andrés Szlufik

 

Sin votos aún