En el mercado actual, dos de los grandes objetivos de los gestores de infraestructura de TI es aumentar el tiempo medio entre las fallas (MTTF) y disminuir el tiempo medio de la resolución de fallas (MTTR). Estos indicadores muestran el impacto de las fallas de los equipamientos del parque tecnológico en las empresas, ya que muchos servicios, procesos y actividades del emprendimiento dependen del ambiente de TI.

En el universo de la Gestión, una situación, proyecto o problema se resuelve correctamente cuando la respuesta incluye las «tres Es» de la administración, es decir, es eficaz, ya que se soluciona de forma rápida; eficiente, ya que se fue asertivo; y efectivo, ya que conllevó un impacto positivo para la empresa. Estos tres conceptos también son fundamentales para las demandas a las que se enfrenta el equipo de TI. Si se demora mucho tiempo en resolver una falla, pueden desencadenarse diferentes tipos de problemas. Un problema resuelto de forma paliativa continuará repitiéndose y perjudicando a la operación del equipo técnico. Por otro lado, a pesar de que muchos profesionales son conscientes de este escenario ideal, muchos lo tratan como algo utópico o fuera de la realidad del día a día. Esta idea puede producirse no solo entre los gestores, sino también entre los trabajadores que forman parte de la operación.

Otra cuestión relevante es que muchas veces cuando se produce un problema, se avisa al equipo equivocado porque no se sabe la causa de la falla. En este sentido, se burocratiza el incidente y este, gradualmente, tiene un tiempo mayor de resolución.

La gran cuestión es ¿cómo ser eficiente, eficaz y efectivo en la gestión del equipo y del ambiente de TI?

En este artículo, abordaremos un estudio de caso de un cliente que utiliza las soluciones de monitoreo de Telcomanager y cómo este solucionó una falla periódica en su red de datos.

Estudio de caso: Monitoreo de servidores

Para una buena gestión de la red, es esencial tener visibilidad sobre ella. La infraestructura de equipamientos de TI debe ser monitoreada en detalle, con métricas de rendimiento, gráficos, informes, alarmas y otros.

Un cliente de Telcomanager una vez señaló que un servicio fundamental para la facturación de la empresa estaba indisponible en una hora determinada del día, justamente en la hora punta, es decir, en el horario de mayor demanda de este servicio. Todos los días a esa hora el servicio estaba indisponible.

Un servidor local proporcionaba este servicio. En esta situación, el equipo de soporte dirigía el incidente al grupo que desarrolló la aplicación, que era hospedada en el servidor, y los trabajadores de desarrollo redirigían la falla al equipo de soporte que era responsable de la infraestructura de la red.

En este caso, ¿quién puede resolver el problema?

En ese momento entró en escena SLAview. El consultor técnico de Telcomanager notó que el tráfico disminuía antes de que el servicio estuviera indisponible, lo que era anormal, ya que la sospecha inicial era que el servidor no estaba soportando la alta demanda de los usuarios. Además, mientras el tráfico se reducía, el consumo de CPU aumentaba.

Por tanto, llegamos a la conclusión de que el problema no estaba en la infraestructura, y sí en un proceso que estaba consumiendo muchos recursos del procesamiento del servidor. A partir de los gráficos del SLAview, se identificó el momento preciso en que el consumo de CPU aumentaba y, así, se descubrió que un procedimiento específico en el banco de datos estaba sobrecargando la máquina.

Al final de cuentas, la responsabilidad de la resolución del incidente era del equipo del banco de datos, que percibió en una consulta al SQL que estaba con un tiempo muy largo y esto sobrecargaba la CPU del servidor.

Este ejemplo demuestra la importancia de relacionar las métricas a un mismo objeto, con SLAview, el gestor consigue entender el comportamiento de cada objeto y agilizar el proceso de resolución de problemas con asertividad. Después, el problema no se volvió a repetir.

SLAview

SLAview es un sistema robusto de Telcomanager embarcado en un appliance de fabricación propia y dimensionado para cualquier demanda. Se trata de un sistema versátil, que permite diversos tipos de recolectas, como consultas SNMP, ICMP e incluso recolectas basadas en scripts, que pueden utilizarse para hacer la integración con API. Además, posee diferentes tipos de salidas de datos personalizados, como informes, dashboards, mapas de topologías, gráficos, alarmas y mucho más.

Consideraciones finales

Por tanto, es indispensable tener visibilidad de la red para que la gestión de TI sea eficaz, efectiva y eficiente en la solución de incidentes y fallas. Y es esencial tener una visibilidad cualificada, con un sistema robusto y flexible como SLAview. Además, vimos la importancia de una buena gestión de envío de avisos de los incidentes y el hecho de que los procesos necesitan estar bien definidos en el equipo técnico, ya que esto desencadenará una mayor asertividad en la resolución de fallas.

Teniendo esto en cuenta, Telcomanager que está desde el 2002 en el mercado, líder de América Latina en el sector de software para la gestión de redes, ofrece soluciones inteligentes con una metodología única e innovadora para el monitoreo de datos, lo que proporciona una visión completa de su infraestructura, permitiendo que su empresa controle los principales aspectos de su red en tiempo real.