Actualmente es innegable la importancia de supervisar todo el ambiente de TI de las empresas, sobre todo en ambientes complejos que tienen diferentes tecnologías de red, un equipamiento variado y sistemas diversificados. Una falla puede ser catastrófica para la producción de toda la empresa y producir perjuicios materiales, inmateriales y financieros graves para el emprendimiento. 

La ausencia de notificaciones sobre la falta de una copia de seguridad, de que el almacenamiento está cerca de su capacidad máxima o de la indisponibilidad de un servicio del servidor, entre otros ejemplos, puede ser crítica, ya que hoy en día sabemos que toda la infraestructura de red y de TI es un activo esencial para la mayoría de las empresas de todo el mundo. La esencia del monitoreo es que muchas fallas, como las señaladas, pueden evitarse. Además, en el caso de que se produzcan, la supervisión ofrece la capacidad de proporcionar una solución práctica y asertiva. 

El objetivo de este artículo es realizar un estudio de caso para mostrar cómo las soluciones Telcomanager, específicamente el SLAview, ayudan a solucionar diferentes problemas de un cliente que tiene un parque tecnológico robusto y complejo. 

Monitoreo diversificado y completo 

 El cliente de nuestro ejemplo posee un ambiente de TI con diversos equipamientos de fabricantes diferentes, como servidores, bancos de datos, almacén, sensores, nobreks, impresoras, enrutadores, enlaces WAN de diferentes tecnologías, switches o máquinas AWS, entre otros. SLAview supervisa todo esto. 

SLAview es un sistema robusto de Telcomanager que viene embebido en un appliance de fabricación propia y dimensionado acuerdo a cualquier demanda y que realiza el monitoreo de rendimiento y fallas de todo el ambiente TI del cliente en cuestión. A continuación, destacaremos que supervisiones cruciales debe hacer el cliente y cómo SLAview es importante en diversos aspectos relacionados con el parque tecnológico. 

Monitoreo de servidores 

En los servidores, se supervisa el consumo de CPU y otras cuestiones como memoria, interfaces, procesos, servicios, almacenamiento, etc. Específicamente en lo que se refiere al monitoreo de servicios, el cliente debe supervisar la disponibilidad, como por ejemplo Apache. La interrupción de un servicio puede afectar al área de producción. 

Por ello, se configuran las alarmas de recuperación automática en SLAview. Así, cuando un servicio se interrumpe, la propia solución de Telcomanager reinicia el servicio y generalmente esto resuelve el problema del cliente. 

Monitoreo de banco de datos 

En los bancos de datos, se supervisan varias métricas (KPI): situación de la copia de seguridad, instancias, table space, estado de la base de datos o transaction log, entre otras. Profundicemos en la supervisión de transaction log. Se trata de un registro de los datos de transacciones del banco que si se produce un problema, permite retroceder. Este registro tiene un espacio limitado, si este espacio se llena, el banco de datos se detiene, lo que puede tener un efecto dominó para la empresa y parar toda una producción.  

Cuando el espacio destinado a este registro está ocupado y cercano a su límite, se envían alarmas a los equipos del banco de datos para informar a los responsables. Así, estos pueden actuar proactivamente con el objetivo de evitar que este evento se produzca. 

Monitoreo de nobreaks 

El monitoreo de nobreaks es fundamental para el cliente, ya que si se produce una falta de energía, los equipos continúan funcionando temporalmente hasta que se pone en funcionamiento el generador. Es importante supervisar las baterías, ya que si no funcionan o no tienen carga, pueden dar la sensación de que todo está bien, pero cuando se produce un corte de luz no hay tiempo hábil para que el generador empiece a funcionar. 

En este sentido, SLAview activa las alarmas para notificar a los equipos responsables los problemas relacionados con el estado de las baterías. 

Monitoreo de sensores 

El monitoreo de sensores se realiza de manera centralizada por dashboards personalizados en los que es posible identificar las temperaturas recolectadas. Se recopilan varias estadísticas de los sensores, entre los más importantes la temperatura y la humedad.  

Sensores de temperatura: se utilizan para identificar la temperatura en el data center y es fundamental en los casos en los que hay un fallo en el sistema de refrigeración.   

Sensores de humedad: se utilizan para identificar la concentración de humedad en el data center, ya que si hay una concentración mayor de la aceptable, el vapor de líquido puede condensarse y causar daños a los equipos.  

SLAview notifica al equipo de TI y de refrigeración del aumento del nivel que aunque no sea crítico pueda ser preocupante. Esto permite que los equipos se anticipen al problema para actuar de forma proactiva.  

Gestión distribuida de notificación de alarmas 

Las notificaciones de alarmas se destinan a equipos específicos. De esta forma, existe una optimización de quien recibirá las alarmas, o sea, se destinan alertas específicas a los técnicos que saben solucionar el problema. A continuación mostramos algunos ejemplos: 

  •       ¿SLAview detectó la alarma del sensor de temperatura? 

Se notifica al técnico y al equipo de refrigeración, a este último a través de un correo electrónico directo. 

  •       ¿Alarmas de switches? 

Se notifica al técnico local y al equipo de redes de la empresa.   

  •       ¿Alarmas de Banco? 

Se notifica al equipo de DBA. 

Además, el cliente recibe notificaciones de alarmas por Telegram. En realidad, existen grupos diversificados que reciben notificaciones de alarmas específicas, junto con los equipos de Microsoft. Además, se realiza la integración de las notificaciones del SLAview en el sistema interno de tickets que el cliente utiliza diariamente. 

Consideraciones finales 

Por tanto, es innegable que SLAview es un sistema ideal y robusto para el monitoreo efectivo de parques tecnológicos pequeños, medios y grandes. Además de los puntos citados, la solución consigue monitorear diversos aspectos de la red y de la infraestructura de TI en su totalidad. 

Teniendo esto en cuenta, Telcomanager que está desde el 2002 en el mercado, líder de América Latina en el sector de software para la gestión de redes, ofrece soluciones inteligentes con una metodología única e innovadora para el monitoreo de datos, lo que proporciona una visión completa de su infraestructura, permitiendo que su empresa controle los principales aspectos de su red en tiempo real. 

Publicado el 26/08/2022