Atualmente é inegável a importância de se monitorar todo ambiente de TI das empresas, ainda mais em ambientes complexos com diversas tecnologias diferentes de rede, com variados equipamentos e sistemas diversificados. Uma falha pode ser catastrófica para a produção de todo o negócio e pode gerar prejuízos materiais, imateriais e financeiros graves para o empreendimento. 

A ausência de um backup de banco de dados não notificado, de um storage próximo da sua capacidade máxima, de uma indisponibilidade de um serviço do servidor, dentre outros exemplos, podem ser críticos, pois, hoje em dia sabemos que toda infraestrutura de redes e de TI é um ativo essencial para maioria das empresas do mundo. A essência de um ambiente de monitoramento se reflete no fato de que muitas falhas, como as citadas, poderiam ser evitadas ou se elas invariavelmente acontecerem, ter praticidade e assertividade na sua respectiva solução. 

O objetivo deste artigo é trazer um estudo de caso, visando mostrar como as soluções Telcomanager, especificamente o SLAview, auxiliam em diversos problemas de um cliente que possui um parque tecnológico robusto e complexo. 

Monitoramento diversificado e completo 

O cliente em questão possui um ambiente de TI com diversos equipamentos de fabricantes diferentes, como servidores, bancos de dados, storages, sensores, nobreks, impressoras, roteadores, links WAN de tecnologias diferentes, swtiches, máquinas AWS, dentre outros. Todos esses são monitorados atualmente pelo SLAview. 

O SLAview é um sistema robusto da Telcomanager que vem embarcado em um appliance de fabricação própria e dimensionado de acordo com qualquer demanda, este realiza o monitoramento de performance e falhas de todo ambiente de TI do cliente em questão. A seguir, vamos destacar alguns monitoramentos cruciais para o cliente e como o SLAview é importante em diversos aspectos relacionados ao parque tecnológico do mesmo. 

Monitoramento de servidores 

Em servidores, são monitorados consumo de CPU, memória, interfaces, processos, serviços, armazenamento, dentre outros indicadores. Vamos especificar o monitoramento de serviços, para o cliente é fundamental o monitoramento da disponibilidade de serviços, como Apache, por exemplo. Uma queda em um serviço pode afetar uma área de produção. 

Por esses motivos, alarmes de recuperação automática foram configurados no SLAview para que quando um serviço ficar down, a própria solução da Telcomanager reinicia o serviço e geralmente isso já resolve o problema do cliente. 

Monitoramento de Bancos de dados 

Em bancos de dados, várias métricas (KPIs) são monitoradas como, situação de backup, instâncias, table space, status do database, transaction log, dentre outros. Vamos aprofundar o monitoramento do Transaction Log, este é um log que registra os dados de transações no banco que em um problema, permite retroceder. Esse log tem espaço limitado, se este espaço encher, o banco de dados para e isso pode causar um efeito em cascata para o negócio do cliente e pode parar toda uma produção.  

Quando o espaço destinado a esse log está sendo ocupado de maneira próxima ao seu limite, alarmes são destinados às equipes de banco de dados para informar às equipes responsáveis, para que as mesmas possam agir proativamente a fim de evitar que esse evento aconteça. 

Gráfico do SLAview - Ocupação do trasaction log
Gráfico do SLAview – Ocupação do trasaction log

Monitoramento de Nobreaks 

O monitoramento de nobreks é fundamental para o cliente, pois em falta de energia, eles mantém os equipamentos ligados temporariamente ou até o gerador assumir. É importante acompanhar as baterias, pois, baterias ruins e sem carga, dão a sensação que está tudo bem, mas quando existe queda de energia, não há tempo hábil do gerador começar a funcionar. 

Nesse sentido, alarmes são disparados pelo SLAview para notificar as equipes responsáveis sobre problemas relacionados aos estados das baterias. 

Monitoramento de sensores 

O monitoramento de sensores é feito de maneira centralizada por dashboards personalizados onde é possível identificar as temperaturas coletadas. Várias estatísticas são coletadas dos sensores, dentre as mais importantes, temperatura e umidade:

Sensores de temperatura: utilizados para identificar a temperatura nodo data center e é extremamente importante nos casos onde haja falha no sistema de refrigeração do local.   

Sensores de umidade: utilizados para identificar a concentração de umidade no data center, caso haja uma concentração maior do que o aceitável, o vapor de líquido pode condensar e causar danos aos equipamentos do local.

A equipe de TI local e refrigeração são notificados pelo SLAview a partir de um aumento que não é crítico, mas que pode ser preocupante. Isso permite que as equipes se antecipem ao problema, agindo de forma proativa.  

Gestão distribuída de notificações de alarmes 

As notificações de alarmes específicos são destinadas a equipes específicas. Desta forma, existe uma otimização de quem receberá os alertas, ou seja, alertas específicos são destinados a técnicos que saberão tratar o problema, abaixo, demonstramos alguns exemplos de situações: 

  • Alarme de sensor de temperatura é detectado pelo SLAview?   

O técnico e a equipe de refrigeração são notificados, nesse último, a notificação vai direto para o e-mail da equipe. 

  • Alarmes de switches?   

Técnico local e equipe de redes da empresa são notificados;   

  • Alarmes de Banco?   

Time de DBA é notificado. 

Além disso, o cliente recebe notificações de alarmes pelo Telegram, na verdade, existem grupos diversificados que recebem notificações específicas de alarmes específicos, assim como também no teams da Microsoft e, além disso tudo, foi feita a integração das notificações do SLAview para o sistema interno de tickets que o cliente usa diariamente. 

Considerações finais 

Portanto, é inegável o fato de o SLAview ser o sistema ideal e robusto para monitoramento de grandes, médios e pequenos parques tecnológicos com muita efetividade. Além dos pontos citados, a solução consegue monitorar diversos outros aspectos da rede e da infraestrutura de TI na totalidade. 

Pensando nisso, a Telcomanager, líder da América Latina no setor de software para gerência de redes, desde 2002 no mercado com uma metodologia única e inovadora, disponibiliza soluções inteligentes para o monitoramento de dados de modo a prover visibilidade completa à infraestrutura do cliente, permitindo que sua empresa acompanhe os principais aspectos de sua rede.

Publicado em 19/08/2022