Detecção de anomalias e os padrões escondidos nos dados

Detecção de anomalias e os padrões escondidos nos dados

Desde que comecei a estudar e desenvolver técnicas para detecção de anomalias em dados me convenço cada vez mais de que essa tarefa é uma arte. Uma coisa é identificar quais instâncias de um conjunto de dados se encaixam em um determinado padrão anômalo. Outra coisa completamente diferente e mais complexa é identificar quais são esses padrões.

Eu não me refiro as análises estatísticas para identificação de outliers, mas sim aos padrões complexos e nada intuitivos que se escondem nas profundezas dos dados. Deixa eu te contar uma história pra ficar mais claro.

Uma vez eu estava analisando um conjunto de dados da quantidade diária de casos de COVID-19 nas capitais do Brasil. Eu queria testar uma técnica que estava desenvolvendo para identificar anomalias em séries temporais usando grafos. A técnica revelou algumas instâncias anômalas que se encaixam em um padrão claro e indiscutível: alguns dias de alguns estados tinham registro de uma quantidade de casos muito maior do que no dia anterior.

Essas variações eram anômalas e um padrão parecia ter se apresentado. O problema era: existiam diversas outras instâncias naquele conjunto de dados que, estatisticamente, também se encaixavam no mesmo padrão. Seriam elas também anômalas? Por que a estratégia não apontou para todas elas e apenas para algumas?

A resposta para essa pergunta é que o padrão não era tão simples como os resultados preliminares sugeriam. A minha técnica utilizava teoria de processamento de sinais em grafos para considerar as relações existentes entre os nós do grafo na tarefa de identificação de anomalias. Isso significa que ela considerava as distâncias entre os estados para tomar a decisão de classificação. Se a técnica considerava isso, não deveria também o padrão apresentar algum indício de distâncias entre estados?

Vou pular algumas etapas dessa análise e te dar uma informação adicional que vai revelar algumas coisas. A maioria das instâncias que se encaixavam no padrão mas não eram anomalias também se encaixavam em um outro padrão ainda mais peculiar: alguns dias ou semanas antes dela ocorrer, existiu outra instância em algum outro estado próximo que também se encaixou naquele padrão.

O que isso significa? Isso significa que existia um padrão temporal e geográfico: as instâncias não-anomalas daquele padrão eram precedidas por outras instâncias não-anomalas do mesmo padrão em outros estados próximos alguns dias antes.

Isso significava que eu conseguia explicar porque algumas instâncias se encaixavam no padrão anômalo mas não eram apontadas anomalias: elas também se encaixavam em um segundo padrão temporal-geográfico. Mas eu ainda precisava explicar duas coisas: por que esse segundo padrão não era anômalo e como explicar as anomalias?

Para a primeira pergunta, basta lembrar que a técnica considerava as variações na quantidade de casos e a distância entre as cidades. Isso significa que esse padrão temporal-geográfico podia ser utilizado para prever esses aumentos, já que eles eram precedidos por um aumento similar em alguma cidade próxima. Ou seja, eles não eram de fato uma anomalia e sim uma característica dos dados. Lembre-se que estamos falando de quantidade de casos de uma doença pandêmica. Pela natureza do problema, um aumento na quantidade de casos em uma região é espalhado para as regiões próximas dias ou semanas depois. Isso era uma característica dos dados e não uma anomalia.

Para a segunda pergunta um segundo padrão também surgiu: a maioria daquelas anomalias aconteciam na segunda feira. Mas algumas aconteciam em dias da semana. A explicação era: o registro da quantidade de casos realizado por alguns hospitais era falho nos finais de semana. Na segunda feira ou após um feriado e com expediente normalizado, a quantidade acumulada de casos não registradas no fim de semana era registrada. Isso significa que era comum encontrar finais de semana com uma quantidade de casos próximo de zero e uma quantidade alta na segunda feira, já que os casos registrados na segunda eram a soma de sábado, domingo e a própria segunda.

Esse segundo padrão anômalo não acontecia toda segunda e nem em todos os hospitais, era algo que acontecia vez ou outra e sem nada que pudesse prever aquilo. A definição de anomalia. Depois de toda essa jornada, foi possível encaixar as anomalias em um padrão muito específico que distinguia as anomalias das outras instâncias que apresentavam o mesmo comportamento mas não eram anômalas.

Essa história serve para ilustrar como a detecção de anomalias é uma tarefa extremamente sutil e que exige muito cuidado para que conclusões erradas não sejam realizadas. Até a próxima!