Nova versão do FARO: crie seu próprio plugin e contribua para sua evolução

Hoje vamos apresentar a vocês uma nova versão do FARO, nossa ferramenta de código aberto para detectar informações confidenciais que já falamos neste blog em julho de 2019.

Como mencionamos anteriormente, FARO permite detectar e classificar informações confidenciais de diferentes tipos de documentos, como: texto, arquivos compactados, html, e-mails, etc. Além disso, graças à sua tecnologia OCR, ele também pode detectar informações em imagens ou documentos digitalizados. Tudo isso para contribuir para um maior controle dos dados sigilosos de nossa organização.

Figura 1 – Exemplo visual de entidades detectadas e resultados FARO

Nesta nova versão, adicionamos novas funcionalidades e melhorias , entre as quais queremos destacar o sistema de plugins com suporte multi-idioma. Agora é possível criar plug-ins simples para FARO para detectar novas entidades com informações confidenciais.

“FARO é uma ferramenta aberta à comunidade que convida qualquer pessoa interessada no seu desenvolvimento ou evolução a aceder ao repositório e deixar o seu feedback ou qualquer outra contribuição que possa contribuir para o seu desenvolvimento futuro.”

Multi-language plugin do sistema

Graças à nova arquitetura modular da FARO e seu sistema de plugins, é possível detectar novas informações confidenciais sem um conhecimento profundo do funcionamento interno da ferramenta. Só será necessário focar na definição de padrões para a detecção de informações sensíveis e incorporar configurações para sua validação e contexto.

Dois tipos de padrões foram definidos para cada plugin. O primeiro padrão é utilizado quando a entidade a ser localizada é muito específica e, portanto, podemos detectá-la com uma confiança muito alta, gerando uma baixa taxa de falsos positivos.

"BITCOIN_P2PKH_P2SH_ADDRESS": r"[13][a-km-zA-HJ-NP-Z0-9]{26,33}"

Padrão 1 – Exemplo de padrão de detecção para endereços BTC

O segundo padrão, porém, é mais geral e pode gerar um número maior de falsos positivos. Em cada plugin FARO, você pode adicionar um contexto que aumenta a confiança de que a detecção está correta para evitar esses falsos positivos. Este contexto é baseado em dicionários de palavras que são pesquisadas antes ou depois, das entidades potenciais detectadas, para poder nos ratificar na decisão.

"MOVIL_ESPAÑA": r"[67](\s+|-\.)?([0-9](\s+|-|\.)?){8}"

Padrão 2 – Exemplo de padrão de detecção de número de celular

Além disso, os plugins no FARO permitem adicionar uma validação automática se, por exemplo, existirem os dígitos de controle de uma conta bancária, aumentando assim consideravelmente a certeza de que é a informação que queremos detectar.

Por fim, observe que cada plugin pode ser definido para vários idiomas, personalizando o contexto e o padrão a ser localizado com base no idioma original do documento.

No wiki do projeto você encontrará todas as informações técnicas para a elaboração de plugins. Incentivamos todos a participarem, seja contribuindo com novos plugins para melhorar a ferramenta ou testando o FARO em sua organização e enviando feedback via Github.

O centro de cibersegurança TEGRA faz parte da unidade conjunta de investigação em cibersegurança IRMAS (Sistemas Avançados de Gestão de Direitos de Informação), que é cofinanciada pela União Europeia, no âmbito do Programa Operacional FEDER Galicia 2014-2020, para promover o desenvolvimento tecnológico, inovação pesquisa de qualidade.