Universidade e negócios: o talento está lá fora (III)

Área de Inovação e Laboratório ElevenPaths    6 agosto, 2020
Universidade e negócios: o talento está lá fora (III)

Nossa supervisão de estudantes em diferentes áreas da segurança cibernética continua valendo a pena. Os esforços de pesquisa, desenvolvimento e inovação realizados em conjunto com os alunos sempre produzem resultados melhores que o esperado, uma vez que benefícios mútuos surgem de cada colaboração.

Por um lado, o aluno aprende com a experiência do tutor, orientando seu trabalho para uma realidade de mercado que de outra forma seria impossível para ele; Por outro lado, o tutor envolvido no andamento do projeto aproveita o apoio do aluno para melhorar suas habilidades, motivando a requalificação e aprimoramento exigidos por um projeto acadêmico, como um Projeto de Graduação Final ou Mestrado.

Projetos selecionados

Desta vez, trazemos dois projetos correspondentes à III edição do UCAM Master em Cybersecurity, em colaboração com a Telefónica. Esses são dois projetos muito diferentes que demonstram a grande variedade de disciplinas que coexistem em segurança cibernética.

A primeira é uma proposta para um espaço educacional chamado Ciberaprende , que surgiu como um TFM e se tornou uma plataforma totalmente educacional para treinamento gratuito em habilidades digitais totalmente operacionais, realizado por Javier García Cambronel . O segundo é um software de detecção e classificação de conteúdo privado fabricado por Santiago Vallés . Eles mesmos descrevem seus respectivos projetos.

Cyberlearning

Ciberaprende nasceu como um projeto projetado para durar ao longo do tempo. É um espaço virtual cujo conteúdo é fornecido aos usuários para que eles possam entrar livremente e gratuitamente. Ciberaprende nasceu com a idéia de criar oportunidades para uma vida melhor através da educação em habilidades digitais. Este espaço é composto de duas partes distintas.

Ciberaprende

O primeiro deles consistiu na criação de uma plataforma de aprendizado gratuito baseada no Moodle, com um site feito no WordPress como capa. Nesta parte, foram realizadas a instalação, configuração e segurança do servidor em que a plataforma e a web estão hospedadas. Por outro lado, isso foi feito para a web e a própria plataforma, concentrando-se amplamente e adicionando outros tópicos como design, posicionamento, desempenho, acessibilidade …

A segunda parte deste projeto trata do conteúdo. O curso realizado é «Computer Security: Malware «, com duração de 50 horas e baixa dificuldade. Os objetivos do curso são:

  • Identifique e analise os riscos de segurança da informação existentes
  • Conheça os principais tipos de programas maliciosos ( malware )
  • Conheça a ameaça representada pelo malware em todas as suas variantes
  • Descubra as consequências de uma infecção
  • Conhecer e aprender a usar os métodos de proteção que temos à nossa disposição para nos defender

Dentro do curso, encontraremos uma grande quantidade de conteúdo, estruturado em 5 módulos:

  • Módulo 1: introdução à segurança em sistemas de informação
  • Módulo 2: introdução ao software prejudicial ( malware )
  • Módulo 3: malware , uma ameaça real e atual
  • Módulo 4: estratégias de segurança contra ameaças
  • Módulo 5: ferramentas de segurança

E dentro do conteúdo, encontramos:

  • Mais de 80 páginas de teoria
  • Mais de 25 pílulas de aprendizagem
  • Mais de 100 perguntas.
  • Mais de 10 atividades interativas
  • Mais de 5 estudos de caso
  • 1 Pesquisa de satisfação
  • 1 Certificado emitido no final do curso
Ciberaprende

Ciberaprende é um projeto que colocou muito esforço e convicção. Durante seu desenvolvimento, muitos recursos foram adquiridos e lições aprendidas que não apenas assimilaram conhecimentos adicionais sobre segurança cibernética, mas também uma maneira melhor de disseminá-los e transmiti-los.

Por exemplo, a segurança de um servidor Linux com diferentes tipos de ferramentas, um site WordPress e uma plataforma baseada no Moodle, entre os mais técnicos. Tudo isso, além do desafio de criar um curso interativo com uma carga teórica realmente interessante e com diferentes tipos de atividades e vídeos que motivam o aluno durante sua realização.

Ciberaprende tornou-se uma plataforma funcional cujo futuro visa melhorar a cada passo, crescendo como uma plataforma. Adicionando novo conteúdo e abordando outras competências digitais, novos tipos de atividades e jogos de vários tipos serão introduzidos para adquirir novas habilidades através da gamificação.  Além disso, é possível introduzir conteúdo multimídia gerado especificamente para os cursos e o assunto de cada um.

Software de detecção e classificação de conteúdo privado

As empresas possuem, gerenciam e oferecem vários serviços que processam suas próprias informações, em muitos casos de forma automatizada. Em outras ocasiões, essa transferência de documentação é feita manualmente, na forma de remessas, recepções e consultas de diversos conteúdos.

Freqüentemente, as informações acabam em um portal da web, em um repositório público ou em qualquer outro lugar usado para publicar conteúdo. Portanto, é possível realizar um rastreamento no referido site público, como o Scrapy, para baixar todos os documentos públicos.

Mas como sabemos se estão vazando informações confidenciais ou confidenciais da empresa ou do funcionário? Existe uma única ferramenta para resolver esse problema? O que podemos fazer é usar o software livre para tentar resolver esse problema. Faremos isso usando duas tecnologias:

  • Expressões regulares
  • Machine Learning
Diagrama de processo interno do sistema

Diagrama de processo interno do sistema

A idéia abordada neste projeto se concentra na geração de um indicador que chamaremos de «Risco de arquivo», uma pontuação que representa a quantidade de informações privadas que estão sendo filtradas no documento. Vamos colocar alguns exemplos:

  • Baixar um arquivo contendo um único endereço de email não é o mesmo que encontrar uma lista de 200 endereços de email da empresa. Portanto, vemos que temos um fator que afeta o risco e, nesse caso, é o número de ocorrências de um tipo de dados pessoais.
  • Agora, suponha que procuremos um número que possa corresponder a um cartão de crédito como o tipo de dados. Com uma única descoberta, podemos considerar que esse risco é alto; portanto, o que propomos é que o usuário possa atribuir um valor numérico a cada tipo de dados. Vamos chamar esse fator de «Impacto» e é configurável pelo usuário. 

Tomamos como exemplo um relatório médico em formato PDF e o carregamos no sistema. Após a análise, obtemos a seguinte tabela de resultados:

TIPOIMPACTOOcorrênciasRISCO
PESSOA3vinte60
URL1doisdois
O EMAILdois0 00 0
IP50 00 0
DNIcinquenta0 00 0
COMPARTILHAR PASTA100 00 0
TELEFONE100 00 0
CUIL90 00 0
CARTÃO DE CRÉDITOcinquenta0 00 0
DINHEIRO30 00 0
Tabela de riscos que mostra o cálculo de cada tipo de dados

Pode-se observar que o sistema encontrou várias ocorrências do tipo de dados PERSON, que se refere ao nome das pessoas. Além disso, teremos um gráfico de barras para visualizar cada um dos riscos por tipo de dados mais rapidamente:

Visualizando descobertas por tipo

Em seguida, nosso sistema ficará encarregado de gerar uma contagem simples, onde o risco do arquivo é o cálculo da soma de todas as ocorrências encontradas multiplicadas pelo impacto individual de cada uma.

𝑎𝑟𝑐ℎ𝑖𝑣𝑜 𝑑𝑒 𝑎𝑟𝑐ℎ𝑖𝑣𝑜 = ∑ 𝐼𝑚𝑝𝑎𝑐𝑡𝑜 𝑛  𝑐𝑎𝑛𝑡ℎ𝑎𝑙𝑙𝑎𝑧𝑔𝑜𝑠 𝑛

O sistema nos mostrará o resultado final como «Risco total de arquivo» com um valor numérico que corresponde à soma anterior. Esse valor pode ser usado para filtrar e solicitar centenas ou milhares de arquivos em um site, a fim de focar naqueles que têm maior possibilidade de conter dados particulares.

Portanto, o que este sistema permite é combinar o uso de expressões regulares como uma abordagem estática, cobrindo os tipos mais comuns de dados (DNI, número do cartão de crédito, etc.), juntamente com o processamento em linguagem natural, para detectar todos aqueles Classes de palavras quando comparadas a um modelo de aprendizado de máquina treinado (usando Spacy e Scikit-Learn ).

Além disso, oferece a possibilidade de determinar se esse conjunto de palavras compõe um documento que pode ser categorizado dentro de uma determinada classificação. Após analisar o documento, o sistema irá gerar uma saída do tipo:

https://empresas.blogthinkbig.com/wp-content/uploads/2020/07/image-23.png?w=640

Neste exemplo, se adicionarmos os nomes próprios que nosso sistema encontrou na análise de palavras à categoria prevista pelo modelo (medicamento), não temos dúvidas de que seria um candidato para revisar. Sabemos que os modelos de aprendizado de máquina podem ser aprimorados, mas, neste caso, podemos verificar se, se tomarmos a previsão com uma porcentagem maior, o sistema atinge o modelo, indicando que é um arquivo com conteúdo médico.

Através deste trabalho, os benefícios gerados pelos métodos de classificação de texto usando processamento de linguagem natural e modelos treinados de aprendizado de máquina puderam ser verificados. No entanto, para um tipo de sistema de pontuação numérica como o implementado aqui, deve-se levar em consideração os falsos positivos que podem aumentar o valor do risco do arquivo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *