Resumo |
O crescimento exponencial da coleta de dados em dispositivos isolados, como smartphones, dispositivos IoT e outras plataformas, em conjunto com o acelerado desenvolvimento de técnicas avançadas de aprendizado de máquina e de Redes Neurais têm apresentado, como um desafio, a tarefa de reunir dados em um único local centralizado, a fim de treinar tais modelos. Além das dificuldades técnicas, a privacidade dos usuários também se torna uma preocupação crucial. Os dados pessoais sensíveis armazenados nesses dispositivos precisam ser protegidos e não podem ser compartilhados indiscriminadamente. A privacidade e a segurança dos dados são aspectos fundamentais para a adoção de qualquer abordagem de aprendizado de máquina em um contexto onde os dados estão armazenados de forma distribuída. Nesse cenário, o Federated Learning (FL) tem surgido como uma solução promissora, este paradigma de aprendizado aborda o desafio de treinar modelos de aprendizado de máquina em dispositivos distribuídos sem a necessidade de transferir os dados brutos para um servidor centralizado. Em vez disso, apenas os parâmetros atualizados do modelo são compartilhados, preservando a privacidade dos usuários. Diante do exposto e do papel de destaque que o FL possui nesse contexto, é essencial aprofundar nosso entendimento sobre como as redes neurais treinadas utilizando essa abordagem se comportam. Com esse intuito, propomos investigar e analisar diferentes arquiteturas de comunicação e estratégias de agregação de parâmetros no contexto do FL. Foram utilizados diferentes conjuntos de dados no estudo. O primeiro, pequeno e bem comportado, foi processado para simular dados descentralizados, de forma realista, para servir como referência para o estudo. Em uma etapa posterior, outras bases de dados, maiores e desbalanceadas, são utilizadas para treinar modelos federados, buscando observar e comparar as técnicas desenvolvidas e analisadas para a base de referência se comportam em problemas de maiores níveis de complexidade e/ou mais restritivos. Nos estudos feitos até o presente momento, foi possível observar os impactos que características dos dados, como o desbalanceamento entre as classes nos conjuntos de dados distribuídos, exercem na variabilidade do desempenho em problemas de classificação. Também foi possível perceber que a quantidade e intervalo temporal das comunicações feitas entre dispositivos, características que variam de acordo com a arquitetura definida, podem melhorar o desempenho do modelo, afetando aspectos como o tempo de convergência do treinamento e o tempo e até mesmo a acurácia dos resultados. O estudo, portanto, contempla um levantamento de características que devem ser consideradas ao se pensar na modelagem de um problema de FL que, em um próximo trabalho, servirá como um referência e ponto de partida para a proposta de uma nova abordagem, que visa reunir os pontos fortes observados nas arquiteturas de comunicação e métodos de agregação analisados. |