Resumo |
O uso da inteligência artificial na análise de imagens médicas tem impulsionado avanços no diagnóstico precoce de doenças como o câncer. Cânceres como o de ovário, de difícil detecção em estágios iniciais, e o de cólon, com alta variabilidade histológica, possuem elevadas taxas de mortalidade quando diagnosticados tardiamente. Para lidar com a descentralização dos dados e as restrições impostas por legislações, o Aprendizado Federado (AF) surge como alternativa viável, permitindo colaboração entre instituições sem a necessidade de compartilhamento direto de dados sensíveis. No entanto, esses cenários são marcados pela distribuição Não-Identicamente e Independentemente Distribuída (Não-IID) dos dados, onde cada instituição contribui com conjuntos distintos em características, classes e volume. Este trabalho tem como objetivo avaliar o desempenho do AF na classificação de imagens médicas voltadas à identificação de câncer em ambientes Não-IID. Para isso, compararam-se diferentes arquiteturas de redes neurais profundas com hiperparâmetros otimizados por meio do algoritmo bayesiano Tree-structured Parzen Estimator (TPE), visando maximizar a performance de cada modelo. A metodologia foi estruturada em duas fases. Na primeira, conduziu-se a otimização de hiperparâmetros de forma centralizada para dois datasets: Ovarian Cancer & Subtypes Dataset Histopathology e um subconjunto do LC25000 (câncer de cólon), ambos configurados para classificação binária (“câncer” vs. “não câncer”). O segundo conjunto foi subamostrado para simular um cenário Não-IID, espelhando o desbalanceamento e o volume do primeiro. Ao todo, 996 imagens foram utilizadas (80% treino, 20% teste), com parte do treino reservada para validação da otimização de hiperparâmetros. Na segunda fase, os modelos foram treinados em um ambiente federado Não-IID com três configurações: (i) hiperparâmetros ótimos do conjunto de cólon; (ii) do conjunto de ovário; e (iii) média aritmética da taxa de aprendizado combinada aos valores modais de otimizador e batch size. Todos os modelos utilizaram pesos pré-treinados da ImageNet, agregação Federated Averaging (FedAvg), técnicas de aumento de dados e amostragem ponderada para lidar com o desbalanceamento. Os resultados demonstram que a ResNet-50 com hiperparâmetros otimizados para o conjunto de ovário apresentou o melhor desempenho (95,50% de acurácia e 95,27% de F1-Score). Além disso, a estratégia de combinação de hiperparâmetros demonstrou-se eficaz, superando, em 50% dos casos, as configurações otimizadas individualmente para os datasets de cólon e ovário, o que indica maior capacidade de generalização. A abordagem proposta evidencia o potencial do AF para viabilizar diagnósticos precisos em cenários clínicos descentralizados. Trata-se do primeiro estudo, até onde se tem conhecimento, a aplicar essa abordagem em imagens de câncer de ovário, sendo uma contribuição inédita para o uso do AF em contextos sensíveis e regulados. |