Resumo |
Os distúrbios da coluna vertebral afetam uma parcela significativa da população, impactando diretamente a qualidade de vida e representando um desafio crescente para a saúde pública. Diante disso, o uso de técnicas de visão computacional surge como uma alternativa promissora para apoiar diagnósticos rápidos e precisos. Contudo, a escassez de bases de dados públicas dificulta o treinamento de modelos robustos de aprendizado profundo, tornando fundamental a adoção de estratégias eficazes de aumento de dados para potencializar o desempenho desses modelos. Neste trabalho, investigamos o impacto de técnicas avançadas de data augmentation, CutMix, CutOut e MixUp, associadas ou não a estratégias tradicionais, na classificação automática de radiografias da coluna em três classes: saudável, escoliose e espondilolistese. Para isso, foi utilizado um dataset público composto por 338 imagens, categorizadas conforme diagnóstico clínico. Foram avaliadas três arquiteturas de deep learning: ResNet-50, Vision Transformer (ViT) e Swin Transformer V2. Os modelos foram ajustados via fine-tuning a partir de modelos pré-treinados e submetidos a experimentos com e sem aplicação das técnicas de aumento de dados. Para assegurar uma avaliação robusta, adotamos validação cruzada com cinco divisões aleatórias estratificadas, calculando a média e o desvio padrão das acurácias obtidas. Os resultados mostram que o ViT, quando combinado com CutMix e aumento de dados padrão, obteve a melhor acurácia média (0.9882), superando trabalhos anteriores na mesma tarefa. O Swin Transformer V2 apresentou desempenho competitivo, porém mais sensível à escolha da técnica de aumento. Já a ResNet-50 alcançou bons resultados com abordagens tradicionais, mas foi menos beneficiada pelas técnicas avançadas. Os resultados reforçam o potencial das arquiteturas modernas, especialmente baseadas em Transformers, aliadas a estratégias apropriadas de data augmentation, para a classificação de imagens médicas em cenários desafiadores, como bases de dados pequenas e desbalanceadas. Como perspectivas futuras, destacamos o uso de técnicas de inteligência artificial explicável, como Grad-CAM, para aumentar a interpretabilidade dos modelos e a aplicação dessas estratégias em outros contextos de diagnóstico assistido por imagem. |