| Resumo |
A cafeicultura é uma atividade econômica fundamental no interior de Minas Gerais, caracterizada por cultivares distintos, como Catuaí IAC 44, Catucaí 785/15, Catuaí IAC 62, Catucaí 2SL, Arara e Catuaí IAC 144, cada um com características agronômicas específicas. A identificação precisa dessas variedades é crucial para otimizar o manejo, a colheita e a comercialização. Contudo, métodos tradicionais, como visitas de campo e consultas a registros, são custosos e demorados, especialmente em áreas extensas. Este estudo propõe o uso de imagens do satélite Sentinel-2 combinadas com aprendizado de máquina para identificar variedades de café de forma remota. Modelos de Random Forest foram treinados com índices de vegetação extraídos em seis fases do ciclo fenológico do cafeeiro, desde a florada até a maturação dos frutos, períodos em que as diferenças entre cultivares são mais evidentes. Dois modelos foram avaliados: um utilizando a média e outro a mediana dos índices de vegetação (IVs), para investigar se a mediana, menos sensível a valores extremos, melhora a classificação. O treinamento empregou validação cruzada repetida (5 folds, 10 repetições), com 88 amostras e 460 preditores, avaliando acurácia geral e por classe, além da importância das variáveis. O modelo baseado na média alcançou acurácia de 58,89% (Kappa = 0,434), enquanto o modelo baseado na mediana obteve 59,48% (Kappa = 0,441), indicando uma leve melhoria com a mediana, possivelmente devido à maior robustez contra outliers. As acurácias por classe (média/mediana) foram: Catuaí IAC 44 (68,45%/71,23%), Catucaí 785/15 (33,60%/31,34%), Catuaí IAC 62 (28,00%/26,92%), Catucaí 2SL (70,59%/67,44%), Arara (26,58%/28,38%) e Catuaí IAC 144 (79,09%/78,64%). A baixa acurácia para Catuaí IAC 62 e Arara reflete o pequeno tamanho amostral (7 e 9 amostras, respectivamente) e o desbalanceamento de classes. O índice de vegetação mais importante em ambos os modelos foi o Modified Normalized Difference Water Index (MNDWI) na fase R3 tanto para o modelo treinado com as médias quanto com as medias dos IVs. Entre as 100 variáveis mais importantes, a fase R5 foi predominante (36/41 variáveis para média/mediana) destacando a relevância de uma fase final do ciclo. A leve melhoria na acurácia com a mediana sugere que valores extremos nos índices de vegetação têm impacto limitado. O pequeno tamanho amostral e o desbalanceamento de classes limitam o desempenho, especialmente para classes com poucas amostras. Conclui-se que a abordagem utilizada neste trabalho demonstra o potencial de imagens Sentinel-2 e Random Forest para identificar variedades de café, com o MNDWI na fase R3 como principal preditor e a fases R5 como aquela contendo preditores mais informativos. Apesar da acurácia moderada, a metodologia oferece uma solução escalável e eficiente, com aplicações promissoras para a cafeicultura. |