| Resumo |
Os solos são recursos não renováveis essenciais para a provisão de serviços ecossistêmicos, com propriedades como a Capacidade de Troca Catiônica (CTC) desempenhando papel central em processos químicos, físicos e biológicos. Mapas atualizados desses atributos são fundamentais para otimizar o manejo agrícola e a conservação ambiental. No entanto, mapas detalhados ainda são escassos no Brasil. O mapeamento digital de solos (MDS), que integra dados legados, aerogeofísicos e técnicas de aprendizado de máquina, representa uma alternativa promissora. Este estudo investigou o uso de diferentes algoritmos de machine learning (Random Forest, Cubist, MARS, SVM e GBM) aplicados na espacialização de atributos químicos do solo. Para isso foi também utilizados dados ambientais e aerogeofísicos. A área de estudo compreendeu todo o estado de Minas Gerais. Foram utilizadas 667 amostras de solo superficial (0-20 cm), georreferenciadas a partir do Banco de Solos de Minas Gerais. Consideraram-se 119 covariáveis relacionadas aos fatores de formação de solo, com base no modelo SCORPAN, além de dados aerogeofísicos obtidos pelo Serviço Geológico do Brasil (CPRM). A seleção das covariáveis preditoras envolveu eliminação de redundâncias (covariáveis com alta correlação) por aplicação do algoritmo Recursive Feature Elimination (RFE). A modelagem foi conduzida no software R, utilizando os algoritmos Random Forest, Cubist, MARS, SVM Radial e GBM. Os modelos foram submetidos a validação cruzada repetida (80% dos dados para treinamento e 20% para teste) e avaliados por meio das métricas R², erro médio absoluto (MAE), raiz quadrada do erro quadrático médio (RMSE) e coeficiente de concordância de Lin (CCC). Os resultados apresentados referem-se exclusivamente ao algoritmo Random Forest, que demonstrou desempenho consistente na predição da CTC, mesmo utilizando um conjunto de dados legados limitado. A incorporação de covariáveis aerogeofísicas contribuiu significativamente para o aumento da acurácia dos modelos gerados. Os valores de desempenho com base na mediana das 100 repetições do conjunto de teste para a CTC efetiva (ECEC) foram: R² ≈ 0,24, CCC ≈ 0,38, MAE ≈ 1,7 e RMSE ≈ 3,0. Para a CTC total (TCEC), os valores medianos foram: R² ≈ 0,22, CCC ≈ 0,29, MAE ≈ 2,6 e RMSE ≈ 3,5. As covariáveis mais importantes para a predição da CTC efetiva foram, respectivamente, a precipitação do mês mais chuvoso, o material de origem e o tipo de solo. Para a CTC total, destacaram-se a razão tório/potássio, o equivalente de tório e a contagem total. Esses resultados reforçam o potencial da abordagem para aplicações em regiões com alta variabilidade ambiental e baixa densidade amostral. |