Resumo |
O Machine Learning (ML) é uma área da Inteligência Artificial (AI) cujos algoritmos são ajustados para fazer predições após a detecção de padrões nos dados de entrada. Historicamente os modelos de ML foram tratados como “caixas pretas” e por isso um novo paradigma da AI é o de criar modelos de ML cujas relações entre preditores e variável de interesse sejam explicáveis e que tenham a mesma acurácia de modelos robustos e menos transparentes. Para isso, existem métodos que visam reduzir a quantidade de variáveis preditoras. Dentre as diversas ferramentas existentes para a predição de atributos do solo, incluindo o carbono orgânico no solo (SOC), os algoritmos de ML associados ao uso de sensores proximais hiperespectrais se mostram altamente vantajosos. Com essa finalidade o algoritmo mais empregado é o PLS (Partial Least Squares), um método de regressão que combina preditores em componentes, reduzindo a quantidade de preditores mas não a quantidade de variáveis de entrada. No entanto, métodos de seleção e regressão por penalização, como o LASSO (Least Absolute Shrinkage and Selection Operator), podem ser aplicados para diminuir o número de preditores, buscando manter o modelo o mais simples possível, mas não tão simples a ponto de perder a sua acurácia. Assim, o objetivo deste trabalho foi testar modelos de predição de SOC usando LASSO e PLS, comparando sua acurácia e transparência. Para isso foi empregada uma base de dados previamente levantada através de coletas em 127 perfis de sete diferentes classes de solo no Estado de Pernambuco, em diferentes classes de uso e cobertura do solo. Um total de 701 amostras foram encaminhadas para análises físico-químicas, sendo obtidos, entre outros, os teores de SOC das amostras. Em seguida, curvas espectrais de reflectância de cada amostra foram determinadas através de medições de espectroscopia nas regiões espectrais do visível, infravermelho próximo e de ondas curtas (VNIR). A metodologia do trabalho consistiu no pré-processamento das curvas espectrais, seguido da modelagem de SOC usando os algoritmos PLS e LASSO e da posterior avaliação estatística desses modelos para obtenção dos valores de correlação r² e das estimativas de erro RMSE e MAE entre os valores reais e estimados, sendo todas essas etapas realizadas através de programação em linguagem R. O valor de r² obtido nos testes foi de 0,713 para o PLS e 0,731 para o LASSO. No teste com o PLS os valores de RMSE e MAE foram 3,335 e 2,516 g/kg, respectivamente. No teste com o LASSO o RMSE foi 3,285 g/kg e o MAE 2,396 g/kg. O modelo LASSO reduziu a dimensão da entrada de 6.451 para 212 variáveis estimadoras. Os resultados de r², RMSE e MAE obtidos foram considerados satisfatórios de acordo com a literatura. A comparação dos modelos indica o potencial do método LASSO para superar o problema de enclausuramento dos modelos de machine learning, ao aumentar a transparência da ferramenta sem comprometer a acurácia das estimativas. |