| Resumo |
As técnicas de bioinformática têm desempenhado um papel essencial na descoberta e desenvolvimento de novos fármacos, permitindo a extração de informações relevantes a partir de grandes volumes de dados brutos. Por meio dessas abordagens, é possível simular in silico a interação entre proteínas de interesse terapêutico e extensas bibliotecas de compostos químicos, otimizando o processo de triagem e reduzindo significativamente os custos envolvidos na descoberta de novos medicamentos. Além disso, estratégias como a análise de bibliotecas de compostos com atividade biológica previamente conhecida contra alvos moleculares específicos têm se mostrado promissoras na predição da atividade de novas moléculas. Nesse contexto, o presente trabalho teve como objetivo o desenvolvimento de um Jupyter Notebook com interface clara, interativa e de fácil utilização, voltado à clusterização molecular e à identificação do Máximo Subgrafo Comum (MCS) entre estruturas químicas. A metodologia adotada baseia-se no uso do RDKit, uma biblioteca open source amplamente utilizada em aplicações de quimioinformática e bioinformática, desenvolvida para Python/C++. Para a etapa de clusterização, foi empregado o algoritmo de Butina, utilizando como métrica a matriz de similaridade de Tanimoto, a partir de fingerprints moleculares. A identificação do MCS foi modelada como um problema de isomorfismo de grafos, permitindo a extração de padrões estruturais recorrentes entre as moléculas agrupadas. O projeto foi desenvolvido integralmente em Python, utilizando a plataforma Google Colab, um ambiente de computação em nuvem compatível com diversas linguagens, como Python, Julia e R. O notebook desenvolvido recebe como entrada um conjunto de moléculas no formato .sdf, realiza o agrupamento com base em um limiar de similaridade ajustável pelo usuário (threshold) e permite a visualização do MCS de cada cluster gerado. Essa ferramenta possibilita a identificação de estruturas químicas comuns em bancos de dados de compostos, facilitando a seleção de moléculas promissoras para testes biológicos contra alvos específicos. Além disso, representa um recurso valioso para o desenho racional de fármacos, oferecendo suporte à tomada de decisão em etapas iniciais do desenvolvimento farmacêutico. |