| Resumo |
As linguagens humanas têm estruturas complexas em muitos níveis sistêmicos, compreendendo desde as interações das palavras em frases à evolução diacrônica e diatópica (temporal e espacial) de uma determinada língua. O presente trabalho busca investigar algumas dessas propriedades complexas e emergentes das Linguagens Naturais, aplicando métodos dos Sistemas Complexos e da Linguística Quantitativa. Para fazer a análise rigorosa, foi desenvolvida uma biblioteca para estudo de distribuições de cauda pesada, que aplica o estimador de máxima verossimilhança para ajustar dados empíricos e medir os parâmetros de plausibilidade (goodness-of-fit) para verificar a validade dos ajustes. Com auxílio da biblioteca, foram analisadas a Lei de Zipf e a distribuição de graus em redes de adjacência de palavras em obras literárias clássicas, bem como em dados reais de redes sociais visando à futura caracterização de redes de interação entre pessoas. Os principais resultados invalidam a lei de Zipf clássica para distribuição de ranques de palavras, mas validam o espectro léxico (distribuição de frequências de palavras), identificando o expoente dessa lei para caracterização de textos, conforme a bibliografia recente da área. Ainda, encontrou-se forte evidência de que as redes de adjacências de palavras são livres de escala; isto é, seguem uma distribuição de graus em lei de potência. Estes achados reforçam a caracterização das linguagens como sistemas complexos e abrem caminho para futuras análises de redes de interação social. Em suma, o trabalho demonstra como a aplicação de um rigor estatístico, análogo ao das ciências físicas, pode revelar e quantificar padrões estruturais da linguagem, fornecendo uma base empírica robusta para a teoria linguística. A biblioteca produzida, que integra o alto desempenho do Fortran a uma interface em Python, demonstrou ter desempenho melhor que outras opções disponíveis, bem como permite um ajuste fino muito mais rigoroso e preciso, de modo que ela pode ser aplicada para diversas outras medidas; futuramente, ela será publicada futuramente em licença aberta para uso e edição de outros pesquisadores da área. |