Resumo |
Nos últimos anos, as IAs generativas têm dominado as discussões tanto no meio acadêmico quanto no popular, e seu uso vem crescendo de forma exponencial entre a população mundial. No entanto, esse uso não é controlado: as IAs podem ser usadas para fins inofensivos, mas também em ambientes de trabalho ou estudo, como no desenvolvimento de software, por exemplo. Esse cenário levanta preocupações quanto aos aspectos éticos dos modelos, visto que podem conter viés, discriminação e preconceito, com prejuízos sociais importantes, especialmente, no que diz respeito a grupos minoritários. Dada a relevância desse cenário, torna-se importante investigar a presença de discussões relacionadas a questões éticas ainda no processo de desenvolvimento dessas IAs. Com base nisso, o objetivo deste trabalho é analisar repositórios open source de IAs generativas disponíveis no GitHub, por meio da mineração de dados das issues desses repositórios, buscando entender a presença e a intensidade de discussões relacionadas à ética em tais repositórios. Para alcançar esse objetivo, inicialmente foram selecionados repositórios de IAs generativas com pelo menos 200 issues, resultando em quatro repositórios: Llama, Llama3, GPT-2 e DeepSeek. Em seguida, foi utilizada a biblioteca RIT para a mineração dos dados das issues, que foram separados entre comentários e uma junção de título e descrição, sendo então pré-processados para facilitar a análise. Após a coleta dos dados, foram definidos os termos relacionados à ética a serem buscados nas issues, baseando-se na taxonomia de Hagendorff e em uma versão expandida dela, criada por meio de um thesaurus da wordnet. Os dados pré-processados foram percorridos contando as ocorrências desses termos e coletando as palavras imediatamente anteriores e posteriores a cada um. Por fim, os dados foram ranqueados de acordo com as suas frequências e utilizados para calcular a métrica RBO (Rank-Biased Overlap). Além disso, quatro tabelas foram elaboradas, cada uma contendo os cinco termos mais recorrentes em cada modelo de IA. Como resultado foram obtidas métricas RBO que mostram o efeito positivo da expansão da taxonomia com thesaurus, gerando maior intersecção entre as IAs generativas. Os resultados permitiram identificar, entre os repositórios analisados, que no DeepSeek foram observadas mais discussões relacionadas a questões éticas, enquanto que no GPT-2, as discussões foram menos significativas. Dentre os tópicos mais discutidos, destacam-se viés, segurança e privacidade. Os resultados dessa análise preliminar revelaram estado atual das discussões sobre ética em repositórios open source de IAs generativas, além de apontar os tópicos mais abordados nessas discussões. |