Resumo |
O sucesso da busca Google advém do algoritmo chamado Page Rank, desenvolvido pelos fundadores Larry Page e Sergey Brin, que avalia a importância de cada página na Web. Tal algoritmo é uma aplicação de teoria da álgebra linear, probabilidade e cadeias de Markov que é o objetivo de estudo. Inicialmente, supõe-se que a importância de uma página está diretamente relacionada ao número de acesso através de links de outras páginas. A primeira problemática desta afirmação está relacionada com páginas com mesmo número de acesso: um link para uma página k vindo de uma página importante deve impulsionar sua importância. Outro ponto que deve ser analisado é o número de links de uma página, deve-se amenizar esta problemática dividindo sua importância pelo número de links. Assim, a importância de uma página k pode ser descrita pela soma das importâncias das outras páginas que possuem um link para a página k. A partir disso, pode-se formar uma matriz chamada hyperlink em que cada coluna corresponde às probabilidades de links para outras páginas. O vetor de todas as importâncias “N” será autovetor dessa matriz cujo autovalor é 1. Ainda, temos duas problemáticas: as importâncias não únicas e os nós pendentes, ou seja, a variável aleatória que engloba todas as importâncias das páginas resulta em variáveis estacionárias ou nulas, logo, tem-se vários conjuntos de páginas e, estando em um deles, não pode-se ir para outro. Para essa problemática, deve-se considerar certa aleatoriedade na escolha da próxima página. Dado isso, podemos agora definir a matriz Google como G = a*S+(1-a)*(1/n)*E, em que S é a matriz N com correções de aleatoriedade em uma coluna toda nula e E a matriz cuja as entradas são todas 1. Para a=0, então G = 1/n e, portanto, deve-se considerar que há um link entre quaisquer duas páginas, o que não condiz com a estrutura da Web. E, para a=1, temos G=S, então voltaríamos pra estrutura de hyperlinks. Por simulação, encontrou-se a=0,85. Isso significa que a estrutura original é a que mais influencia no cálculo e, também, com menor influencia, se considera a aleatoriedade da escolha de links. |