29 Ene

Fórmula para calcular el PageRank de una página web

Sergei Brin y Larry Page los creadores del buscador Google describen el PageRank de la siguiente forma: Supongamos que las páginas de T1 a Tn apuntan (es decir, incluyen enlaces hacia) la página A. El parámetro d es un índice de ponderación comprendido entre 0 y 1. Nosotros lo establecemos normalmente en 0,85. C T1 representa el número de enlaces de salida de la página T1. El PageRank de la página A se define como:

PR (A) = (1-d)+d*(PRT1/CT1+ … + PRTn/Ctn)

El PageRank de una página web se calcula como la suma de los ranking de página de todas las páginas que tienen enlaces a ella (enlaces de entrada) dividido por el número de número de enlaces que hay en cada una de esas páginas (enlaces de salida).

El sistema PageRank atribuye automáticamente a cada página web una nota de 0 a 10. El PageRank se aplica a las páginas y no a los websites en su conjunto. Distintas páginas de un mismo website probablemente tengan distinto PagRank.

Puedes consultar el texto original sobre el PageRank en este enlace de la Universidad de Stanford.

PageRank sólo es parte de un algoritmo mayor

El algoritmo del PageRank es simplemente una parte (importante eso si) de todo el algoritmo del ranking de relevancia de Google. Google utiliza el PageRank como uno de los aspectos que tiene en cuenta para determinar -entre millones de resultados- la clasificación de una web particular. El algoritmo del ranking es la forma en la que para una búsqueda concreta Google determina el orden de las entradas en la página de resultados que ofrece (SERP, Search Engine Results Page).

En los meses siguientes los estudiantes trabajaron para mejorar su motor de búsqueda y le cambiaron el nombre por Google, nombre que está inspirado en la expresión matemática Googol, que designa una cifra seguida de 100 ceros.

En 1998 David Filo (uno de los fundadores de Yahoo!) les animó a crear su propia empresa. Brin y Page interrumpieron sus estudios y reunieron 1 millón de dólares entre amigos y conocidos. Uno de ellos Andy Bechtolsheim (uno de los fundadores de Sun Microsystems) les extendió un cheque por cien mil dólares.

Brin y Page se establecieron en un garaje de Menlo Park en California con un tercer empleado. En ese momento Google se utilizaba a diario para 10.000 búsquedas.

En 1999 Google eliminó el apellido beta. El número de búsquedas había llegado a las 500.000 diarias, las máquinas no cabían en el garaje y se trasladaron a una nueva sede que llamaron Googleplex (hace referencia a la novela de Douglas Admas «El Autoestopista galáctico«). En 2004 Googlepelx contaba con más de 1.900 empleados. Ese mismo año salió a bolsa. Su capitalización bursátil alcanzó los 25.000 millones de dólares.

Los resultados de una búsqueda son mostrados en una lista, generalmente de 10 a 25 resultados por página. Los resultados varían cada día, ya que las páginas aparecen y se desvanecen rápidamente en la web. Son como llamaradas.

Google nunca ha proporcionado la fórmula que calcula su PageRank. Los especialistas piensan que es una fórmula que varía continuamente pues hay millones de websites intentando incrementar constantemente el ranking de sus páginas.

29 Ene

El algoritmo de posicionamiento

En el momento en el que el motor de búsqueda almacena la web también determina el ranking o posición que ocupará esa web en una página de resultados para determinada palabra clave (una misma página puede obtener muy distintas posiciones en la página de resultados del buscador en función de la keyword introducida en la caja de búsqueda).

Para determinar ese ranking los motores de búsqueda utilizan algoritmos de posicionamiento. Y es precisamente en los algoritmos de posicionamiento donde se encuentran las mayores diferencias entre los distintos buscadores.

Un algoritmo es una fórmula matemática que resuelve un problema. Aplicado a los buscadores, los algoritmos se utilizan para una vez dado un valor numérico a ciertos factores (como la importancia de una página, las veces que se cita una palabra, dónde está situada esa palabra en el contexto de la página, etc.), hallar un resultado final numérico, que sirva para ordenar la página web. Los algoritmos de posicionamiento son los encargados de clasificar los resultados de las búsquedas en un orden.

Cada buscador tiene su propio algoritmo de ordenación (Google tiene PageRank; Yahoo! utiliza WebRank). Todos los algoritmos son secretos, con tiempo y paciencia, se pueden inducir qué factores intervienen en él y en qué orden de importancia lo hacen, pero jamás se puede llegar a conocer la fórmula. No sólo por el número de variables (más de 500), sino porque el orden y peso de cada una de estas variables se cambia continuamente por el buscador, y es modificado tanto para poder ofrecer un mejor servicio como para evitar las maniobras de ingeniería inversa de los websites que quieren incrementar el ranking de sus páginas.

Los primeros motores (Yahoo!, AltaVista, HotBot, Lycos) organizaban la información contando la cantidad de ocurrencias en una página web de una determinada palabra (el término de búsqueda).

En 1998 los estudiantes de la Universidad de Standford en California (EE.UU.) Sergey Brin y Lawrence Page (Larry) presentaban un artículo titulado «The Anatomy of a Large-Scale Hypertextual Web Search Engine» en el que se definía una nueva forma de indexar páginas web valorando su importancia en función del número de hipervínculos que se dirigían a la misma (la apuntaban) desde otros websites.

Este artículo se basaba en la premisa comúnmente aceptada en el mundo académico de que la importancia de un artículo de investigación puede juzgarse según el número de artículos diferentes que lo citan.

El resultado ha sido una clasificación que desde el primer momento ha demostrado su eficacia para valorar la importancia de una página web. Brin y Page bautizaron a su primer buscador como BackRub para subrayar el hecho de que clasificaba las páginas en función del número de enlaces (backlinks) que apuntan a ellas.