05 Feb

La transmisión de PageRank

El PageRank 4 de la web Instituto Biomar

Valor de PageRank de la web Instituto Biomar

Google facilita directamente a través de la Barra Google el valor PageRank que asigna a determinada página. El PageRank se puede conocer también a través de sites especializados que consultan por programación el PageRank de Google. El valor del PageRank (PR) que vemos es un número entero comprendido entre 0 y 10. Este número es en realidad un valor logarítmico cuya base es desconocida.

Por ejemplo, para una base 7, tendríamos los siguientes valores:
PR Barra     PR Real
0     0 – 3
1     3 – 19
2     19 – 130
3     130 – 907
4     907 – 6.351
5     6.351 – 44.458
6     44.458 – 311.209
7     311.209 – 2.178.466
8     2.178.466 – 15.249.262
9     15.249.262 – 106.765.607
10     > 106.765.607

Si una página tiene un PageRank real de por ejemplo 50.0000, ¿qué valor trasmitirá a otra página a la que enlaza?. Aplicando la fórmula matemática del PageRank publicada en 1998  PR(A) = (1-d) + d * [ PR(T1)/C(T1) + … + PR(Tn)/C(Tn) ] podremos inferir que transmitirá un valor de 0,85*50.0000 = 425.000; este valor final hay que dividirlo entre el número de enlaces salientes.

El valor del PageRank de cada página no es constante en el tiempo, ya que depende de los enlaces que reciba la página y, a su vez, del PageRank de las páginas que nos enlazan. Aproximadamente una vez al mes Google recalcula el valor de este PageRank en lo que llama ‘Google Dance’.

05 Feb

El algoritmo PageRank explicado

El sistema PageRank es un conjunto de algoritmos utilizados por el motor de búsqueda Google para determinar de forma numérica la relevancia de las páginas web indexadas. PageRank fue desarrollado en 1998 por los fundadores de Google, Larry Page y Sergey Brin, en la Universidad de Stanford y patentado como marca registrada por Google en 1999.

PageRank se basa en el Science Citation Index (SCI) elaborado por Eugene Garfield para el Instituto para la Información Científica (ISI) en los Estados Unidos durante la década del 50. El índice de citación es un elemento determinante para seleccionar de forma objetiva qué investigadores reciben becas y recursos de investigación. Los investigadores cuyo factor de impacto (número de publicaciones y/o referencias bibliográficas en otros trabajos científicos) es más alto, colaboran en mayor medida con el desarrollo de su área de investigación.

De la misma forma, PageRank confía en la naturaleza democrática de la web utilizando los enlaces como un indicador del valor de una página en concreto. Google interpreta un enlace de una página A a una página B como un voto, para la página B. El PageRank de una página depende del número y PageRank de todas las páginas que la enlazan. Una página que está enlazada por muchas páginas con un PageRank alto vale más y consigue también un PageRank alto puesto que es también considerada una página importante.

El algoritmo inicial se expresaba así (desde entonces ha tenido más de 17 revisiones conocidas):
* PR(A) es el PageRank de la página A.
* d es un factor de amortiguación que tiene un valor entre 0 y 1 (se cree que es de 0,85)
* PR(i) son los valores de PageRank que tienen cada una de las páginas i que enlazan a A.
* C(i) es el número total de enlaces salientes de la página i (sean o no hacia A).

El PageRank de una página es una escala de 0 a 10 que refleja la importancia de la misma en internet. Diez es el máximo valor posible y uno la calificación mínima que recibe un sitio normal. Un sitio con PageRank cero ha sido penalizado o todavía no ha recibido la calificación. El factor de amortiguación en la fórmula consigue que las páginas que no tienen enlaces a ninguna otra página no resulten especialmente beneficiadas. Supone que si un usuario aterriza en una página sin enlaces, navegará a cualquier otra página aleatoriamente, lo que equivale a suponer que una página sin enlaces salientes tiene enlaces a todas las páginas de Internet.

PageRank es el corazón del motor de búsquedas de Google (utilizando las propias palabras de la compañía). Aunque existen varios factores que determinan el posicionamiento de un sitio entre los resultados de Google, PageRank sigue siendo el principal factor y es además un excelente indicador del alcance de un sitio web.

Para conocer el PageRank que tiene determinada página web puedes instalar en tu ordenador la Barra Google o buscar “pagerank” en el buscador de Google donde entre los más de 124 millones de resultados obtendrás páginas que chequearán y te devolverán gráficamente el PageRank de la URL que facilites.

29 Ene

WebRank, el algoritmo de posicionamiento de Yahoo!

El algoritmo de posicionamiento WebRank, en teoría, funciona de forma similar al algoritmo de posicionamiento de Google PageRank. Sin embargo parece que tiene en cuenta la popularidad del sitio medida en las personas que utilizan la barra Yahoo! para acceder a el (como en el caso de Alexa).

Utilizando la ingeniería inversa se conocen varios criterios que pueden ser positivos para ascender en Yahoo!:

WebRank_1. Es importante darse de alta en directorios como DMOZ y Yahoo.

WebRank_2. Es importante ser consciente que Yahoo no omite terminos en las búsquedas, es decir, Algoritmos de posicionamiento y Algoritmos y posicionamiento daría resultados distintos. En concreto para la primera búsqueda a fecha 10 de abril de 2006 esta página aparece la primera situada y para la segunda la tercera.

WebRank_3. Yahoo da una mayor relevancia a volores on the page que Google.

WebRank_4. Otro elemento a tener en cuenta es el denominado Spam on the page. El hecho de repetir keywords con altas densidades y variando el texto, hace muy posible que aparezcamos en muchas búsquedas relacionadas y variadas con las keywords que tengan una alta densidad.

WebRank_5. Yahoo le da gran importancia al título de la página. La principal diferencia con Google es que no es estricto a la hora de la repetición de keywords en él.

WebRank_6. La densidad de las palabras clave es fundamental para obtener un buen resultado en Yahoo! Se recomienda su uso tanto en el texto, como en el título, etiquetas meta…etc.

WebRank_7. Las palabras clave en la URL tienen un mayor peso, sobre todo cuanto más a la izquierda se encuentren.

WebRank_8. Los cambios y actualizaciones en Yahoo! son más lentos que en Google

29 Ene

PageRank el algoritmo de posicionamiento de Google

PageRank es  el algoritmo de posicionamiento de Google.

Una vez que localiza las páginas pertinentes en su índice hace cálculos basados en el número de links externos, internos, del texto de los enlaces, de la temática de las páginas enlazadas y del peso de las mismas, de las etiquetas meta, de la frecuencia relativa del término en la búsqueda en el texto, así hasta más de 100 variables:

Pagerank_01. Total links entrantes (links desde otros webs) Cuentan todos los enlaces.

Pagerank_02. Links entrantes de webs con PR4 o mayores. Cuanto mayor es el PR de la web que nos enlaza, mejor.

Pagerank_03. Palabra clave en el enlace, más conocido como google bombing, es un factor muy importante.

Pagerank_04. Número de enlaces externos de las páginas que nos apuntan. Cuantos menos tenga mejor, da más peso al link que nos enlaza.

Pagerank_05. Posición del link en la página que nos enlaza. Cuanto más arriba en el código HTML mejor.

Pagerank_06. Densidad de palabras clave en la página que nos enlaza. Si coinciden con las nuestras, cuanto mejor posicionada está aquella, mejor para nosotros.

Pagerank_07. Título en HTML de la página que nos apunta. Si coincide con el nuestro, cuanto mejor posicionada está aquella, mejor para nosotros.

Pagerank_08. Link de sitio de «experto» (webs con listas de recursos de una misma temática). Estos enlaces son muy importantes, vienen de fuentes reputadas sobre la misma temática de nuestras palabras claves.

Pagerank_09. Temática de la página que nos enlaza. Mejor si es de la misma temática que la nuestra, aunque si hay un alto número de enlaces, no importa (google bombing)

Pagerank_10. Estar incluido en una categoría de DMOZ. Cuanto más relacionada la categoría con nuestras palabras clave, mejor

29 Ene

Fórmula para calcular el PageRank de una página web

Sergei Brin y Larry Page los creadores del buscador Google describen el PageRank de la siguiente forma: Supongamos que las páginas de T1 a Tn apuntan (es decir, incluyen enlaces hacia) la página A. El parámetro d es un índice de ponderación comprendido entre 0 y 1. Nosotros lo establecemos normalmente en 0,85. C T1 representa el número de enlaces de salida de la página T1. El PageRank de la página A se define como:

PR (A) = (1-d)+d*(PRT1/CT1+ … + PRTn/Ctn)

El PageRank de una página web se calcula como la suma de los ranking de página de todas las páginas que tienen enlaces a ella (enlaces de entrada) dividido por el número de número de enlaces que hay en cada una de esas páginas (enlaces de salida).

El sistema PageRank atribuye automáticamente a cada página web una nota de 0 a 10. El PageRank se aplica a las páginas y no a los websites en su conjunto. Distintas páginas de un mismo website probablemente tengan distinto PagRank.

Puedes consultar el texto original sobre el PageRank en este enlace de la Universidad de Stanford.

PageRank sólo es parte de un algoritmo mayor

El algoritmo del PageRank es simplemente una parte (importante eso si) de todo el algoritmo del ranking de relevancia de Google. Google utiliza el PageRank como uno de los aspectos que tiene en cuenta para determinar -entre millones de resultados- la clasificación de una web particular. El algoritmo del ranking es la forma en la que para una búsqueda concreta Google determina el orden de las entradas en la página de resultados que ofrece (SERP, Search Engine Results Page).

En los meses siguientes los estudiantes trabajaron para mejorar su motor de búsqueda y le cambiaron el nombre por Google, nombre que está inspirado en la expresión matemática Googol, que designa una cifra seguida de 100 ceros.

En 1998 David Filo (uno de los fundadores de Yahoo!) les animó a crear su propia empresa. Brin y Page interrumpieron sus estudios y reunieron 1 millón de dólares entre amigos y conocidos. Uno de ellos Andy Bechtolsheim (uno de los fundadores de Sun Microsystems) les extendió un cheque por cien mil dólares.

Brin y Page se establecieron en un garaje de Menlo Park en California con un tercer empleado. En ese momento Google se utilizaba a diario para 10.000 búsquedas.

En 1999 Google eliminó el apellido beta. El número de búsquedas había llegado a las 500.000 diarias, las máquinas no cabían en el garaje y se trasladaron a una nueva sede que llamaron Googleplex (hace referencia a la novela de Douglas Admas «El Autoestopista galáctico«). En 2004 Googlepelx contaba con más de 1.900 empleados. Ese mismo año salió a bolsa. Su capitalización bursátil alcanzó los 25.000 millones de dólares.

Los resultados de una búsqueda son mostrados en una lista, generalmente de 10 a 25 resultados por página. Los resultados varían cada día, ya que las páginas aparecen y se desvanecen rápidamente en la web. Son como llamaradas.

Google nunca ha proporcionado la fórmula que calcula su PageRank. Los especialistas piensan que es una fórmula que varía continuamente pues hay millones de websites intentando incrementar constantemente el ranking de sus páginas.