14 Jul

1.000 millones de búsquedas diarias en Google

Cada segundo, en el mundo se realizan de forma simultánea 11.600 búsquedas en Google. 694.445 búsquedas cada minuto. 42 millones de búsquedas a la hora. Mas de 1.000 millones de búsquedas a diario. Y un total de 365.000 millones de búsquedas al año.

Para alcanzar este volumen de búsquedas, cada persona en el mundo (6.000 millones de personas) debería hacer 60 preguntas al buscador al año, 5 preguntas cada mes.

Como sólo tiene acceso a internet un tercio de la población mundial (2.000 millones de personas) la cuota de preguntas al buscador debe multiplicarse por tres. Cada persona hace 180 preguntas al año, 15 preguntas al mes. 1 pregunta cada dos días.

Con tanto volumen de búsquedas es lógico suponer que muchas búsquedas sean repetitivas, coincidentes. Que muchas personas estén buscando las mismas cosas en el mismo momento.

Google Zeitgeist muestra el espíritu de nuestros tiempos (en alemán Geist, espíritu y Zeit, tiempo). Y aquí puedes saber qué ha buscado el mundo en 2010

Ya sabes, somos lo que buscamos

05 Feb

El algoritmo PageRank explicado

El sistema PageRank es un conjunto de algoritmos utilizados por el motor de búsqueda Google para determinar de forma numérica la relevancia de las páginas web indexadas. PageRank fue desarrollado en 1998 por los fundadores de Google, Larry Page y Sergey Brin, en la Universidad de Stanford y patentado como marca registrada por Google en 1999.

PageRank se basa en el Science Citation Index (SCI) elaborado por Eugene Garfield para el Instituto para la Información Científica (ISI) en los Estados Unidos durante la década del 50. El índice de citación es un elemento determinante para seleccionar de forma objetiva qué investigadores reciben becas y recursos de investigación. Los investigadores cuyo factor de impacto (número de publicaciones y/o referencias bibliográficas en otros trabajos científicos) es más alto, colaboran en mayor medida con el desarrollo de su área de investigación.

De la misma forma, PageRank confía en la naturaleza democrática de la web utilizando los enlaces como un indicador del valor de una página en concreto. Google interpreta un enlace de una página A a una página B como un voto, para la página B. El PageRank de una página depende del número y PageRank de todas las páginas que la enlazan. Una página que está enlazada por muchas páginas con un PageRank alto vale más y consigue también un PageRank alto puesto que es también considerada una página importante.

El algoritmo inicial se expresaba así (desde entonces ha tenido más de 17 revisiones conocidas):
* PR(A) es el PageRank de la página A.
* d es un factor de amortiguación que tiene un valor entre 0 y 1 (se cree que es de 0,85)
* PR(i) son los valores de PageRank que tienen cada una de las páginas i que enlazan a A.
* C(i) es el número total de enlaces salientes de la página i (sean o no hacia A).

El PageRank de una página es una escala de 0 a 10 que refleja la importancia de la misma en internet. Diez es el máximo valor posible y uno la calificación mínima que recibe un sitio normal. Un sitio con PageRank cero ha sido penalizado o todavía no ha recibido la calificación. El factor de amortiguación en la fórmula consigue que las páginas que no tienen enlaces a ninguna otra página no resulten especialmente beneficiadas. Supone que si un usuario aterriza en una página sin enlaces, navegará a cualquier otra página aleatoriamente, lo que equivale a suponer que una página sin enlaces salientes tiene enlaces a todas las páginas de Internet.

PageRank es el corazón del motor de búsquedas de Google (utilizando las propias palabras de la compañía). Aunque existen varios factores que determinan el posicionamiento de un sitio entre los resultados de Google, PageRank sigue siendo el principal factor y es además un excelente indicador del alcance de un sitio web.

Para conocer el PageRank que tiene determinada página web puedes instalar en tu ordenador la Barra Google o buscar “pagerank” en el buscador de Google donde entre los más de 124 millones de resultados obtendrás páginas que chequearán y te devolverán gráficamente el PageRank de la URL que facilites.

29 Ene

Tipos de buscadores

Un buscador web es un software que busca en una base de datos o repositorio documental, conforme a algunos criterios específicos y permite al usuario encontrar un documento en función de determinada palabra clave o frase. Los buscadores se clasifican en:

Indices. Son los buscadores que mantienen una organización de las páginas incluidas en su base de datos por categorías, es decir, tienen un directorio navegable de temas. Dentro de cada directorio podemos encontrar páginas relacionadas con ese tema. Para mantener esta organización, los buscadores tienen unos administradores humanos que se encargan de visitar las páginas y vigilan que todas se encuentren clasificadas en su lugar correcto

Para que una página quede registrada en un índice debemos mandarles la dirección a los administradores humanos de ese índice, generalmente acompañada de una serie de datos que les ayuden a clasificar la página de una forma correcta, como la descripción, temática, titulo, lenguaje, etc. Además, si queremos que varias páginas de nuestro sitio web estén en el buscador, deberemos registrarlas todas ellas una a una.

Motores de búsqueda. Son buscadores que basan su recolección de páginas en un robot, denominado araña, que recorre constantemente internet en busca de páginas nuevas que va introduciendo en su base de datos automáticamente. Los motores de búsqueda, no tienen por qué tener un índice, aunque cada vez es más habitual que dispongan de uno.

Los motores de búsqueda no necesitan que les facilitemos la dirección de nuestra página para tenerla en su base de datos, puesto que el robot puede haberla encontrado previamente. De todos modos, nosotros podemos mandarles la dirección si no deseamos esperar a que el robot nos encuentre, práctica muy habitual.

Para clasificar una página, los motores de búsqueda son capaces de leer el contenido de ésta y encontrar aquellos datos que permitan su catalogación. Por esto es que cuando registramos una página en un motor de búsqueda generalmente no nos piden información adicional, como ocurría con los índices.

Cuando un robot recorre nuestra página guarda sus datos, y luego se dirige a las distintas páginas que están enlazadas a esta. De este modo, solo hace falta registrar la página inicial de un sitio web, pues el motor de búsqueda se encargará de recorrer todo el sitio de manera automática. Adicionalmente, estos motores o arañas, volverán a recorrer las páginas de su base de datos en busca de cambios que se hayan producido en estas, con objetivo de mantener su información lo más actualizada posible.

Multibuscadores. También son conocidos como metabuscadores en español y metacrawler en inglés. Los multibuscadores no tienen una base de datos propia, lo que hacen es buscar la página en unos cuantos motores de búsqueda e índices y combinar los resultados de la búsqueda en esos buscadores.

29 Ene

Ingeniería inversa

Cada buscador utiliza un algoritmo de indexación diferente que es permanentemente actualizado y mejorado. Estos algoritmos marcan la verdadera diferencia entre buscadores y por tanto son considerados secretos industriales por las empresas que los crean. Los algoritmos son el arma más competitiva que tiene un buscador y por eso mismo apenas hay información al respecto.

Para establecer dentro de unos márgenes de confianza aceptables los procedimientos seguidos por los motores de búsqueda para indexar las páginas que visitan es necesario recurrir a la ingeniería inversa. La ingeniería inversa es la única forma de determinar qué valora cada motor de búsqueda: títulos, número de veces que las palabras clave aparecen en el texto, meta tags, textos alternativos a las imágenes, popularidad de los enlaces, etc.

La ingeniería inversa la realizan expertos a través de ejercicios conocidos como regresiones para una serie concreta de términos de búsqueda. Entre los métodos seguidos por la ingeniería inversa se encuentran;

  • Análisis matemáticos
  • Trabajos estadísticos/ lexométricos  sobre el código de las páginas mejor situadas para determinadas criterios de búsqueda
  • Creación de páginas de prueba o dominios enteros para determinar el comportamiento del motor de búsqueda
  • Creación de robots propios para el análisis de resultados

La ingeniería inversa facilita la información necesaria para optimizar la programación y el diseño de una página de entrada o de un website completo para su indexación en buscadores.

Cuanto más competitivo es internet  más difícil es conseguir una buena posición en áreas en las cuales hay muchos sitios rivalizando por la atención de los usuarios.

(Via Wikipedia) El objetivo de la ingeniería inversa es obtener información técnica a partir de un producto accesible al público, con el fin de determinar de qué está hecho, qué lo hace funcionar y cómo fue fabricado. El resultado de la ingeniería inversa es un mayor entendimiento de su funcionamiento. Los productos más comunes que son sometidos a la ingeniería inversa son los programas de ordenador y los componentes electrónicos.

La ingeniería inversa avanza en sentido opuesto a las tareas habituales de ingeniería, que consisten en utilizar datos técnicos para elaborar un producto determinado. En general si el producto u otro material que fue sometido a la ingeniería inversa fue obtenido en forma apropiada, entonces el proceso es legítimo y legal.

La ingeniería inversa es un método de resolución. Aplicar ingeniería inversa a algo supone profundizar en el estudio de su funcionamiento, hasta el punto de que podemos llegar a entender, modificar, y mejorar dicho modo de funcionamiento.

29 Ene

Funcionamiento de un buscador

¡Quien mejor que Matt Cutts para explicar el funcionamiento de Google!

(Via Mail x Mail) Los buscadores son ahora índices automáticos de páginas web. Su funcionamiento responde en todos los casos al mismo patrón.

1.- Una araña visita la página web
2.- La araña lee el contenido de la página web
3.- La araña lleva toda la información a una central, donde un sistema la procesa y la almacena
4.- El sistema crea un índice con las palabras que se utilizan la web y las ordena por relevancia
5.- El sistema intenta descubrir la importancia y calidad de la página (comprueba el número de enlaces a la web y la importancia y calidad de quien te recomienda)
6.- Cuando alguien realiza una búsqueda, el sistema muestra todas las webs que contienen la palabra o frase buscada. Y muestra los resultados en función de un algoritmo de ordenación que tiene en cuenta la importancia de la página web y la importancia del término buscado, en esa página web.

Las diferencias entre buscadores se encuentran en su lógica y en la calidad de su programación.

29 Ene

4 formas de conseguir que un robot visite una web

Existen 4 formas de conseguir que una araña visite una página web:

  1. Accediendo a cada buscador y dando de alta la página web. Dando de alta la web en directorios como el de Yahoo! o DMOZ
  2. Consiguiendo que otras páginas publiquen enlaces a la página web. Cuando una araña entra en una página web y encuentra allí un enlace a otra página web, también la visita.
  3. Contratando el servicio de indexación de un buscador para que la araña visite la web en menos de 48 horas y realice una indexación completa. Este servicio es de pago lo ofrecen algunos buscadores como Yahoo!.
  4. Publicando un mapa del site y dándolo de alta en Google SiteMaps. Este servicio gratuito de Google permite que en 48 horas tengas indexada completamente toda tu página web.
29 Ene

Fórmula para calcular el PageRank de una página web

Sergei Brin y Larry Page los creadores del buscador Google describen el PageRank de la siguiente forma: Supongamos que las páginas de T1 a Tn apuntan (es decir, incluyen enlaces hacia) la página A. El parámetro d es un índice de ponderación comprendido entre 0 y 1. Nosotros lo establecemos normalmente en 0,85. C T1 representa el número de enlaces de salida de la página T1. El PageRank de la página A se define como:

PR (A) = (1-d)+d*(PRT1/CT1+ … + PRTn/Ctn)

El PageRank de una página web se calcula como la suma de los ranking de página de todas las páginas que tienen enlaces a ella (enlaces de entrada) dividido por el número de número de enlaces que hay en cada una de esas páginas (enlaces de salida).

El sistema PageRank atribuye automáticamente a cada página web una nota de 0 a 10. El PageRank se aplica a las páginas y no a los websites en su conjunto. Distintas páginas de un mismo website probablemente tengan distinto PagRank.

Puedes consultar el texto original sobre el PageRank en este enlace de la Universidad de Stanford.

PageRank sólo es parte de un algoritmo mayor

El algoritmo del PageRank es simplemente una parte (importante eso si) de todo el algoritmo del ranking de relevancia de Google. Google utiliza el PageRank como uno de los aspectos que tiene en cuenta para determinar -entre millones de resultados- la clasificación de una web particular. El algoritmo del ranking es la forma en la que para una búsqueda concreta Google determina el orden de las entradas en la página de resultados que ofrece (SERP, Search Engine Results Page).

En los meses siguientes los estudiantes trabajaron para mejorar su motor de búsqueda y le cambiaron el nombre por Google, nombre que está inspirado en la expresión matemática Googol, que designa una cifra seguida de 100 ceros.

En 1998 David Filo (uno de los fundadores de Yahoo!) les animó a crear su propia empresa. Brin y Page interrumpieron sus estudios y reunieron 1 millón de dólares entre amigos y conocidos. Uno de ellos Andy Bechtolsheim (uno de los fundadores de Sun Microsystems) les extendió un cheque por cien mil dólares.

Brin y Page se establecieron en un garaje de Menlo Park en California con un tercer empleado. En ese momento Google se utilizaba a diario para 10.000 búsquedas.

En 1999 Google eliminó el apellido beta. El número de búsquedas había llegado a las 500.000 diarias, las máquinas no cabían en el garaje y se trasladaron a una nueva sede que llamaron Googleplex (hace referencia a la novela de Douglas Admas «El Autoestopista galáctico«). En 2004 Googlepelx contaba con más de 1.900 empleados. Ese mismo año salió a bolsa. Su capitalización bursátil alcanzó los 25.000 millones de dólares.

Los resultados de una búsqueda son mostrados en una lista, generalmente de 10 a 25 resultados por página. Los resultados varían cada día, ya que las páginas aparecen y se desvanecen rápidamente en la web. Son como llamaradas.

Google nunca ha proporcionado la fórmula que calcula su PageRank. Los especialistas piensan que es una fórmula que varía continuamente pues hay millones de websites intentando incrementar constantemente el ranking de sus páginas.