29 Ene

Funcionamiento de un buscador

¡Quien mejor que Matt Cutts para explicar el funcionamiento de Google!

(Via Mail x Mail) Los buscadores son ahora índices automáticos de páginas web. Su funcionamiento responde en todos los casos al mismo patrón.

1.- Una araña visita la página web
2.- La araña lee el contenido de la página web
3.- La araña lleva toda la información a una central, donde un sistema la procesa y la almacena
4.- El sistema crea un índice con las palabras que se utilizan la web y las ordena por relevancia
5.- El sistema intenta descubrir la importancia y calidad de la página (comprueba el número de enlaces a la web y la importancia y calidad de quien te recomienda)
6.- Cuando alguien realiza una búsqueda, el sistema muestra todas las webs que contienen la palabra o frase buscada. Y muestra los resultados en función de un algoritmo de ordenación que tiene en cuenta la importancia de la página web y la importancia del término buscado, en esa página web.

Las diferencias entre buscadores se encuentran en su lógica y en la calidad de su programación.

29 Ene

El fichero inverso

La tarea de indizar tiene como resultado la creación de índices cuya finalidad es presentar los conceptos, las relaciones entre conceptos, las referencias u ocurrencias necesarias para describir los documentos y permitir su recuperación.

Un tipo de índice es el índice inverso, llamado también fichero inverso, organiza los términos utilizados para indizar los documentos proporcionando para cada uno de estos términos una lista de los documentos donde aparece. Cada entrada es asociada a un identificador de documento y a un identificador de campos que señala en que lugar del documento aparece el término.

Definición

  1. Un fichero inverso es un tipo de fichero índice que contiene: palabra clave (término que describe el documento), identificador de documento (único para ese documento), identificador de campo (en que campo del documento aparece la palabra clave. Se suele incluir además información del párrafo y frase donde se encuentra el término.
  2. Es un tipo de fichero indexado. Por cada palabra o término que aparece en la colección, un fichero inverso lista cada documento donde aparece. La estructura de acceso a un fichero inverso es normalmente una palabra clave, id-documento, id-campo.
  3. Es un índice que permite al programa recuperar los documentos por su contenido

Funcionamiento

Lo que se hace es indizar, individualmente, cada una de las palabras significativas que se encuentran en un documento, y se crea un fichero nuevo: el fichero inverso, que contiene todas los términos indicando la posición de los mismos. Así el fichero inverso contiene una entrada para cada una de las palabras de la base de datos, y esa entrada incluye en que documento/s se encuentra, y su posición en el mismo indicando: campo, subcampo, párrafo, línea, frase y posición dentro de la frase.

Palabra
Documento
Campo
Línea
Nº palabra
“bibliotecario»
7
5
12
11
“biblioteca»
3
20
2
5
El fichero inverso contiene, ordenadas alfabéticamente todos los términos con significado semántico (es decir que no sean palabras vacías), contenidos en los documentos de una base de datos.

En el momento de realizar una búsqueda el robot no lee todos los documentos sino que sencillamente busca en el fichero inverso cada una de las ocurrencias de los términos buscados: el resultado son los documentos en los que aparece esa palabra. Posteriormente el sistema espera nuevas órdenes del usuario: realizar otra búsqueda, mejorar la búsqueda anterior, ver los documentos que nos ofrece, etc.

Gracias al fichero inverso y a los operadores booleanos u operadores lógicos podemos recuperar la información. La combinación de los términos mediante operadores lógicos crea una ecuación, la cual puede ser transformada por medios informáticos. selecciona y compara, mediante la aplicación de la teoría de conjuntos, los resultados de la consulta al fichero inverso, y selecciona, de acuerdo a los operadores establecidos por el usuario, aquellos que responden a la lógica de la ecuación de búsqueda.

El objetivo del fichero inverso es la recuperación de información.

  • Permite definir campos como indizables o no indizables. Indizable es un campo que permite buscar la información que contiene ese campo o cuyos términos pasan a formar parte de un fichero inverso.
  • Podemos definir campos de contenido obligatorio. Es decir, el campo debe tener obligatoriamente datos para poder guardar el documento.
  • Posibilidad de definir campos con vocabulario controlado. El sistema obliga automáticamente a que en el campo figuren términos de una lista autorizada previamente.
  • Posibilidad de incorporar un tesauro.
  • Posibilidad de hacer búsquedas secuenciales. Realiza la búsqueda en toda la base documento a documento. Es mucho más lenta que la búsqueda indexada.
  • Posibilidad de combinar distintas expresiones y estrategias de búsqueda
29 Ene

Relevancia de una palabra clave

Para determinar la relevancia de determinada keyword, suponemos que Google utiliza un algoritmo que tiene en cuenta los siguientes factores:

Presencia y posición (lugar que ocupa) de la palabra clave en las diferentes partes de una página web y en cada una de las páginas (tiene en cuenta la raíz de las palabra clave, es decir los principales caracteres que constituyen esa palabra). De mayor a menor importancia:

  1. Lugar que ocupa la keyword en el título de la página (<title>)
  2. Posición de la palabra clave en la URL
  3. Presencia en el texto de los enlaces (anchor text)
  4. Keyword destacada en los encabezados (H1, H2, etc…)
  5. Palabra clave destacada con negrita y/o cursiva
  6. Presencia de la keyword en textos alternativos (ALT)
  7. Presencia de la keyword en la meta description

Recuento. ¿Cuántas palabras hay en cada uno de los elementos anteriores? Es decir, en el título, en la URL, en los enlaces. La palabra clave tendrá mayor relevancia cuanto menor sea el recuento de otras palabras.

Número de veces que se repite la palabra clave en relación con el total de páginas indexadas. Es decir, en cuantas páginas de la web aparece esa palabra. Es una fórmula que tienen mucho que ver con la densidad: número de veces/ total de páginas.

29 Ene

Frecuencia, recuento, peso y relevancia

Para mejorar el posicionamiento en buscadores de una página es necesario utilizar un número idóneo de palabras claves. Para determinar con exactitud cual es la medida exacta de estos recursos se han realizado gran cantidad de investigaciones estadísticas / lexométricas que analizan cuatro variables principales:

FRECUENCIA: número de veces que aparece una keyword o concepto clave dentro de un área determinada. Obviamente esta frecuencia dependerá de la programación del robot de búsqueda: si está configurado por ejemplo para detectar mayúsculas y minúsculas, si la búsqueda es sensible a los acentos, si la exploración que se desea realizar es exacta o aproximada, etc.

Scooter, el robot de Altavista es sensible a las diferencias, mientras que a Googlebot le han modificado el algoritmo pues Google sabe mejor que nadie que los usuarios no suelen utilizar acentos, ni otorgan mayor importancia a las mayúsculas.

RECUENTO: los robots de los buscadores cuentan la cantidad total de palabras de un área determinada, exceptuando las etiquetas HTML

PESO: es la relación existente entre la palabra clave y el total de las palabras analizadas en determinado sector de la página, o en la totalidad de la misma. Generalmente el peso en las páginas mejor posicionadas es del 3%. El peso no es una variable independiente, sino que tiene relación directa con el recuento y con la frecuencia.

RELEVANCIA: mide en qué lugar aparece la keyword. Si la primera palabra es la keyword, entonces la relevancia será del 100%, mientras que si aparece última su prominencia será nula.

29 Ene

4 formas de conseguir que un robot visite una web

Existen 4 formas de conseguir que una araña visite una página web:

  1. Accediendo a cada buscador y dando de alta la página web. Dando de alta la web en directorios como el de Yahoo! o DMOZ
  2. Consiguiendo que otras páginas publiquen enlaces a la página web. Cuando una araña entra en una página web y encuentra allí un enlace a otra página web, también la visita.
  3. Contratando el servicio de indexación de un buscador para que la araña visite la web en menos de 48 horas y realice una indexación completa. Este servicio es de pago lo ofrecen algunos buscadores como Yahoo!.
  4. Publicando un mapa del site y dándolo de alta en Google SiteMaps. Este servicio gratuito de Google permite que en 48 horas tengas indexada completamente toda tu página web.
29 Ene

El camino largo y el corto: SEO y PPC

Para cada búsqueda los buscadores ofrecen millones de resultados ordenados por relevancia. Tu negocio es completamente invisible si para una búsqueda concreta no figura entre los 10 primeros resultados, es decir, si no está en la primera página de resultados ofrecida por el buscador. Tu página es una gota diluida en una de millones de resultados. Completamente invisible.

Pero que te encuentren en Internet por tu nombre no es relevante porque es relativamente fácil. Lo verdaderamente relevante es que los usuarios te encuentren cuando buscan por los términos a los que quieres estar vinculado.

Hay dos caminos para conseguirlo uno largo y otro corto.

SEO es el camino largo. El de la optimización del webiste. Son un conjunto de estrategias que proporcionan relevancia natural en los términos de búsqueda deseados.

PPC es el camino corto. Son las estrategias para asociarse a determinados términos de búsqueda.

Ambos caminos pueden recorrerse en paralelo. Donde acaba la optimización (website entero) empieza el posicionamiento (páginas específicas, términos de búsqueda).

El camino más rápido es una autopista de peaje. Consiste en asociar anuncios (por palabras, gráficos o imágenes) a las palabras que utiliza la gente para buscar. Se llama Pay Per Clic (PPC) o Cost Per Clic (CPC). Con este sistema de pago y en tan sólo un par de horas podemos hacer que nuestros anuncios aparezcan asociados a esas búsquedas. El número de veces que la gente haga clic en él para desembocar en nuestra propia página dependerá de la calidad de nuestra anuncio y de la posición que ocupe dentro de la página de resultados. El buscador se aprovecha de la competencia natural entre empresas para subastar al mejor postor las palabras claves que identifican determinada categoría. Pero también este sistema tiene la ventaja de que podemos segmentar por país, localidad, idioma y temática las páginas en las que queremos que aparezcan nuestros anuncios. También nos permite asignar un presupuesto máximo diario para todos los anuncios e incrementar la inversión sólo en aquellos que obtienen un resultado más favorable.

El segundo camino es gratuito, pero también mucho más largo y lleva meses recorrerlo. Consiste en conseguir que nuestra web sea perfectamente indexada por el robot del buscador y que todas las páginas sean identificadas dentro de la categoría en la que queremos estar. Este camino se llama Search Engine Optimization, SEO. Para conseguir este objetivo está básico conocer la lógica con la que operan los programas de software que llamamos robots buscadores. Esta lógica es una fórmula matemática muy compleja que está compuesta a su vez por más de 500 pequeñas fórmulas que tratan de categorizar las webs que visitan. La fórmula se llama algoritmo de indexación y es más secreta que la fórmula de la Coca-Cola pues tiene incluso mucho más valor que la propia Compañía Coca-Cola.

Sólo se pueden inducir determinadas variables de este algoritmo de indexación recurriendo a la ingeniería inversa, que no es otra cosa que un sistema de prueba-error realizado por expertos sobre una misma web para ver el posicionamiento que logra alcanzar para determinado buscador y para determinadas palabras clave.

29 Ene

WebRank, el algoritmo de posicionamiento de Yahoo!

El algoritmo de posicionamiento WebRank, en teoría, funciona de forma similar al algoritmo de posicionamiento de Google PageRank. Sin embargo parece que tiene en cuenta la popularidad del sitio medida en las personas que utilizan la barra Yahoo! para acceder a el (como en el caso de Alexa).

Utilizando la ingeniería inversa se conocen varios criterios que pueden ser positivos para ascender en Yahoo!:

WebRank_1. Es importante darse de alta en directorios como DMOZ y Yahoo.

WebRank_2. Es importante ser consciente que Yahoo no omite terminos en las búsquedas, es decir, Algoritmos de posicionamiento y Algoritmos y posicionamiento daría resultados distintos. En concreto para la primera búsqueda a fecha 10 de abril de 2006 esta página aparece la primera situada y para la segunda la tercera.

WebRank_3. Yahoo da una mayor relevancia a volores on the page que Google.

WebRank_4. Otro elemento a tener en cuenta es el denominado Spam on the page. El hecho de repetir keywords con altas densidades y variando el texto, hace muy posible que aparezcamos en muchas búsquedas relacionadas y variadas con las keywords que tengan una alta densidad.

WebRank_5. Yahoo le da gran importancia al título de la página. La principal diferencia con Google es que no es estricto a la hora de la repetición de keywords en él.

WebRank_6. La densidad de las palabras clave es fundamental para obtener un buen resultado en Yahoo! Se recomienda su uso tanto en el texto, como en el título, etiquetas meta…etc.

WebRank_7. Las palabras clave en la URL tienen un mayor peso, sobre todo cuanto más a la izquierda se encuentren.

WebRank_8. Los cambios y actualizaciones en Yahoo! son más lentos que en Google

29 Ene

PageRank el algoritmo de posicionamiento de Google

PageRank es  el algoritmo de posicionamiento de Google.

Una vez que localiza las páginas pertinentes en su índice hace cálculos basados en el número de links externos, internos, del texto de los enlaces, de la temática de las páginas enlazadas y del peso de las mismas, de las etiquetas meta, de la frecuencia relativa del término en la búsqueda en el texto, así hasta más de 100 variables:

Pagerank_01. Total links entrantes (links desde otros webs) Cuentan todos los enlaces.

Pagerank_02. Links entrantes de webs con PR4 o mayores. Cuanto mayor es el PR de la web que nos enlaza, mejor.

Pagerank_03. Palabra clave en el enlace, más conocido como google bombing, es un factor muy importante.

Pagerank_04. Número de enlaces externos de las páginas que nos apuntan. Cuantos menos tenga mejor, da más peso al link que nos enlaza.

Pagerank_05. Posición del link en la página que nos enlaza. Cuanto más arriba en el código HTML mejor.

Pagerank_06. Densidad de palabras clave en la página que nos enlaza. Si coinciden con las nuestras, cuanto mejor posicionada está aquella, mejor para nosotros.

Pagerank_07. Título en HTML de la página que nos apunta. Si coincide con el nuestro, cuanto mejor posicionada está aquella, mejor para nosotros.

Pagerank_08. Link de sitio de «experto» (webs con listas de recursos de una misma temática). Estos enlaces son muy importantes, vienen de fuentes reputadas sobre la misma temática de nuestras palabras claves.

Pagerank_09. Temática de la página que nos enlaza. Mejor si es de la misma temática que la nuestra, aunque si hay un alto número de enlaces, no importa (google bombing)

Pagerank_10. Estar incluido en una categoría de DMOZ. Cuanto más relacionada la categoría con nuestras palabras clave, mejor

29 Ene

Fórmula para calcular el PageRank de una página web

Sergei Brin y Larry Page los creadores del buscador Google describen el PageRank de la siguiente forma: Supongamos que las páginas de T1 a Tn apuntan (es decir, incluyen enlaces hacia) la página A. El parámetro d es un índice de ponderación comprendido entre 0 y 1. Nosotros lo establecemos normalmente en 0,85. C T1 representa el número de enlaces de salida de la página T1. El PageRank de la página A se define como:

PR (A) = (1-d)+d*(PRT1/CT1+ … + PRTn/Ctn)

El PageRank de una página web se calcula como la suma de los ranking de página de todas las páginas que tienen enlaces a ella (enlaces de entrada) dividido por el número de número de enlaces que hay en cada una de esas páginas (enlaces de salida).

El sistema PageRank atribuye automáticamente a cada página web una nota de 0 a 10. El PageRank se aplica a las páginas y no a los websites en su conjunto. Distintas páginas de un mismo website probablemente tengan distinto PagRank.

Puedes consultar el texto original sobre el PageRank en este enlace de la Universidad de Stanford.

PageRank sólo es parte de un algoritmo mayor

El algoritmo del PageRank es simplemente una parte (importante eso si) de todo el algoritmo del ranking de relevancia de Google. Google utiliza el PageRank como uno de los aspectos que tiene en cuenta para determinar -entre millones de resultados- la clasificación de una web particular. El algoritmo del ranking es la forma en la que para una búsqueda concreta Google determina el orden de las entradas en la página de resultados que ofrece (SERP, Search Engine Results Page).

En los meses siguientes los estudiantes trabajaron para mejorar su motor de búsqueda y le cambiaron el nombre por Google, nombre que está inspirado en la expresión matemática Googol, que designa una cifra seguida de 100 ceros.

En 1998 David Filo (uno de los fundadores de Yahoo!) les animó a crear su propia empresa. Brin y Page interrumpieron sus estudios y reunieron 1 millón de dólares entre amigos y conocidos. Uno de ellos Andy Bechtolsheim (uno de los fundadores de Sun Microsystems) les extendió un cheque por cien mil dólares.

Brin y Page se establecieron en un garaje de Menlo Park en California con un tercer empleado. En ese momento Google se utilizaba a diario para 10.000 búsquedas.

En 1999 Google eliminó el apellido beta. El número de búsquedas había llegado a las 500.000 diarias, las máquinas no cabían en el garaje y se trasladaron a una nueva sede que llamaron Googleplex (hace referencia a la novela de Douglas Admas «El Autoestopista galáctico«). En 2004 Googlepelx contaba con más de 1.900 empleados. Ese mismo año salió a bolsa. Su capitalización bursátil alcanzó los 25.000 millones de dólares.

Los resultados de una búsqueda son mostrados en una lista, generalmente de 10 a 25 resultados por página. Los resultados varían cada día, ya que las páginas aparecen y se desvanecen rápidamente en la web. Son como llamaradas.

Google nunca ha proporcionado la fórmula que calcula su PageRank. Los especialistas piensan que es una fórmula que varía continuamente pues hay millones de websites intentando incrementar constantemente el ranking de sus páginas.