9 de abril de 2009

¿Un googol? ¿Qué castañas es eso de un googol?

Hace unos años (sobre el 2002) se me acercó mi jefe y me dijo: "¿has probado el buscador ese nuevo que ha aparecido en Internet? Se llama Google." Primera noticia. Yo usaba habitualmente unos cuantos buscadores(Altavista, Lycos, Excite, OLE, OZU), pero el palabro ese de Google no lo había oido en la vida. Nos conectamos a http://www.google.com/, buscamos y... ¡fue mágico!. En menos de 1 segundo resultados por un tubo. Hasta ese momentos 10-15 segundos, eran buenos tiempos de respuesta. Me llamó mucho la atención el nombre. Una cosa tan buena, ¿cómo narices tenía un nombre tan raro?

El origen del nombre Google

Haciendo un poquito de historia, resulta que el famoso buscador Google no se llamaba así al principio. Hasta 1997, su nombre fue "BackRub" (tampoco es que fuese una maravilla de nombre, ¿verdad?). La razón era que su motor de búsqueda se basaba en analizar los 'back links' (enlaces que apuntan a una determinada página).

En 1997 sus fundadores (Larry Page y Sergey Brin, estudiantes de la universidad de Stanford) decidieron cambiarle el nombre. La información en Internet crecía y crecía... y se dieron cuenta que si querían triunfar, había que hacer algo que fuera capaz de gestionar una cantidad bestial de datos. Tenían que clasificar (indexar en términos informáticos) todo lo que fuera apareciendo en Internet para poder servirlo nada más se solicitara en una búsqueda.

¿Y por qué le pusieron ese nombre?. Pues porque un "googol" es un término matemático que significa un "1" seguido de cien ceros. El término sirvió de inspiración para el nombre del buscador, haciendo referencia al gran tamaño del índice que pensaban usar.

(y aquí se acaba el comentario, pero si alguien quiere saber más, puede seguir leyendo)

Para curiosos: cómo busca Google

El 1 de abril de 2002, Google informaba sobre "Google's patented PigeonRank™" (http://www.google.com/technology/pigeonrank.html), su tecnología de clasificación de páginas Web. La explicación fue espectacular (traducción cortesía de http://www.emezeta.com/articulos/google-pigeonrank):

El éxito de PigeonRank se debe al buen entrenamiento de las palomas domésticas y su excelente capacidad para reconocer objetos sin importar la orientación en el espacio. La paloma gris común puede distinguir fácilmente entre artículos con diferencias muy pequeñas, una capacidad que les permite seleccionar sitios relevantes de internet entre millones de páginas similares.

Cuando una paloma del grupo ve un resultado relevante, picotea una barra de acero, con su pico revestido de caucho, asignando un valor de PigeonRank a la página. Para cada picotazo a continuación, el PigeonRank irá aumentando.

Mientras que algunos sitios web sin escrúpulos han intentado ganar posiciones en nuestro buscador incluyendo imágenes de miguitas de pan, de semillas y alpiste o los loros en posiciones sexys, la tecnología de PigeonRank de Google no puede ser engañada por estas técnicas.
¿De dónde consigue Google sus palomas? ¿Algún laboratorio de crianza especial?
Google utiliza solamente material de bajo coste, palomas de la calle para sus grupos. Se recolectan palomas en parques y plazas de la ciudad, distribuidas en paquetes de más de 50 PPU (Palomas-Por-Unidad)


Google utiliza solamente material de bajo coste, palomas de la calle para sus grupos. Se recolectan palomas en parques y plazas de la ciudad, distribuidas en paquetes de más de 50 PPU (Palomas-Por-Unidad)

...

Para el que no lo sepa, el 1 de abril es el día de los inocentes de los ingleses. O sea, que no nos cuentan su secreto.

Un poco más en serio. Cómo funciona.

Pues mirad, un buen buscador tiene 2 características: una buena tecnología de búsqueda y fuerza bruta (es decir miles y miles y miles de ordenadores ejecutando la buena tecnología de búsqueda)

Cuando se ponen las palabras en un buscador y se pulsa "Buscar", suceden 3 cosas:

  • Se analizan las palabras y se obtienen las páginas que coinciden con ellas
  • Se hace un ranking de importancia de las páginas que se han encontrado, ordenándolas de acuerdo a las páginas que mejor coinciden con la búsqueda solicitada.
  • Se presentan los resultados
Describo un poco los 2 primeros que son los más relevantes para saber por qué va tan rápido. El tercer aspecto tiene que ver más con cuestiones publicitarias. (en la explicación no entro en resultados de pago. Cuando uno paga porque su página aparezca en una búsqueda, el tema funciona de otra forma)

El análisis y la obtención de páginas

El secreto está sencillamente en que ya tienen todos los posibles resultados a la búsqueda precocinados antes de que se los pidan. Las páginas están listas para servir nada más alguien llegue solicitándolas. Todas las páginas de las que tienen conocimiento están totalmente clasificaditas por todas y cada una de las palabras que aparecen en ellas (por lo único que no clasifican es por lo que llaman "palabras vacias": artículos, preposiciones, conjunciones y similares).

Para dejarlo claro: tienen una lista bestial (muy, pero que muy, bestial) que etiqueta todas las páginas por todas las palabras que hay en ellas. Para ello usan unos programas (los llaman arañas) que rastrean constantemente Internet (por mi blog pasan casi todos los meses) y van informando de todo lo que encuentran a otros programas que van clasificando (indexando).

El ranking. La madre del cordero.

Para hacer el ranking tienen en cuenta varias cosas. Las principales son las siguientes:
  • Importancia de la palabra buscada en la página que se ha obtenido como resultado. Las palabras pesan más o menos según donde estén. De mejor a peor posición: título, cabeceras y texto enfatizado (negrita, colores, itálica, subrayado, ...), cuerpo de la página y descripción de la página.
  • Cuántas veces está la palabra en la página encontrada (es el llamado factor de densidad). Mide cuántos de los términos de la búsqueda están presentes en la página que se ha encontrado y cuántas veces. Actualmente, el mejor dato para tener una buena posición en el ranking es que estén un 7%. Más se considera poco lógico y se valora como un truco del que hizo la página para que ésta aparezca bien valorada, por lo que se penaliza.
  • Popularidad de la página encontrada. Mide cuantas páginas llaman a una página determinada. Este factor está ganando mucho peso. Se controla también la importancia de la página llamante ("authority"), que es el número de páginas que la tienen enlazada. También controlan la importancia del enlace ("anchor text"): pesan más links cuya descripción es similar a la consulta del internauta que otras que tal vez no tengan nada que ver.
Y la fuerza bruta

La tecnología de Google (el algoritmo PageRank™, que es el que no cuentan) es capaz de realizar una valoración objetiva de la importancia de las páginas web (análisis y ranking) resolviendo una ecuación de más de 500 millones de variables y 2.000 millones de términos en un tiempo habitualmente inferior a 1 segundo.

Ya en 2007, usaba para ello 1 millón de servidores repartidos por todo el mundo que trataban 20 Petabytes de datos al día (1 Petabyte es 1 millón de Gigabytes), teniendo indexadas más de 4 billones (américanos ) de páginas.

Ya acabo

Espero que el comentario haya resultado de interés para el que haya invertido su tiempo en la lectura. Ya sé que me ha salido larguito, pero no he consguido resumir más. Mis disculpas.

Como cuestión final sólo una reflexión. Google lo fundan estudiantes de la Universidad de Standford (en Palo Alto, California). En la misma Universidad se han creado las empresas Hewlett-Packard, Yahoo!, Cisco Systems (número uno en comunicaciones), Sun (padres del Java y relevante fabricante de ordenadores, aunque ahora esté en horas bajas. "Sun" originariamente era una abreviatura de "Stanford University Network"), VMware (número uno en virtualización de ordenadores), .... no les paran de salir empresa líderes que impactan en la forma con la que luego los demás vemos el mundo.

No puedo menos que sentir sana envidia. ¿Por qué no enviamos allí a unos cuantos de nuestros más relevantes estudiantes para que aprendan cómo lo consiguen y trasladar así a la Universidad española esa capacidad de creación?

Sé que no es tan fácil, Stanford, además de poner todos los medios a su alcance, esta inmersa en una sociedad con una cultura empresarial de inversión muy diferente a la española y que es capaz de absorber sus propuestas, pero es una pena tener tanto talento en nuestra la Universidad (me consta) y con tan poco transvase a la empresa española (también me consta).

1 comentario:

Anónimo dijo...

Sumamente interesante. Lo comparto con mis colegas. Saludos. Ariel.