Web Analytics
Conecta con nosotros

Noticias

¿Quieres descargar una copia de Internet?

Publicado el

650_1000_data-center-google

Internet Archive es una organización sin ánimo de lucro destinada a la conservación de la Web y recursos multimedia que lleva funcionando desde 1996. Acaban de anunciar que han realizado una copia de 80 terabytes de contenido web y la ofrecerá de forma gratuita a personas e instituciones que quieran usarla con fines relacionados con la investigación.

En los 80 terabytes encontraremos la información de 2,7 millones de direcciones web, con texto, imágenes, flash, vídeo y todo lo que su robot ha sido capaz de indexar. Es obvio que no es toda la web (ya en 2008 Google tenía indexadas un trillón de páginas web), pero si una buena porción de los contenidos que hay en Internet.

copia de internet

Se han extraído datos del primer millón de webs indexadas por Alexa (se puede descargar la lista de sitios desde aquí), clasificadas de mayor a menor relevancia. En este enlace podéis encontrar muchos detalles técnicos de cómo se realizó el proceso y podéis poneros en contacto con Internet Archive para solicitar nuestra copia. Una última advertencia dedicada a nuestros amigos hoygans: no, no cabe en un disquete ;D .

Me encargo de traer innovación y nuevo negocio al grupo TPNET. Además colaboro en varios de nuestros sitios como MC y MCPRO.

Lo más leído