Wayback Machine
Wayback Machine (pronunciado [ˈwejbak maˈʃin]) es un servicio y una base de datos que contiene copias de una enorme cantidad de páginas o sitios de Internet. Como consecuencia de este proyecto, también se puede consultar la historia y las modificaciones de las páginas a través del tiempo.
Wayback Machine | ||
---|---|---|
Información general | ||
Dominio |
https://web.archive.org/ https://archive.org/web/ | |
Tipo | Archivo | |
Comercial | No | |
Registro | No | |
Idiomas disponibles |
Inglés Español | |
En español | Sí | |
Estado actual | en línea | |
Gestión | ||
Desarrollador |
Brewster Kahle Bruce Gilliat | |
Propietario | Internet Archive | |
Operador | Internet Archive | |
Lanzamiento | 10 de mayo de 1996 (privado) y 24 de octubre de 2001 (público) | |
Estadísticas | ||
Ranking Alexa | 211 (19 de enero de 2021)[1] | |
Características
editarEl servicio Wayback Machine funciona de una manera simple: basta teclear la dirección (URL) de una página web para ver cuál es la última copia que hay guardada en el archivo.[2] Si queremos ver cómo era hace un tiempo una página en cuestión, entonces Wayback Machine nos pedirá en qué fecha y año queremos visitar la página. Existe un calendario en la parte superior de la pantalla, que permite ver gráficamente las capturas a lo largo del tiempo. La longitud de las barras del gráfico indica en qué meses se hicieron más copias.
Lo que hace este sitio para almacenar todo el contenido de la página web es muy simple pero ingenioso: almacena solo el contenido html del código fuente y no guarda las imágenes sino solo el código; por eso, cuando un servidor de imágenes elimina alguna imagen del sitio web original, esta no es reproducida, sino que se marca como un error 404. En 2012 contenía 10 petabytes de información y crecía en torno a 20 terabytes por mes,[3] en octubre de 2019 su almacenamiento sobrepasó los 20 petabytes.[4] En diciembre de 2020 su almacenamiento superó los 70 petabytes.[5]
Sin embargo Wayback Machine está lejos de ser una copia completa de internet pues varios sitios evitan su indexación y grabación de información, como por ejemplo usando el archivo robots.txt con:
User-agent: ia_archiver Disallow: /
Wayback CDX Server API
editarDesde noviembre de 2015 Wayback Machine cuenta con un servicio de indización de capturas de páginas que permite, rápidamente, conocer el historial de grabado para cada URL tanto en formato propio como en formato JSON.[6] Dicho servicio es un proyecto en fase beta denominado Wayback CDX Server API y cuyo código fuente y manual de uso está alojado en GitHub.[7]
Incidencias
editarA lo largo de su historia la Wayback Machine, ha presentado una serie de incidencias, de las cuales las más importantes han sido las siguientes:
- En enero de 2017 desarrollaron un complemento, tanto para el navegador Chromium como Google Chrome,[8] que permite guardar la página web que se está visualizando, buscar si esa página ha sido guardada anteriormente en la Wayback Machine e incluso permite hacer una búsqueda rápida en Twitter, entre otras funcionalidades. El complemento está debidamente catalogado en la Chrome Web Store.[9]
- En octubre de 2020, el sitio Wayback dejó de funcionar; aunque posteriormente volvió a funcionar tras solucionarse el error un mes más tarde.
Referencias
editar- ↑ «Site Overview». Alexa Internet. Archivado desde el original el 18 de mayo de 2020. Consultado el 19 de enero de 2021.
- ↑ Ibáñez, Álvaro (29 de enero de 2011). «Wayback Machine: la máquina del tiempo de las páginas web se renueva» (html). RTVES. Archivado desde el original el 30 de enero de 2011. Consultado el 8 de junio de 2020.
- ↑ Minard, Jonathan (25 de octubre de 2012). «10,000,000,000,000,000 Bytes Archived» (html). Archive Org (en inglés). Consultado el 14 de febrero de 2018. «Documentation of the unplugged presentation "10 Petabytes Archived!" on October 25, 2012 at the Internet Archive Featuring presentations by Brewster Kahle, Robert Miller, Kristine Hanna, Alexis Rossi, Dave Marvit, and Roger Macdonald, with live music by Jeff Kaplan (guitar), and Don Knuth (organ).»
- ↑ «The Whole Earth Web Archive» [El archivo de la web de la Tierra entera] (html). Internet Archive (en inglés). 30 de octubre de 2019. Consultado el 28 de abril de 2020. «We hope the WEWA project helps provide enhanced access to archived material otherwise hard to find and browse in the massive 20+ petabytes of the Wayback Machine.»
- ↑ https://www.microsiervos.com/archivo/internet/crecimiento-archivo-internet.html
- ↑ Leetaru, Kalev (16 de noviembre de 2015). «How Much Of The Internet Does The Wayback Machine Really Archive?» (html). Forbes (en inglés). Archivado desde el original el 1 de diciembre de 2015. Consultado el 14 de febrero de 2018. «The complete history of all snapshots ever recorded by the Archive for the homepage of each website was requested using the Wayback CDX Server API through November 5, 2015. While this only reflects snapshots of homepages, rather than sites as a whole, it nonetheless captures a key metric of how often the Archive is crawling each site.»
- ↑ Wayback CDX Server API - BETAWayback CDX Server API - BETA en Wayback Machine (archivado el 7 de febrero de 2016).
- ↑ Graham, Mark (13 de enero de 2017). «Wayback Machine Chrome extension now available» [Complemento Wayback Machine ahora disponible para Chrome] (html). Internet Archive (en inglés). Consultado el 8 de junio de 2020. «For example a 2013 Harvard study found that 49% of the URLs referenced in U.S. Supreme Court decisions are now dead. Those decisions affect everyone in the U.S., and the evidence the opinions are based on is disappearing.»
- ↑ Wayback Machine Offered by: Internet Archive (Archive.org)
Enlaces externos
editar- y https://archive.org/web/ Página web oficial (en inglés)