How to use wayback machine
How to use wayback machine
Using The Wayback Machine
This introduction video provides an overview for how to use the Wayback Machine, including information about searching by URL or keyword, understanding provenance, and saving your own pages, along with other features.
Can I link to old pages on the Wayback Machine?
Yes! The Wayback Machine is built so that it can be used and referenced. If you find an archived page that you would like to reference on your Web page or in an article, you can copy the URL. You can even use fuzzy URL matching and date specification… but that’s a bit more advanced.
How can I use the Wayback Machine’s Site Search to find websites?
The Site Search feature of the Wayback Machine is based on an index built by evaluating terms from hundreds of billions of links to the homepages of more than 350 million sites. Search results are ranked by the number of captures in the Wayback and the number of relevant links to the site’s homepage.
Can I search the Archive?
Using the Internet Archive Wayback Machine, it is possible to search for the names of sites contained in the Archive (URLs) and to specify date ranges for your search. We hope to implement a full text search engine at some point in the future.
Why isn’t the site I’m looking for in the archive?
Some sites may not be included because the automated crawlers were unaware of their existence at the time of the crawl. It’s also possible that some sites were not archived because they were password protected, blocked by robots.txt, or otherwise inaccessible to our automated systems. Site owners might have also requested that their sites be excluded from the Wayback Machine.
How can I exclude or remove my site’s pages from the Wayback Machine?
You can send an email request for us to review to info@archive.org with the URL (web address) in the text of your message.
How can I use the Wayback Machine’s Site Search to find websites?
The Site Search feature of the Wayback Machine is based on an index built by evaluating terms from hundreds of billions of links to the homepages of more than 350 million sites. Search results are ranked by the number of captures in the Wayback and the number of relevant links to the site’s homepage.
How can I get a copy of the pages on my Web site? If my site got hacked or damaged, could I get a backup from the Archive?’
Our terms of use do not cover backups for the general public. However, you may use the Internet Archive Wayback Machine to locate and access archived versions of a site to which you own the rights. We can’t guarantee that your site has been or will be archived. We can no longer offer the service to pack up sites that have been lost.
Can I add pages to the Wayback Machine?
On https://archive.org/web you can use the “Save Page Now” feature to save a specific page one time. This does not currently add the URL to any future crawls nor does it save more than that one page. It does not save multiple pages, directories or entire sites.
Where is the rest of the archived site? Why am I getting broken or gray images on a site?
Broken images occur when the images are not available on our servers. Usually this means that we did not archive them.
You can tell if the image or link you are looking for is in the Wayback Machine by entering the image or link’s URL into the Wayback Machine search box. Whatever archives we have are viewable in the Wayback Machine.
The best way to see all the files we have archived of the site is: http://web.archive.org/*/www.yoursite.com/*
There is a 3-10 hour lag time between the time a site is crawled and when it appears in the Wayback Machine.
Why are some sites harder to archive than others?
If you look at our collection of archived sites, you will find some broken pages, missing graphics, and some sites that aren’t archived at all. Some of the things that may cause this are:
Robots.txt — A site’s robots.txt document may have prevented the crawling of a site.
Javascript — Javascript elements are often hard to archive, but especially if they generate links without having the full name in the page. Plus, if javascript needs to contact the originating server in order to work, it will fail when archived.
Server side image maps — Like any functionality on the web, if it needs to contact the originating server in order to work, it will fail when archived.
Orphan pages — If there are no links to your pages, the robot won’t find it (the robots don’t enter queries in search boxes.)
As a general rule of thumb, simple html is the easiest to archive.
Can I find sites by searching for words that are in their pages?
No, at least not yet. Site Search for the Wayback Machine will help you find the homepages of sites, based on words people have used to describe those sites, as opposed to words that appear on pages from sites.
Can I still find sites in the Wayback Machine if I just know the URL?
Yes, just enter a domain or URL the way you have in the past and press the “Browse History” button.
Why are some of the dots on the calendar page different colors?
We color the dots, and links, associated with individual web captures, or multiple web captures, for a given day. Blue means the web server result code the crawler got for the related capture was a 2nn (good); Green means the crawlers got a status code 3nn (redirect); Orange means the crawler got a status code 4nn (client error), and Red means the crawler saw a 5nn (server error). Most of the time you will probably want to select the blue dots or links.
How does the Wayback Machine behave with Javascript turned off?
If you have Javascript turned off, images and links will be from the live web, not from our archive of old Web files.
How did I end up on the live version of a site? or I clicked on X date, but now I am on Y date, how is that possible?
Not every date for every site archived is 100% complete. When you are surfing an incomplete archived site the Wayback Machine will grab the closest available date to the one you are in for the links that are missing. In the event that we do not have the link archived at all, the Wayback Machine will look for the link on the live web and grab it if available. Pay attention to the date code embedded in the archived url. This is the list of numbers in the middle; it translates as yyyymmddhhmmss. For example in this url http://web.archive.org/web/20000229123340/http://www.yahoo.com/ the date the site was crawled was Feb 29, 2000 at 12:33 and 40 seconds.
You can see a listing of the dates of the specific URL by replacing the date code with an asterisk (*), ie: http://web.archive.org/*/www.yoursite.com
How do I cite Wayback Machine urls in MLA format?
This question is a newer one. We asked MLA to help us with how to cite an archived URL in correct format. They did say that there is no established format for resources like the Wayback Machine, but it’s best to err on the side of more information. You should cite the webpage as you would normally, and then give the Wayback Machine information. They provided the following example: McDonald, R. C. “Basic Canary Care.” _Robirda Online_. 12 Sept. 2004. 18 Dec. 2006 [http://www.robirda.com/cancare.html]. _Internet Archive_. [ http://web.archive.org/web/20041009202820/http://www.robirda.com/cancare.html]. They added that if the date that the information was updated is missing, one can use the closest date in the Wayback Machine. Then comes the date when the page is retrieved and the original URL. Neither URL should be underlined in the bibliography itself. Thanks MLA!
How can I get pages authenticated from the Wayback Machine? How can I use the pages in court? While the Wayback Machine tool was not expressly designed with legal use in mind, we receive regular requests for certified records for use in legal proceedings. Our affidavit request procedure can be found here. Please review that information including our standard affidavit and the legal request FAQ section linked there to prior to contacting us.
Some sites are not available because of robots.txt or other exclusions. What does that mean?
Such sites may have been excluded from the Wayback Machine due to a robots.txt file on the site or at a site owner’s direct request.
How can I get my site included in the Wayback Machine?
Much of our archived web data comes from our own crawls or from Alexa Internet’s crawls. Neither organization has a “crawl my site now!” submission process. Internet Archive’s crawls tend to find sites that are well linked from other sites. The best way to ensure that we find your web site is to make sure it is included in online directories and that similar/related sites link to you.
Alexa Internet uses its own methods to discover sites to crawl. It may be helpful to install the free Alexa toolbar and visit the site you want crawled to make sure they know about it.
Regardless of who is crawling the site, you should ensure that your site’s ‘robots.txt’ rules and in-page META robots directives do not tell crawlers to avoid your site.
What is the Archive-It service of the Internet Archive Wayback Machine?
How to Use Wayback Machine to Archive Websites
We take the Internet and its wealth of knowledge for granted. Virtually everything is readily accessible 24 hours a day, 7 days a week at the click of a button. That is — until it’s not. Websites can go belly up without a moment’s notice, their content gone forever.
It is important to archive content that appears on the Internet for various reasons. Saving websites is a way of preserving human culture, much in the same way we protect and curate books or works of art. Curiosity is a big driver — after all, kids today couldn’t imagine an old Geocities web page in their wildest dreams. Aside from general curiosity, saving websites can allow us to refer back to important information.
It is super convenient to reference info found on the Web. But what happens when that link just points to a 404 error message? In 2013 a Harvard study found that 49% of the websites referenced in Supreme Court decisions in the US were now dead ends. How can we prevent vital information like this from disappearing into the virtual ether?
Luckily, the folks at The Internet Archive have developed a tool that can index and archive websites. They call it the Wayback Machine, and it has been archiving websites since 2001. To date, the Wayback Machine has saved over 304 billion web pages.
There are a number of reasons one would want to archive a website. Luckily, The Wayback Machine makes it super easy. Here are the ways in which you can use The Wayback Machine for all your webpage archiving needs.
Which Sites Are Cataloged?
Many popular websites are automatically archived by the Wayback Machine. However, you can use the Wayback Machine to manually archive virtually any page. Websites are often abandoned or changed completely, so the Wayback machine acts as a way to preserve the culture of the Internet by keeping a digital “hard copy” of a website. Be aware that text and images are left intact; however, some outbound links and embedded items (e.g. videos) are not.
It is important to note that The Wayback Machine only scans and archives public sites. This means that password protected sites or ones located on private servers cannot be archived. In addition, if a website prohibits search engines from including it in search results, Wayback Machine will not be able to archive it.
How to Use the Wayback Machine
There are two methods you can use to start archiving websites. Fortunately, both of them are super-easy and don’t require any special know-how. Start by placing your cursor in front of the URL in your browser’s address bar. Type web.archive.org/save/ and hit Enter. A dialog box should appear on your screen informing you that the Wayback Machine is saving the page.
The second way to archive a webpage is to use the Wayback Machine archive website. First, navigate to a webpage you want to save and copy the URL. With that done, head to the Wayback Machine archive website. On the right side of this page you will see a header that reads “Save Page Now.” Paste the URL of the webpage you want to save into the text box and click the “Save Page” button.
Regardless of which method you use, the result is the same. Be aware that saving the page can take a while, so be patient and let it do its thing.
Wayback Machine Browser Extension
The Wayback Machine also has an official browser extension for Google Chrome. Using it to archive web pages is super easy. Simply navigate to a page you want to archive, click on the Wayback Machine icon in your toolbar and click “Save Page Now.”
In addition to making it even easier to save pages, the browser extension has another nifty trick up ts sleeve. Have you ever clicked on a link only to be confronted by a vague 404 error message? Whether it is a valuable source for your research paper or a really good recipe, it can be incredibly frustrating. With the Wayback Machine extension installed, that frustration could turn into a sigh of relief. When your browser runs into a dead end, the extension will search the archive to see if there is a saved copy on the Wayback Machine. If there is, it will ask you if you would like to visit that page.
If you don’t use Chrome, don’t fret. There is a Wayback Machine extension available for Firefox; however, it is still a work in progress. Additionally, there are plans to develop an extension for Safari users as well.
Archive-It
Do you or your organization have a website that needs to be indexed and archived frequently? If so, manually archiving each individual web page using the methods above can be incredibly tedious and costly. Fortunately, the Internet Archive provides a service called Archive-It that can automate the archiving process for you.
This service is not free; however, it can be ideal for those who want to back up their content with a “set it and forget it” mentality. Just stipulate which pages you would like to save and how often. This paid subscription is perfect for those who wish to save their web content on a regular basis.
Do you use the Wayback Machine? If so, do you visit it purely for fun or do you find it a useful tool? Are there other ways to back up content on the Web? Let us know in the comments!
Our latest tutorials delivered straight to your inbox
HackWare.ru
Этичный хакинг и тестирование на проникновение, информационная безопасность
Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты
Что такое Wayback Machine и Архивы Интернета
В этой статье мы рассмотрим Веб Архивы сайтов или Интернет архивы: как искать удалённую с сайтов информацию, как скачать больше несуществующие сайты и другие примеры и случаи использования.
Принцип работы всех Интернет Архивов схожий: кто-то (любой пользователь) указывает страницу для сохранения. Интернет Архив скачивает её, в том числе текст, изображения и стили оформления, а затем сохраняет. По запросу сохранённые страницу могут быть просмотрены из Интернет Архива, при этом не имеет значения, если исходная страница изменилась или сайт в данный момент недоступен или вовсе перестал существовать.
Многие Интернет Архивы хранят несколько версий одной и той же страницы, делая её снимок в разное время. Благодаря этому можно проследить историю изменения сайта или веб-страницы в течение всех лет существования.
В этой статье будет показано, как находить удалённую или изменённую информацию, как использовать Интернет Архивы для восстановления сайтов, отдельных страниц или файлов, а также некоторые другие случае использования.
Wayback Machine — это название одного из популярного веб архива сайтов. Иногда Wayback Machine используется как синоним «Интернет Архив».
Какие существуют веб-архивы Интернета
Я знаю о трёх архивах веб-сайтов (если вы знаете больше, то пишите их в комментариях):
web.archive.org
Этот сервис веб архива ещё известен как Wayback Machine. Имеет разные дополнительные функции, чаще всего используется инструментами по восстановлению сайтов и информации.
Для сохранения страницы в архив перейдите по адресу https://archive.org/web/ введите адрес интересующей вас страницы и нажмите кнопку «SAVE PAGE».
Для просмотра доступных сохранённых версий веб-страницы, перейдите по адресу https://archive.org/web/, введите адрес интересующей вас страницы или домен веб-сайта и нажмите «BROWSE HISTORY»:
В самом верху написано, сколько всего снимком страницы сделано, дата первого и последнего снимка.
Затем идёт шкала времени на которой можно выбрать интересующий год, при выборе года, будет обновляться календарь.
Обратите внимание, что календарь показывает не количество изменений на сайте, а количество раз, когда был сделан архив страницы.
Точки на календаре означают разные события, разные цвета несут разный смысл о веб захвате. Голубой означает, что при архивации страницы от веб-сервера был получен код ответа 2nn (всё хорошо); зелёный означает, что архиватор получил статус 3nn (перенаправление); оранжевый означает, что получен статус 4nn (ошибка на стороне клиента, например, страница не найдена), а красный означает, что при архивации получена ошибка 5nn (проблемы на сервере). Вероятно, чаще всего вас должны интересовать голубые и зелёные точки и ссылки.
При клике на выбранное время, будет открыта ссылка, например, http://web.archive.org/web/20160803222240/https://hackware.ru/ и вам будет показано, как выглядела страница в то время:
Используя эту миниатюру вы сможете переходить к следующему снимку страницы, либо перепрыгнуть к нужной дате:
Лучший способ увидеть все файлы, которые были архивированы для определённого сайта, это открыть ссылку вида http://web.archive.org/*/www.yoursite.com/*, например, http://web.archive.org/*/hackware.ru/
Кроме календаря доступна следующие страницы:
Changes
«Changes» — это инструмент, который вы можете использовать для идентификации и отображения изменений в содержимом заархивированных URL.
Начать вы можете с того, что выберите два различных дня какого-то URL. Для этого кликните на соответствующие точки:
И нажмите кнопку Compare. В результате будут показаны два варианта страницы. Жёлтый цвет показывает удалённый контент, а голубой цвет показывает добавленный контент.
Summary
В этой вкладке статистика о количестве изменений MIME-типов.
Site Map
Как следует из название, здесь показывается диаграмма карты сайта, используя которую вы можете перейти к архиву интересующей вас страницы.
Поиск по Интернет архиву
Если вместо адреса страницы вы введёте что-то другое, то будет выполнен поиск по архивированным сайтам:
Показ страницы на определённую дату
Кроме использования календаря для перехода к нужной дате, вы можете просмотреть страницу на нужную дату используя ссылку следующего вида: http://web.archive.org/web/ГГГГММДДЧЧММСС/АДРЕС_СТРАНИЦЫ/
Обратите внимание, что в строке ГГГГММДДЧЧММСС можно пропустить любое количество конечных цифр.
Если на нужную дату не найдена архивная копия, то будет показана версия на ближайшую имеющуюся дату.
archive.md
Адреса данного Архива Интернета:
На главной странице говорящие за себя поля:
Для поиска по сохранённым страницам можно как указывать конкретный URL, так и домены, например:
Данный сервис сохраняет следующие части страницы:
Не сохраняются следующие части веб-страниц:
Архивируемая страница и все изображения должны быть менее 50 Мегабайт.
Для каждой архивированной страницы создаётся ссылка вида http://archive.is/XXXXX, где XXXXX это уникальный идентификатор страницы. Также к любой сохранённой странице можно получить доступ следующим образом:
Дату можно продолжить далее, указав часы, минуты и секунды:
Для улучшения читаемости, год, месяц, день, часы, минуты и секунды могут быть разделены точками, тире или двоеточиями:
Также возможно обратиться ко всем снимкам указанного URL:
Все сохранённые страницы домена:
Все сохранённые страницы всех субдоменов
Чтобы обратиться к самой последней версии страницы в архиве или к самой старой, поддерживаются адреса вида:
Чтобы обратиться к определённой части длинной страницы имеется две опции:
В доменах поддерживаются национальные символы:
Обратите внимание, что при создании архивной копии страницы архивируемому сайту отправляется IP адрес человека, создающего снимок страницы. Это делается через заголовок X-Forwarded-For для правильного определения вашего региона и показа соответствующего содержимого.
web-arhive.ru
Архив интернет (Web archive) — это бесплатный сервис по поиску архивных копий сайтов. С помощью данного сервиса вы можете проверить внешний вид и содержимое страницы в сети интернет на определённую дату.
На момент написания, этот сервис, вроде бы, нормально не работает («Database Exception (#2002)»). Если у вас есть по нему какие-то новости, то пишите их в комментариях.
Поиск сразу по всем Веб-архивам
Может так случиться, что интересующая страница или файл отсутствует в веб архиве. В этом случае можно попытаться найти интересующую сохранённую страницу в другом Архиве Интернета. Специально для этого я сделал довольно простой сервис, который для введённого адреса даёт ссылки на снимки страницы в рассмотренных трёх архивах.
Что делать, если удалённая страница не сохранена ни в одном из архивов?
Архивы Интернета сохраняют страницы только если какой-то пользователь сделал на это запрос — они не имеют функции обходчиков и ищут новые страницы и ссылки. По этой причине возможно, что интересующая вас страница оказалась удалено до того, как была сохранена в каком-либо веб-архиве.
Тем не менее можно воспользоваться услугами поисковых движков, которые активно ищут новые ссылки и оперативно сохраняют новые страницы. Для показа страницы из кэша Google нужно в поиске Гугла ввести
Если ввести подобный запрос в поиск Google, то сразу будет открыта страница из кэша.
Для просмотра текстовой версии можно использовать ссылку вида:
Для просмотра исходного кода веб страницы из кэша Google используйте ссылку вида:
Например, текстовый вид:
Как полностью скачать сайт из веб-архива
Если вы хотите восстановить удалённый сайт, то вам поможет программа Wayback Machine Downloader.
Программа загрузит последнюю версию каждого файла, присутствующего в Архиве Интернета Wayback Machine, и сохранить его в папку вида ./websites/example.com/. Она также пересоздаст структуру директорий и автоматически создаст страницы index.html чтобы скаченный сайт без каких либо изменений можно было бы поместить на веб-сервер Apache или Nginx.
Об установке программы и дополнительных опциях смотрите на странице https://kali.tools/?p=5211
Пример скачивания полной копии сайта suip.biz из веб-архива:
Структура скаченных файлов:
Локальная копия сайта, обратите внимание на провайдера Интернет услуг:
Как скачать все изменения страницы из веб-архива
Если вас интересует не весь сайт, а определённая страница, но при этом вам нужно проследить все изменения на ней, то в этом случае используйте программу Waybackpack.
К примеру для скачивания всех копий главной страницы сайта suip.biz, начиная с даты (—to-date 2017), эти страницы должны быть помещены в папку (-d /home/mial/test), при этом программа должна следовать HTTP редиректам (—follow-redirects):
Чтобы для указанного сайта (hackware.ru) вывести список всех доступных копий в веб-архиве (—list):
Как узнать все страницы сайта, которые сохранены в веб-архиве
Для получения ссылок, которые хранятся в Архиве Интернета, используйте программу waybackurls.
Эта программа извлекает все URL указанного домена, о которых знает Wayback Machine. Это можно использовать для быстрого составления карты сайта.
Чтобы получить список всех страниц о которых знает Wayback Machine для домена suip.biz:
Заключение
Предыдущие три программы рассмотрены совсем кратко. Дополнительную информацию об их установке и об имеющихся опциях вы сможете найти по ссылкам на карточки этих программ.
Ещё парочка программ, которые работают с архивом интернета:
Как пользоваться сервисом Wayback Machine: 10 советов для интернет-маркетологов
Wayback Machine – это широко известный и полезный сервис, позволяющий увидеть сайты в том виде, в котором они существовали в прошлом, но это не единственная полезная функция Wayback Machine – сервис можно использовать и в интернет-маркетинге.
1. Отслеживание изменений сайта
Это основная функция Wayback Machine. Снимки сайта (snapshots) Wayback Machine можно использовать для сравнения вида сайта в разное время, чтобы посмотреть, что изменилось.
Даже если у Wayback Machine мало снимков сайта (обычно такое случается с не очень популярными сайтами), вы все равно можете определить дату внесения изменений. Это полезно, если вы считаете, что изменения могли быть причиной падения сайта в поисковой выдаче, посмотрите на версию страницы того времени, после которого произошло падение и узнаете, что за негативные изменения ее вызвали. Используйте эти данные, чтобы исправить проблему.
2. Знакомство с сайтом
Когда вы работаете с новым клиентом, важно быть ознакомленным с его сайтом и разбираться в тонкостях его бренда. Wayback Machine вам в этом поможет. Вы можете посмотреть, как сайт менялся с годами и насколько изменилась политика бренда. Согласуйте с клиентом изменения: «Раньше вы утверждали одно, а теперь другое, так ведь?».
3. Поиск прежних редиректов
Один из хороших способов использовать Wayback Machine – поиск URL, на которые через какое-то время повесили редиректы. Такое часто бывает с крупными брендами, сайты которых начинали работу в 90 или начале 2000, а потом были переделаны в соответствии с требованиями поисковых систем. Чтобы найти более ранние версии ссылок и проверить их код состояния, используйте Wayback Machine в паре с Screaming Frog.
4. Поиск старой структуры URL
Иногда структура URL сайтов меняется, а старая теряется. Если вы знаете приблизительную дату изменения структуры ссылки, то можете использовать Wayback Machine, чтобы выяснить, когда именно были внесены изменения и как выглядела прежняя структура. Затем вы можете сравнить более новые версии ссылки с предыдущими. Эта функция полезна, если контент сайта был реорганизован или подразделы были переименованы.
5. Изучение Robots.txt
Wayback Machine индексирует все, что находит на сайте, в том числе и файлы robots.txt. И это здорово: если у вашего сайта есть технические уязвимости, вы сможете узнать, когда именно были внесены изменения в документе robots.txt, приведшие к этим уязвимостям. Все, что надо сделать – это найти документ robots.txt и сравнивать срезы данных страниц за разные даты до тех пор, пока не найдете причину уязвимостей.
6. Проверка работы счетчика аналитики
Wayback Machine индексирует исходный код страниц и позволяет отследить изменения, которые были в него внесены. Введите URL страницы, выберите дату и снимки сайта, которые вам нужны, и кликните на просмотр исходного кода и оцените, насколько правильно он сделан.
7. Анализ пути клиента
Если вы хотите провести полный анализ пути клиента, то с этим вам также может помочь Wayback Machine. Используя этот сервис, вы сможете сравнить текущую длину пути с тем, который был в прошлом, чтобы определить, какие стадии изменились с течением времени. Также Wayback Machine открывает способы повысить конверсию. Если конверсия на вашем сайте была высокой в определенной время, то можно посмотреть на предыдущее оформление, кнопки и ссылки на странице, чтобы определить, как они повлияли на конверсию.
8. Определение структуры сайта
Wayback Machine показывает, как в прошлом выглядела иерархическая структура сайта. Иногда разделы могут объединять или наоборот разбивать на несколько штук. Если вы посмотрите на то, какой была структура сайта в прошлом, вы сможете сказать, какие страницы были недавно объединены в одну категорию или разделены на самостоятельные.
9. Поиск старого контента
Wayback Machine поможет найти старый контент, который был утерян или случайно удален. Достаточно открыть страницу, на которой находился контент, на более ранней дате.
10. Проведение смешанного маркетингового анализа
С помощью Wayback Machine можно анализировать рост трафика посадочных страниц. Предположим, что в прошлом году контекст работал хорошо, но результат в этом году далеко не такой впечатляющий. Посмотрите на ваши посадочные страницы с помощью Wayback Machine, чтобы выяснить, какие ключевые слова приносили результат, и что изменилось на посадочных страницах и привело к снижению эффективности этих ключевиков.
Назад в будущее
На первый взгляд, Wayback Machine – это просто сервис, показывающий более раннюю версию сайтов, действительно «машина времени» интернета. Однако, его функции могут быть полезны и в сфере интернет-маркетинга. А какие способы использования Wayback Machine приходят в голову вам? Поделитесь в комментариях.
В Google и «Яндексе», соцсетях, рассылках, на видеоплатформах, у блогеров
What is Wayback Machine & Why is it so Useful for Bloggers?
Last Updated on 10th November 2020 by Paul Leave a Comment
Today we are going to travel back in time. I haven’t lost my mind because I’m not talking about breaking the laws of physics! However, I am talking about looking back in time… at websites. In this post I’m going to explain what Wayback machine is and how to use it to look at websites past.
Have you ever accidentally deleted a page on your site? What if you need to restore it but you don’t have a backup version?
What happens if that page is a critical page?
Do you try to rewrite it from memory? Or perhaps you would try to rewrite it from scratch?
Well, those are valid if not difficult ways you could try to restore your page… but what about all the optimisations you’d made in the original version?
You might be okay if the page is still cached in a search engine index. It’s likely you could look at that version and possibly restore the copy, creative and optimizations from there.
But what if that cached page had dropped from the indexes?
What would you do?
The good news it there are places on the web you visit to see how your site’s pages appeared in the past. You can potentially could use them to copy what you have lost and restore it. One such place is Wayback Machine.
What is Wayback Machine?
What we’re gonna do right here is go back, way back, back into time.
Lyrics from Troglodyte (Cave Man) 1972 by The Jimmy Castor Bunch
The Wayback Machine is an archive of sites, pages and other artifacts found on the web. It was founded by a non-profit organization called the Internet Archive in San Francisco, California in 1996.
The objective of the Internet Archive is to preserve these assets and create a reference for researchers, historians and scholars. More than this though, it’s stated mission is:
To provide Universal Access to All Knowledge
The Internet Archive
As such the Archive closely with organisations such as The Library of Congress and the Smithsonian Institution.
How Big is the Wayback Machine Archive?
The current estimate is that it contains over 362 billion archived web artifacts since its inception.
Wayback Machine Archived Artifacts Grouped by Type
The pie chart clearly shows that web pages make up the majority of the Archive. They represent 91.24% of the total number of artifacts documented.
This is an enormous archive… but clearly not as large as Google’s index, which includes 100s of trillions of indexed pages.
However, the Wayback Machine can show you a number of different past versions of a particular web page. Google’s index does not do this.
The great thing about this is you can run a Wayback Machine search on any website to see how its content has changed. Assuming of course it is present in the archive in the first place.
Why Would a Website Not Appear in the Archive?
There are several reasons why a site will not appear as a result in Wayback Machine searches.
Just like the Google index, you can submit sites to Wayback Machine that do not presently appear in the archive. I’ll come onto this later.
The Ghosts of Pages Past 1: Why Might You Use Wayback Machine?
What we’re gonna do right here is go back, way back, back into time.
Looking at Site Changes
The first reason you’d use Wayback Machine is to look at old versions of pages within a site.
This is useful for several reasons.
Looking at robots.txt
The Wayback Machine doesn’t only crawl and archive web pages as you can see in the pie chart above. It will also archive other file types on your domain such as your robots.txt file.
Looking at an archived version of robots.txt might give you pointers if you are having search engine crawlability problems. You could look at a past version of it to determine if any change you made caused the issues.
Checking for Intellectual Property Infringements
Let’s say you’ve seen that someone has been blatantly and illegally trading off your protected trademarks. Or maybe they’ve plagiarised your valuable intellectual property.
You may have sent a cease and desist asking the offenders to remove your intellectual property from their site.
The guilty party may have ignored your legal threats completely, so you decide upon the potentially costly path of litigation.
Your lawyer sets things in motion and all of a sudden your intellectual property disappears from the offending site to “bury the evidence”.
Wayback Machine might be able to show snapshots of the pages on their site where the infringement was committed. This would prove beyond dispute that you have been wronged.
Looking at How a Site Has Changed Over Time
If you take on a new client and want to understand how their website has evolved, Wayback Machine might be the perfect place to provide an overview.
The archive could show you technical changes made or even tell you a story of how the company has developed.
You could even use Wayback Machine in your preparation to pitch to a new client for their business. This might help you demonstrate a deeper appreciation of their story than your competitors who are also pitching.
Looking for Changed URL Structures
The URL structures for a site you manage for a client changed a while back. The organic traffic to the site fell sharply as a result. These changes weren’t documented and so nobody knows how to revert them.
In this scenario you might be able to use the archive to check URL structures and either reinstate them or set up redirections correctly.
N.B. If you’ve noticed decreased visits in Google Analytics, you can identify your historical URL structures there too.
Looking at the Historical Information Architecture of the Site
The archive might be able to show you how a website was organised in terms of the page or category hierarchy. It could even demonstrate the previous navigation structure.
This could be extremely useful when trying to understand whether categories or pages have been merged at some point. Equally it could present you with a better understanding of how past navigation structures have impacted conversion rates.
The Ghosts of Pages Past 2: How to Use Wayback Machine
At the top of the page you’ll see a search box. Type in the domain you’d like to examine and if it has been archived you’ll see something like this:
You can use the timeline at the top of the page to select a particular year. You could also look at one of the circles in the calendar for the year you can currently see. Remember though that only days highlighted with a coloured circle have archived pages.
Hovering on a coloured circle will show you the number of snapshots Wayback Machine took on that day.
Clicking one of the snapshots takes you to the archived version of the page as it looked at that time.
You can click on any links you see on the archived page to browse an archived version of the site. You’ll then see how other pages within the site appeared at that time also.
Alternatively, you can click on the timeline at the top of the page to examine archives from a different year.
It’s that simple!
But What if a Page I want to See is not in the Archive?
Firstly… don’t panic!
It would be a pain a page you wanted to examine was not in the archive. Especially if you wanted to do some of the research I’ve discussed above. The Wayback Machine homepage has a tool that you can use to snapshot a page immediately though. Of course this won’t help to examine a particular issue in the past. But you could at least start archiving the site so it’s available in future.
Type the page URL into the “Save Page Now” box and Wayback Machine will add it to the archive immediately.
The tool will save the page along with any images and CSS it finds there. However, it will not crawl any links it finds on the page and so will not archive the whole domain.
You can add more pages to the archive from a site, but you have to use the “Save Page Now” tool for each one.
If you have concerns about privacy, archive.org does not retain IP addresses on submissions you make to it. So whenever you use the tool your activity is anonymous.
One final note. When a page is archived there is no guarantee when it will be snapshotted again. So you might return to the site again and see only the version that you submitted. Having said this, Wayback Machine will revisit archived pages at some point and the calendar will show this.
Summary
Check out my video on how to make a Wayback Machine search and also see how to request an archive for a page.
That’s it for now.
Perhaps you’ve used Wayback Machine in ways that I haven’t identified here?
Thanks for visiting!
Any more questions on what is Wayback Machine or how to use it? Why not leave your question or comments below?