Архива расположен в Сан-Франциско , зеркала - в Новой Александрийской библиотеке и в Амстердаме . С 2007 года Архив имеет юридический статус библиотеки .

Internet Archive
URL archive.org
Коммерческий нет
Тип сайта универсальная электронная библиотека
Язык(-и) английский
Расположение сервера США США
Египет Египет
Нидерланды Нидерланды
Владелец Internet Archive
Автор Брюстер Кейл
Начало работы 24 января 1996 года
Текущий статус работает
Оборот
Слоган universal access to all knowledge
Рейтинг Alexa
Архив Интернета на Викискладе

История

Сервис веб-архива может использоваться в качестве меры борьбы с блокировками доступа к Интернет-сайтам: как и сервис кэшированных копий страниц от поисковых систем, архив Интернета позволяет ознакомиться с более ранними копиями популярных страниц. Однако использование архива и кэшей в таких целях требует специальных усилий от пользователя и позволяет получить доступ не ко всем сайтам .

Open Library

Open Library - общественный проект по сканированию всех книг в мире, к которому приступила Internet Archive в октябре 2005 года. На февраль 2010 года библиотека содержит в открытом доступе 1 миллион 165 тысяч книг, в каталог библиотеки занесено больше 22 млн изданий. По данным на 2008 год, Архиву принадлежат 13 центров оцифровки в крупных библиотеках. По оценке Internet Archive на ноябрь 2008 года, коллекция составила более 0,5 петабайта , включая изображения и документы в формате PDF . Коллекция постоянно растёт, так как библиотека сканирует около 1000 книг в день.

Награды

Блокировка Архива Интернета

В России

Внешние изображения
Страница сайта Роскомнадзора с сообщением о блокировке страницы «Одиночный джихад»

16 июня 2015 года на основании статьи 15.3 закона «Об информации, информационных технологиях и о защите информации » генпрокуратура РФ приняла решение о блокировке страницы «Одиночный джихад в России», содержащей, по её мнению, «призывы к массовым беспорядкам, осуществлению экстремистской деятельности, участию в массовых мероприятиях, проводимых с нарушением установленного порядка» , в действительности на территории России был заблокирован доступ ко всему сайту, кроме .

Также в 2017 году сообщалось о блокировках архива в Кыргызстане .

В Индии

В Индии Архив был частично заблокирован судебным решением в августе 2017 года. Решение Madras High Court перечисляло 2,6 тыс. адресов в сети Интернет, которые способствовали пиратскому распространению ряда фильмов двух местных кинокомпаний . Представители проекта безуспешно пытались связаться с министерствами .

См. также

Примечания

  1. Internet Archive: Bios - Internet Archive .
  2. Глобальный рейтинг сайта archive.org (англ.) . Alexa Internet . Проверено 14 апреля 2019.
  3. https://projects.propublica.org/nonprofits/organizations/943242767
  4. 10,000,000,000,000,000 bytes archived! (неопр.) . Архивировано 28 ноября 2012 года.
  5. Defining Web pages, Web sites and Web captures (неопр.) .
  6. Donate to the Internet Archive! (англ.) . archive.org. Проверено 28 марта 2019.
  7. Internet Archive officially a library (неопр.) . Internet Archive (7 мая 2007). Проверено 31 августа 2016.
  8. Internet Archive: In the Collections (неопр.) (недоступная ссылка) . Wayback Machine (6 июня 2000). Проверено 1 сентября 2016. Архивировано 6 июня 2000 года.
  9. Bowman, Lisa M . Net archive silences Scientology critic , CNET News.com (24 сентября 2002). Архивировано 16 июля 2012 года. Проверено 4 января 2007.
  10. Jeff. exclusions from the Wayback Machine (неопр.) (Blog). Wayback Machine Forum . Internet Archive (23 сентября 2002). Проверено 4 января 2007. Архивировано 25 августа 2011 года. Author and Date indicate initiation of forum thread
  11. Miller, Ernest Sherman, Set the Wayback Machine for Scientology (неопр.) (Blog). LawMeme . Yale Law School (24 сентября). Проверено 4 января 2007. Архивировано 25 августа 2011 года. The posting is billed as a "feature" and lacks an associated year designation; comments by other contributors appear after the "feature"
  12. Maximillian Dornseif. Government mandated blocking of foreign Web content (англ.) . preprint cs/0404005 16. arXiv (2004). Проверено 26 ноября 2017.
  13. Bulk Access to OCR for 1 Million Books, via Open Library Blog, by raj, 24 ноября 2008. (неопр.) . Архивировано 28 ноября 2012 года.
  14. Free Software Awards Announced (неопр.) . Архивировано 28 ноября 2012 года.
  15. Стали известны номинанты ежегодной награды Free Software Awards (неопр.) . Архивировано 28 ноября 2012 года.
  16. Производится блокировка экстремистского видео террористической организации «Исламское государство Ирака и Леванта» в сети Интернет (неопр.) . Роскомнадзор (24 октября 2014).

Электронный адрес – http://web.archive.org .

Каждый, кто собирал информацию по интересующей его проблеме за достаточно длительный период, знает, как порой бывает важно найти сведения, опубликованные на сайте несколько лет назад. Иногда это просто необходимо: в частности, в случае обнаружения новых тенденций в развитии объекта, которое требует ретроспективной оценки времени их появления. Либо возникновения новой темы для изучения событий на рынке и, как следствие, сравнения реакции на них с тем, как вели себя в подобной ситуации участники рынка в прошлом. Конечно, специалист конкурентной разведки всегда старается архивировать интересующую его информацию. Однако в реальной жизни бывает так, что проблема просто не входила в сферу его интересов до определенного момента либо на предприятии эта служба появилась позже тех событий, которые и стали предметом ее пристального внимания.

В таком случае на помощь нередко может прийти сервис, который нам также рекомендовал Arthur Weiss. Этот Internet Archive Wayback Machine, его изображение представлено на рис. 21. Сервис позиционируется как «Библиотека Интернета». Пауки, принадлежащие Internet Archive Wayback Machine, посещают веб-сайты и сохраняют архивную копию на сервере «библиотеки». Как написано на странице этого ресурса, интересующего нас сайта может и не оказаться в архиве. Например, в случае если паук не может его прочитать, поскольку тот защищен одним из способов, описанных нами в соответствующем разделе данной книги.

Сервис Internet Archive Wayback Machine некоммерческий. Он работает с 1996 г. и, как утверждают его владельцы, существует на пожертвования меценатов и благодаря технической поддержке крупных интернет-компаний, таких как Alexa. Ежемесячно архив увеличивается в объеме на 20 терабайт. Ценным нам видится то обстоятельство, что Internet Archive Wayback Machine отслеживает копии даже тех сайтов, которых больше не существует в Сети.

Для того, чтобы увидеть сохраненную версию нужного сайта, достаточно ввести в окно, расположенное в верхней части главной страницы, адрес ресурса и нажать клавишу «Take me Back». После этого пользователю будет предложен архив по запрошенному ресурсу. В пределах этого архива можно ознакомиться с копией сайта за искомую дату. На рис. 22 показан список копий ресурса «Росбизнесконсалтинг».

Рис. 21. Главная страница Internet Archive Wayback Machine .




Рис. 22. Архив по сайту РБК http://rbc.ru


Архив, расположенный на сервере в Сан-Франциско, поражает своими возможностями. Вот как выглядела страница этого известнейшего интернет-ресурса 10 декабря 1997 г. (рис. 23).




Надо сказать, что, помимо функций обеспечения нужд непосредственно конкурентной разведки, наши источники рассказывали о случаях, когда этот ресурс помогал компаниям в сборе доказательств по фактам информационной войны против них. Как правило, в таких ситуациях, когда нападающая сторона «затирала» сведения на сайте, Internet Archive Wayback Machine позволял доказать факт распространения порочащих организацию данных.

Один из источников автора сообщил о факте, когда наличие копии сайта в архиве Internet Archive Wayback Machine позволило доказать в споре с контролирующими органами, что сайт, существование которого вызывало сомнения у контролеров, действительно существовал в тот период, когда компания получила деньги за его разработку и «раскрутку».

Приветствую, дорогие читатели блога. Хотите узнать, как получать информацию о том, что было на любом сайте год назад или месяц назад, а сегодня уже удалено? Тогда читаем статью и применяем знания на практике. Покажу как увидеть старые записи сайта которые булм скрыты владельцем.

Наверняка есть немало людей, кто задумывался над тем, как посмотреть архив сайта в Интернете. Эта возможность пригодится каждому, кто ведет свой ресурс уже долгие годы, у кого сайтов несколько, кто хочет восстановить старый сайт. Как ни странно, такая возможность существует, и уже давно.

Archive.org – архив всех веб-сайтов Интернета, действующая как онлайн-библиотека. Начало деятельности проекта датируется 1996 годом, а место еговозникновения – Сан-Франциско. В то время сервис был не просто уникальным, но и практически бесполезным для многих, ведь Интернет был очень слабо распространен, а сайтов существовало всего ничего.

С распространением Всемирной Сети Архив приобрел большую популярность и стал своеобразной машиной времени, поскольку позволял просматривать даже уже не существующие веб сайты.

Сейчас библиотека Archive.org располагает огромным пространством для хранения данных и предлагает свободный доступ к файлам для всех желающих. К 2017 году в библиотеке содержится уже почти 90 миллиардов веб-страниц, но несмотря на это узнать данные о любом сайте можно практически мгновенно, введя его адрес в строку поиску.

Когда и почему сайт попадает в архив сайтов Интернета

После создания сайта он может попасть в Archive.org либо сразу, либо через некоторое время, а бывает, что даже действующего сайта там нет. Условия попадания вашего Интернет-ресурса в Архив следующие:

  • отсутствие в файле robots.txt команды на запрет его индексации

(User-agent:ia_archiver

Disallow: /);

  • наличие на ресурсе ссылок на поисковые системы или популярные сервисы;
  • переход на сайт с помощью поисковиков других пользователей.
Как можно использовать архиватором

В Archive.org сохраняются:

  • текстовые материалы;
  • аудиофайлы;
  • видеофайлы;
  • фото и картинки;
  • ссылки.

Архив позволяет:

  • Изучить всю историю своего сайта. Если информация на нем периодически обновляется и сайт содержит десятки страниц, порой бывает сложно найти какую-либо информацию. Здесь как раз архив сайтов Интернета придет на помощь.
  • Восстановить сам сайт или некоторые его страницы, если вы не делали резервные копии.
  • Найти уникальный контент для своего сайта. Правда, этот самый контент можно брать только с уже не существующих ресурсов, поскольку то, что представлено на действующих, как известно, не будет уникальным. К тому же, нужно знать адрес сайта, чтобы найти его и взять какую-либо информацию в архиве.

Инструкция по работе с Archive.org

Принцип работы сервиса Archive.org очень прост. Чтобы найти данные о каком-либо сайте, нужно лишь указать его адрес в строке WaybackMachine (Webarchive Machine).

Рассмотрим архив сайта на примере моего блога.. Жмем Enter.

Примечание. Если мы не сразу вставляем адрес, а печатаем, под строкой поиска появляются другие сайты с похожими названиями. Эта функция полезна, например, если вы забыли название разыскиваемого ресурса.

Открывается страница с данными. Под названием сайта видим информацию о том, сколько раз был заархивирован сайт и когда. Как видно, первая архивация произошла 18 июня 2014 года, а последняя – 2 октября 2016. Эти даты никак не связаны с изменениями, происходящим на самом сайте, ибо, когда будет производиться архивация, определяет сам WebArchive .

Чтобы более подробно рассмотреть все изменения или увидеть первоначальный вид сайта, просто выбираем год, а затем нажимаем в календаре число и месяц.

Нажмем на самую старую дату. Система переведет нас в сам блог, где будет виден его первоначальный интерфейс и содержимое. Дизайн я тоже некоторых элементов менял, а вот самые первые статьи сейчас уже затерялись и найти их сразу будет не так-то просто.

Таким образом можно посмотреть все изменения, когда-либо произошедшие в блоге, либо найти нужную информацию.

Как найти уникальный контент с помощью Webarchive Machine

Возможность просмотра архива старых сайтов дает возможность любому человеку использовать данные, которые на нем были, не опасаясь за неуникальность. Дело в том, что после «смерти» сайта его контент уже не проверяется поисковыми системами, а значит, он снова уникален, и остается проблема лишь поиска этих самых сайтов.

Если вы хотите взять контент с вашего старого ресурса или сайта, которым вы пользовались, но который уже не существует, проблем не возникнет, ведь вы наверняка помните адрес. Ну, а если намереваетесь искать среди всех «умерших» сайтов, можно воспользоваться специальными сервисами, где приводятся списки с освободившимися доменами, то есть с адресами сайтов, которых уже нет.

Я открыл один из таких сервисов, скопировал первый домен и вбил в строке WaybackMachine в Archive.org, но никакого результата это не дало. Такая же история повторилась и с четырьмя последующими доменами. Наконец, поиск по шестому адресу открыл информацию о сайте.

То, что Arcgive.org открывает не все «мертвые» сайты, может быть связано с несколькими причинами. Так, возможно, домен был приобретен, но сам сайт так никогда и не был наполнен каким-либо контентом. Именно так дело обстоит с большинством доменных имен, представленных в списках освобождающихся. Еще одна причина – создатель сайта удалил свой ресурс с самого Архива. Такое тоже может быть.И наконец, возможно, сайта вообще не было в Веб Архиве.

Итак, нам удалось все-таки найти «мертвый» сайт, информацию с которого можно считать. Как видим, сайт существует с 1999 года, и за все время по нему сделано 269 архивов.

Мы можем открыть ресурс и взять оттуда информацию. Для этого, как и в случае с действующими сайтами, просто выбираем любую дату. Данное действие откроет главную страницу в том виде, в котором она была к той дате, которую мы выбрали. Если здесь ничего полезного нет, следует проверить и другие даты.

После того, как полезный контент найден, обязательно следует предварительно проверить его на уникальность, поскольку, во-первых, кто-то до вас уже мог его использовать, а во-вторых, возможно, он все еще отслеживается поисковиками.

Как восстановить сайт с помощью Archive.org

Те, кто давно ведут сайты, знают о том, что нужно периодически делать его резервное копирование. А вот те, кто об этом не подумал, могут столкнуться с проблемой утери веб-страниц или потери функциональности целого сайта. В этом случае Архив снова придет на помощь, но, если у вас ресурс с большим количеством страниц, восстановление займет очень много времени. Еще одна проблема, которая может возникнуть, связана с возможностью утери некоторой доли информации или искажением дизайна.

Если вы все же решили восстановить свой сайт с помощью Archive.org, нужно будет проводить операции с каждой страницей, отсюда и трата времени.

Итак, для восстановления сайта нам нужно заменить внутреннюю ссылку страницы на оригинальную. Если мы посмотрим в адресной строке,ссылка будет иметь вид: http://web.archive.org/web/20161002194015/http://сайт/, то есть информацию с такой страницы нельзя будет просто скопировать.

Чтобы такая возможность появилась, можно просто вручную убирать начало ссылок, но, когда страниц сотни, это становится довольно кропотливым занятием. Поэтому мы будем использовать возможность самого Архива заменять ссылки. Для этого в адресной строке после набора цифр вставляем «id_» и жмем Enter. То есть вместо первоначальной ссылки в строке должно быть: http://web.archive..

Теперь ссылка оригинальная и можно просто копировать тексты, картинки и прочие файлы из исходного кода Архива. Такую же операцию проводим и с другими страницами сайта. Конечно, даже такой вариант займет много времени, но, если нет резервных копий, по-другому восстановить сайт вряд ли получится.

Как удалить сайт с Archive.org

Большинство создателей сайтов хотят, чтобы их ресурс попал в Архив, но бывают и случаи, когда, напротив, нужно сделать так, чтобы он либо не попал туда, либо удалился. Сам InternetArchive предлагает для этого очень простой метод. Нужно лишь задать команду для робота сервиса о том, что сайт не нужно включать в Архив, то есть написать в robots.txt следующее:

User-agent: ia_archiver
Disallow: /

Таким образом, создание архива всех сайтов – это помощь для многих пользователей Интернета в поиске информации и восстановлении старых ресурсов. Именно с целью сохранения информации и был создан Archive.org, и именно поэтому он сохраняет архивы сайтов, которые существуют в настоящий момент, и предоставляет возможность использовать данных с «мертвых» или заброшенных ресурсов.

Надеюсь, материл, был полезен и вы не забудете сделать репост статьи и подписаться на рассылку блога. Всех благ -))).

С уважением, Галиулин Руслан.


Close