Машина времени в Интернете
Опубликовано в журнале Инфоком
Вот, новый поворот
И мотор ревет
Что он нам несет
Радость или взлет?
Ну откуда же еще могут быть эпиграфы
в статье с таким-то названием?
Что такое
Интернет? Попробуйте сформулировать, предложите сделать это знакомым – все
ответы будут разными. Это не просто хранилище информации, а некая новая,
невиданная ранее сущность, имеющая экономические, этические, эстетические,
криминальные и прочие проявления в реальной, несетевой жизни. Многочисленные
публицисты-аналитики сравнивают Интернет то с гигантской свалкой, в которой есть
все, но неимоверно трудно найти то, что надо, то с бактерией, попавшей в
питательную среду и взрывообразно растущей за счет впитывания информации, то с
зыбучим песком, затягивающим психику каждого, кто соприкоснулся с этим чудом.
Нас же
сейчас интересует вопрос исторический, ведь Интернет представляется еще и этаким
бурлящим Солярисом, ежемесячно, ежедневно и ежечасно меняющим облик, внешний вид
и содержание бесчисленных страниц, да и сами страницы беспрестанно рождаются,
развиваются, некоторые умирают. Вся история Интернета, если считать от
изобретения Тимом Бернерсом Ли в 1994 году WWW, не
насчитывает и десяти лет, но учитывая необычайную насыщенность и динамичность
развития, видим, что по значимости событий и скорости их мелькания эти годы
соизмеримы с веками досетевого развития. Согласно статистике, средняя
"продолжительность жизни" веб-документа – около 100 дней, после этого он либо
изменяется, либо бывает просто удален. По тем же данным, средняя
продолжительность существования сайта равна 19 месяцам. Этот процесс неизбежно
связан с утерей старых страничек, исчезнувших сайтов, прежних вариантов
оформления ныне здравствующих проектов. А ведь это все представляет ценность –
ибо это наша с вами история, история человечества, история информации. Жалко.
На этот
пробел в нашей истории обратил внимание Брюстер Кахл, запустивший в 1995 году
проект Wayback Machine. Это сверхгигантский Интернет-архив, проводящий
постоянное сканирование сети и архивацию страничек. За неполные восемь лет в
единой базе данных собрано около 10 миллиардов страниц, включая графику. Темпы
прироста объема сохраняемой информации просто фантастические - ежедневно
добавляется около 250 гигабайт, более 12 терабайт данных поступает ежемесячно.
Сейчас (данные на осень 2002 года) база располагает документами, общий объём
которых составляет более 120 терабайт. Wayback Machine – сестринская компания
поисковика Alexa Internet,
поисковые пауки которого также участвуют в сборе данных в базу архива. Пауки или
спайдеры – программы, которые являются частью поисковых служб (типа Яндекса,
Google и .т.п.), и которые, двигаясь по ссылкам, закачивают веб-страницы для
дальнейшего их индексирования. Публичный доступ к Интернет архиву открыт с
октября 2001 года
Хочу! Хочу! Хочу!
Каждый, право, имеет право
На то, что слева и то, что
справа
Самое
приятное то, что доступ не только совершенно бесплатный (то есть даром), но и не
требует регистрации, заполнения форм, сообщения вашего почтового адреса,
обязательного ознакомления с правилами и подтверждения соглашения с ними –
непременных атрибутов всяких пустяшных копеечных проектов. (Вот бы на кого надо
равняться в этом вопросе.) И мы с вами запросто можем совершить путешествие по
времени. Для этого всего лишь надо набрать адрес http://www.archive.org/ и в единственное
окошечко ввести адрес странички, на которую вы хотите попасть в прошлом. (К
сожалению, пока Wayback Machine не располагает возможностью поиска по содержанию
сайтов, подобно поисковым серверам вроде Яндекса – так что для того, чтобы
попасть на необходимую страницу, пользователь должен знать её конкретный URL,
или, по крайней мере, адрес сайта.)
Вопрос в
выборе сайта? Если у вас есть страничка, которую вы несколько лет сопровождаете,
просиживая все ночи над оформлением и содержанием, обсуждением которой замучили
домочадцев и сослуживцев, не можете сосредоточиться на любом разговоре не по
теме вашей страничке, то для вас такого вопроса не существует. Конечно же,
отправляемся на Арбуз, размещавшийся раньше на Народе. Вводим адрес http://arbuz.narod.ru, жмем кнопку
"Take me back" (Переместите меня назад) и через минутку получаем меню с
запомненными в суперархиве вариантами.
Выбираем дату, конечно самую раннюю из предложенных, –
февраль 2001 года и через некоторое время с волнением встречаем восставший из
прошлого такой до боли знакомый выстраданный Арбуз двухлетней давности.
Конечно, все
было не так гладко, пришлось подождать с загрузкой и поковыряться в воссозданном
html – на Java-скрипты и кнопки
счетчиков машина времени выдавала предупреждения о невозможности их
восстановления. Но это такая мелочь перед радостью от встречи с любимым детищем,
тогда еще с фреймами, со счетчиком «Рамблер-100», без каскадных стилей, SSI и прочих поздних усовершенствований, атрибутов солидности
и зрелости.
Для
серьезной работы с архивами существует «страница специального поиска» http://web.archive.org/collections/web/advanced.html
, на которой можно уточнить временной диапазон и воспользоваться серией весьма
важных настроек. Так, например, здесь можно ограничить тип документов, по
которым производится поиск (один из вариантов – images, audio, video, binary,
text или PDF; по умолчанию стоит All types), определить, будет ли производится
поиск только однозначный поиск по заданной ссылке или следует учитывать подобные
варианты (выводить yahoo.com, www.yahoo.com и yahoo.com/index.html отдельно или
"расценивать" равными) и некоторые другие. При желании удалить ваши ресурсы из
архива можно воспользоваться специально предусмотренной для этого возможностью
великого архиватора.
Как это делается – трудовые будни волшебников
Кукол снимут с нитей длинных
И, засыпав нафталином,
В виде тряпок сложат в сундуках
Можно
предположить трудности, с которыми столкнулись разработчики Wayback Machine.
Даже простое обслуживание и сопровождение архива емкостью 120 терабайт
необычайно затруднительно. Поисковые машины, сканирующие сеть, должны сравнивать
найденные страницы (при канале 100 Мб/с это около 150 миллионов страниц за
неделю) с существующими в архиве для избежания копирования дублей, это
перегружает оперативную память и тормозит «паука».
Еще
трудности широкого поиска – нагрузка на сервера сайтов. Не каждый из них
способен выдержать натиск мощного поискового бота, "потребляющего" десятки
миллионов страниц ежедневно. Так что в данной ситуации возможны два выхода –
либо программа-робот будет достаточно "разумной" для того, чтобы ограничить
натиск на сервер, либо последний имеет все шансы "упасть". Да и сам сайт Wayback
Machine не всегда бывает доступен - иногда при заходе приходится любоваться
пояснением относительно того, что в связи с "непредвиденно высоким уровнем
запросов" сайт в дауне, или "Internet Archive Site временно недоступен в связи с
техобслуживанием". Следует отметить, что посещаемость у архива действительно
немаленькая, достигающая в среднем около 5 миллионов посетителей в сутки.
А кто же за
все это платит? Ведь ежегодно на покупку одних только винчестеров идёт около 40
000 долларов. Физически архив сосредоточен в трёх местах – два из них находятся
в районе Сан-Франциско, а ещё одна база расположена в новой библиотеке
Александрии, Египет. Той самой легендарной библиотеке Древнего мира, погибшей в
пожаре и восстановленной в наши дни, о ее необычной архитектуре писали в прессе
и неоднократно рассказывали по телевидению. Wayback Machine является
некоммерческим проектом и на сайте нет рекламы, которая могла бы хоть в
некоторой степени компенсировать расходы. В текущий момент финансирование
держится на добровольных взносах отдельных граждан и организаций, а также
грантах. Среди партнёров проекта, приведенных на главной странице, числятся
AT&T Research, Compaq (поглощенная Hewlett-Packard), Prelinger Archives, QuantumDLT, и Xerox PARC.
Кахл
возлагает надежды на создание объединенных проектов, и что Wayback Machine –
только первая из целой сети организаций, которые будут совместно выполнять
великую задачу – собирать и сохранять знания и делать их доступными для всего
человечества. Здорово, согласитесь, что в одно время с нами живут такие
замечательные люди.
Цифры взяты
из статьи http://www.computerra.ru/compulife/inet/22743/
, которая, в свою очередь, ссылается на такие источники: http://www.archive.org/
http://www.newscientist.com/opinion/opinterview.jsp?id=ns23701 http://www.mindjack.com/feature/archive.html
http://www.infotoday.com/online/mar02/OnTheNet.htm
А знаете,
что самое интересное в этом нашем путешествии по времени? Ссылки, расположенные
на найденных в прошлом страничках, ведут не на современные сайты, а на другие
сохранённые страницы. Таким образом, вы в самом прямом смысле находитесь и
путешествуете в "Интернете прошлого". Представляете?
|