На примере dmoz.org.
В поиске Google набираем site:dmoz.org и получаем список всех проиндексированных страниц. Их на самом деле уже нет в онлайне, но Гугл бережно хранит их в своем кэше. Наша задача - быстро и в полном объеме извлечь все, что возможно спасти. Чтобы список не дробить на многостраничную последовательность, к ленте в адресе (которая образовалась после обращения к поисковика) затем добавляет &num = 100 и на странице отображается сразу сто результатов.
В каждом пункте выдачи (почти каждому), после названия страницы и описания, можно будет увидеть пункт "Сохраненная копия". Именно это указание открывает закэшированную текстовую версию того, что вы ищете. Теперь информацию можно закачать, сохранить, восстановить.
Другая задача - быстро и массированно сохранить все сохраненные копии из кеша Гугля, а не возиться с каждой отдельно. В Интернете гуляет какой скрипт php, который парсит Гугл и сохраняет кэш сайта, но во-первых, надо платить 2 бакса за него (мне не жалко денег, а жаль времени), а во-вторых, для чего эти все сложности (проплачивать через задницу, размещать скрипт на сервере, надеяться, что в скрипте нет какой мерзости), если можно все сделать просто.
Я, лично, попробовал два способа. Самый простой - в самом браузера может быть возможность закачки всех указаний на странице. В моем Макстони есть опция (на правой кнопке - Download all links. В списке всех этих ссылок я выбираю только те, которые начинаются на то типа ... опа ... а это что-то новенькое ... Еще вчера адреса закэширована страниц начинались с цифр (адреса сервера), а сегодня - "webcache.googleusercontent.com".
Ну, принцип вы поняли - найти те ссылки, которые ведут на закэширована страницы, и их закачать. Также можно применить безпплатные программки, позволяющие закачивать файлы и страницы пакетом, например: Orbit Downloader. Загруженные файлы, скорее всего, или не будут иметь расширение, или иметь какое странное расширение, несовместимо со здравым смыслом. Поэтому придется им дописать. Html (или даже. Txt) в конце.
Во время такого закачки гугловского кэша может случиться проблема - Гугл заблокирует выдачу вам этих страниц, ему не нравится, что его обрабатывают. Это обходится просто - нужно изменить айпишку. У кого айпишка динамичная, достаточно просто от "объединяться от Интернета и снова под" объединяться (исключить, включить роутер).
Удачи в восстановлении!
Категория: Мои статьи Просмотров: 553 Комментариев: 0 Автор: Гость |
Всего комментариев: 0 | |