Потребовалось мне недавно выкачать сайт из Интернет архива. И чтоб не руками каждый файлик, а то дюже их там много получалось.
А нормальной тулзы-то, как оказалось, для нас, криворуких похапэшников, и нет.
Какой-то дикий баш-скрипт, выкачивающий только 1 страницу — есть. Приличная версия на Руби есть. А PHP — нет. Беда :-( Может, искал плохо, может, карма не той системы — не знаю.
Сайт-то я в итоге выкачал. Но осадочек, как говорится, остался. И шило в одном месте проснулось. Поганая погода на выходных подсобила. Так что, встречаем первую версию WayBack downloader.
На данный момент оно умеет выкачивать последнюю версию сайта со всем содержимым, причём, тянутся все возможные сохранённые файлы. Выкачает всё что было сохранено.
php downloader.php -h http://example.com
Или только начиная с какой-то временной метки:
php downloader.php -h http://example.com -t 20060716231334
Опций пока не много:
-h, --host — адрес сайта -t, --timestamp — временная отметка в формате YYYYMMddhhmmss
На этом из плюшек всё. TODO длинный, так что фиксы и дополнения приветствуются.
Ну, и ссылки, как водится:
При вводе команды php downloader.php -h http://example.com -t 20060716231334
У меня выпадает ошибка
Could not open input file: downloader.php
Для установки пробовал ввести gem install wayback-machine-download
Выдаёт ошибку:
ERROR: Could not find a valid gem 'wayback-machine-download' (>= 0) in any repository
ERROR: Possible alternatives: wayback_machine_downloader, apache_secure_download, state_machine-mongoid, static_image_download
Правильно ли я понимаю, что нужно устанавливать командой gem install wayback_machine_downloader?
Работаю на ВДС, Центос
Ваш скрипт может выкачать только определенный список URL?