Павел Новицкий

Нерегулярные заметки

WayBack Downloader

22 ноября 2015, 21:30

Потребовалось мне недавно выкачать сайт из Интернет архива. И чтоб не руками каждый файлик, а то дюже их там много получалось.

А нормальной тулзы-то, как оказалось, для нас, криворуких похапэшников, и нет.

Какой-то дикий баш-скрипт, выкачивающий только 1 страницу — есть. Приличная версия на Руби есть. А PHP — нет. Беда :-( Может, искал плохо, может, карма не той системы — не знаю.

Сайт-то я в итоге выкачал. Но осадочек, как говорится, остался. И шило в одном месте проснулось. Поганая погода на выходных подсобила. Так что, встречаем первую версию WayBack downloader.

На данный момент оно умеет выкачивать последнюю версию сайта со всем содержимым, причём, тянутся все возможные сохранённые файлы. Выкачает всё что было сохранено.

php downloader.php -h http://example.com

Или только начиная с какой-то временной метки:

php downloader.php -h http://example.com -t 20060716231334

Опций пока не много:

-h, --host — адрес сайта
-t, --timestamp — временная отметка в формате YYYYMMddhhmmss

На этом из плюшек всё. TODO длинный, так что фиксы и дополнения приветствуются.

Ну, и ссылки, как водится:

Вконтакте
6 комментариев
Иван #1
Павел, здравствуйте
При вводе команды php downloader.php -h http://example.com -t 20060716231334
У меня выпадает ошибка
Could not open input file: downloader.php

Для установки пробовал ввести gem install wayback-machine-download
Выдаёт ошибку:
ERROR: Could not find a valid gem 'wayback-machine-download' (>= 0) in any repository
ERROR: Possible alternatives: wayback_machine_downloader, apache_secure_download, state_machine-mongoid, static_image_download

Правильно ли я понимаю, что нужно устанавливать командой gem install wayback_machine_downloader?

Работаю на ВДС, Центос
 Павел #2
@Иван это скрипт на php. Для ruby попробуйте https://github.com/hartator/wayback-machine-downloader
Артем #3
Добрый день!
Ваш скрипт может выкачать только определенный список URL?
Павел #4
@Артем указав урл конкретной страницы, можно выкачать именно эту страницу и соответствующие документы с неё
Денис #5
Спасибо. Очень помогли. Будет здорово если можно будет задавать верхний предел по дате.
Alexandru #6
Где выполнить php команду не могу понять?


Ваш комментарий
(обязательно)
(не показывается)
(HTML не работает)
© 2013-2024