Загрузка всех страниц сайта из sitemap.xml

Если у сайта есть карта в виде файла sitemap.xml, то все страницы, перечисленные в ней, можно загрузить с помощью комбинации нескольких консольных команд.

curl -s http://noteskeeper.ru/sitemap.xml | \
  grep '<loc>' | \
  sed 's/^.*\(http[^<]*\).*$/\1/' | \
  xargs curl >/dev/null -s
  1. Первой командой curl мы загружаем карту сайта.
  2. Затем находим в ней все теги <loc>, которые содержат адреса страниц, командой grep.
  3. Извлекаем URL из найденных тегов командой sed.
  4. Вызываем команду curl для каждой страницы.

В моём примере выполнение загрузки происходит «молчаливо» (ключ -s) и загруженные данные сразу же отправляются в /dev/null.