Tips : Ekstrak URL dari File HTML

Beberapa waktu yang lalu Zimbra versi 7 dirilis untuk public dan saya ingin mendownloadnya ke server IIX agar bisa dengan cepat dan mudah didownload oleh rekan-rekan yang memerlukan. Sayangnya, Zimbra tidak menyediakan fasilitas rsync atau sejenisnya sehingga saya harus mendownload binarynya satu per satu dari alamat http://www.zimbra.com/downloads/os-downloads.html.

Melakukan copy-paste link satu per satu tentu bukan pilihan yang menarik karena ada puluhan link yang ada disana, padahal yang saya perlukan hanya akses ke link download Zimbra 7 saja.

Setelah browsing beberapa saat, saya menemukan script yang cukup brilian, hanya cukup 1 baris perintah untuk mengekstrak informasi link sesuai dengan parameter yang diperlukan. Berikut adalah caranya :

  1. Simpan halaman yang ingin diekstrak, dalam hal ini halaman http://www.zimbra.com/downloads/os-downloads.html
  2. Ketikkan perintah berikut ini :
    sed -rn 's|.*(http://files2[^"]*).*|\1|p' zimbra-download.html > daftar-url.sh
    

Perintah diatas akan membaca file zimbra-download.html dan mengekstrak semua link yang berawalan “http://files2” dan memasukkan linknya ke file teks daftar-url.sh. File daftar-url.txt ini bisa saya edit dan menambahkan perintah wget -c (find & replace http menjadi wget -c http). Sebenarnya bisa juga memodifikasi script agar hasil sed sudah menyertakan perintah wget -c. File sh yang dihasilkan bisa digunakan untuk melakukan download semua file binary Zimbra.

Sederhana sekali namun hasilnya mantabs 😉

3 thoughts on “Tips : Ekstrak URL dari File HTML

  1. kalau punya file berisi daftar url, pake wget -i daftar.txt biar wget ngedownload semua url yg tertulis di dalamnya. ngga perlu satu2 ditambahin wget dan dijadikan script segala 🙂

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.