Tips : Ekstrak URL dari File HTML
Beberapa waktu yang lalu Zimbra versi 7 dirilis untuk public dan saya ingin mendownloadnya ke server IIX agar bisa dengan cepat dan mudah didownload oleh rekan-rekan yang memerlukan. Sayangnya, Zimbra tidak menyediakan fasilitas rsync atau sejenisnya sehingga saya harus mendownload binarynya satu per satu dari alamat http://www.zimbra.com/downloads/os-downloads.html.
Melakukan copy-paste link satu per satu tentu bukan pilihan yang menarik karena ada puluhan link yang ada disana, padahal yang saya perlukan hanya akses ke link download Zimbra 7 saja.
Setelah browsing beberapa saat, saya menemukan script yang cukup brilian, hanya cukup 1 baris perintah untuk mengekstrak informasi link sesuai dengan parameter yang diperlukan. Berikut adalah caranya :
- Simpan halaman yang ingin diekstrak, dalam hal ini halaman http://www.zimbra.com/downloads/os-downloads.html
- Ketikkan perintah berikut ini :
sed -rn 's|.*(http://files2[^"]*).*||p' zimbra-download.html > daftar-url.sh
Perintah diatas akan membaca file zimbra-download.html dan mengekstrak semua link yang berawalan “http://files2” dan memasukkan linknya ke file teks daftar-url.sh. File daftar-url.txt ini bisa saya edit dan menambahkan perintah wget -c (find & replace http menjadi wget -c http). Sebenarnya bisa juga memodifikasi script agar hasil sed sudah menyertakan perintah wget -c. File sh yang dihasilkan bisa digunakan untuk melakukan download semua file binary Zimbra.
Sederhana sekali namun hasilnya mantabs ๐
kalau punya file berisi daftar url, pake wget -i daftar.txt biar wget ngedownload semua url yg tertulis di dalamnya. ngga perlu satu2 ditambahin wget dan dijadikan script segala ๐
@Iang, thanks buat tambahannya, sarannya mempercepat ke tujuan.