Pertanyaan Bagaimana saya bisa mengunduh seluruh situs web?


Bagaimana saya bisa mengunduh semua halaman dari situs web?

Platform apa pun baik-baik saja.


314


asal


Periksa serverfault.com/questions/45096/website-backup-and-download pada Server Fault. - Marko Carter
@tnorthcutt, saya juga terkejut. Jika saya tidak ingat dengan salah, jawaban Wget saya dulu adalah jawaban yang diterima, dan ini tampak seperti hal yang menetap. Meskipun saya tidak mengeluh - tiba-tiba saja perhatian yang diperbarui memberi saya lebih banyak daripada nilai reparasi. : P - Jonik
apakah kamu mencoba IDM? superuser.com/questions/14403/… posting saya terkubur. Apa yang Anda temukan hilang dalam IDM? - Lazer
@joe: Mungkin akan membantu jika Anda memberikan detail tentang fitur yang hilang ... - Ilari Kajaste
browse-offline.com dapat mengunduh pohon lengkap dari situs web sehingga Anda dapat ... menjelajahinya secara offline - Menelaos Vergis


Jawaban:


HTTRACK berfungsi seperti jagoan untuk menyalin konten seluruh situs. Alat ini bahkan dapat mengambil bagian yang diperlukan untuk membuat situs web dengan konten kode aktif bekerja offline. Saya kagum pada hal-hal yang dapat ditiru offline.

Program ini akan melakukan semua yang Anda butuhkan darinya.

Selamat berburu!


303



Telah menggunakan ini selama bertahun-tahun - sangat direkomendasikan. - Umber Ferrule
Anda juga dapat membatasi kecepatan pengunduhan sehingga Anda tidak menggunakan terlalu banyak bandwidth untuk merugikan orang lain. - Umber Ferrule
Apakah ini akan menyalin kode ASP yang sebenarnya yang berjalan di server? - Taptronic
@Optimal Solutions: Tidak, itu tidak mungkin. Anda akan membutuhkan akses ke server atau kode sumber untuk itu. - Sasha Chedygov
Setelah mencoba httrack dan wget untuk situs dengan otorisasi, saya harus bersandar pada wget. Tidak dapat membuat httrack berfungsi dalam kasus tersebut. - Leo


Wget adalah alat baris perintah klasik untuk tugas semacam ini. Muncul dengan sebagian besar sistem Unix / Linux, dan Anda bisa mendapatkannya untuk Windows terlalu. Di Mac, Homebrew adalah cara termudah untuk menginstalnya (brew install wget).

Anda akan melakukan sesuatu seperti:

wget -r --no-parent http://site.com/songs/

Untuk lebih jelasnya, lihat Wget Manual dan itu contoh, atau mis. ini:


240



Tidak ada jawaban yang lebih baik dari ini - wget dapat melakukan apa saja: 3 - Phoshi
+1 untuk menyertakan --no-induk. pasti menggunakan --mirror, bukan -r. dan Anda mungkin ingin menyertakan -L / - relatif untuk tidak mengikuti tautan ke server lain. - quack quixote
Seperti yang saya juga minta httrack.com - apakah alat cmd line ini mendapatkan ASP kode atau apakah itu hanya mendapatkan render dari HTML? Aku harus mencoba ini. Ini bisa sedikit mengkhawatirkan bagi para pengembang jika ... - Taptronic
@optimal, output HTML tentu saja - itu akan mendapatkan kode hanya jika server benar-benar salah konfigurasi - Jonik
sayangnya itu tidak bekerja untuk saya - ada masalah dengan link ke file css, mereka tidak berubah menjadi relatif yaitu, Anda dapat melihat sesuatu seperti ini di file: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> yang tidak berfungsi secara lokal dengan baik, kecuali ada waz untuk mengelabui firefox untuk berpikir bahwa dir tertentu adalah root. - gorn


Gunakan wget:

wget -m -p -E -k www.example.com

Opsi dijelaskan:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.

123



1 untuk memberikan penjelasan untuk opsi yang disarankan. (Meskipun saya tidak berpikir --mirror sangat jelas. Ini dari halaman manual: "Opsi ini mengaktifkan rekursi dan pencatatan waktu, menetapkan kedalaman rekursi tak terbatas dan menyimpan daftar direktori FTP. Saat ini setara dengan -r -N-l inf --no-remove-listing") - Ilari Kajaste
Jika Anda tidak ingin mengunduh semuanya ke dalam folder dengan nama domain yang ingin Anda cerminkan, buat folder Anda sendiri dan gunakan opsi -nH (yang melompati bagian host). - Rafael Bugajewski
Bagaimana jika Auth diperlukan? - Val
Saya mencoba menggunakan Anda wget --mirror -p --html-extension --convert-links www.example.com dan itu hanya mengunduh indeks. Saya pikir Anda membutuhkan -r untuk mengunduh seluruh situs. - Eric Brotto
bagi mereka yang khawatir tentang membunuh situs karena lalu lintas / terlalu banyak permintaan, gunakan -w seconds(untuk menunggu sejumlah secconds antara permintaan, atau --limit-rate=amount, untuk menentukan bandwidth maksimum yang akan digunakan saat mengunduh - vlad-ardelean


Anda harus melihatnya ScrapBook, ekstensi Firefox. Ini memiliki sebuah mode pengambilan mendalam.

enter image description here


8



Tidak lagi kompatibel dengan Firefox setelah versi 57 (Quantum). - Yay295


Internet Download Manager memiliki utilitas Grabber Situs dengan banyak opsi - yang memungkinkan Anda sepenuhnya mengunduh situs web apa pun yang Anda inginkan, seperti yang Anda inginkan.

  1. Anda dapat mengatur batas ukuran halaman / file untuk diunduh

  2. Anda dapat mengatur jumlah situs cabang untuk dikunjungi

  3. Anda dapat mengubah cara skrip / popup / duplikat berperilaku

  4. Anda dapat menentukan domain, hanya di bawah domain itu semua halaman / file yang memenuhi pengaturan yang diperlukan akan diunduh

  5. Tautan dapat dikonversi menjadi tautan offline untuk penelusuran

  6. Anda memiliki template yang memungkinkan Anda memilih pengaturan di atas untuk Anda

enter image description here

Namun perangkat lunak ini tidak gratis - lihat apakah itu sesuai dengan kebutuhan Anda, gunakan versi evaluasi.


8





menyebalkan sekali - itulah nama programnya!


7





Saya akan mengatasi buffering online yang digunakan browser ...

Biasanya sebagian besar browser menggunakan cache penjelajahan untuk menyimpan file yang Anda unduh dari situs web untuk sedikit sehingga Anda tidak perlu mengunduh gambar statis dan konten secara berulang-ulang. Ini bisa mempercepat beberapa hal dalam situasi tertentu. Secara umum, kebanyakan cache browser terbatas pada ukuran tetap dan ketika menyentuh batas itu, itu akan menghapus file tertua di cache.

ISP cenderung memiliki server cache yang menyimpan salinan situs web yang diakses secara umum seperti ESPN dan CNN. Ini menyelamatkan mereka dari kesulitan memukul situs-situs ini setiap kali seseorang di jaringan mereka pergi ke sana. Hal ini dapat menghasilkan penghematan yang signifikan dalam jumlah permintaan yang digandakan ke situs eksternal ke ISP.


5





saya suka Penjelajah Offline.
Ini adalah shareware, tetapi sangat bagus dan mudah digunakan.


5





Saya belum melakukan ini selama bertahun-tahun, tetapi masih ada beberapa utilitas di luar sana. Anda mungkin ingin mencoba Ular Web. Saya percaya saya menggunakannya bertahun-tahun yang lalu. Saya ingat nama itu segera ketika saya membaca pertanyaan Anda.

Saya setuju dengan Stecy. Tolong jangan palu situs mereka. Sangat buruk.


5