Proquest Downloader — Panduan Setup & Penggunaan
Pendahuluan
Proquest Downloader adalah script Python buatan SASHINDO PROJECT yang mengotomasi proses unduh PDF jurnal dari ProQuest.com. Script membuka browser Chromium, melakukan pencarian berdasarkan kata kunci yang kamu masukkan, lalu mengunduh setiap PDF yang ditemukan ke folder lokal — tanpa interaksi manual per jurnal.
Panduan ini mencakup seluruh proses dari nol: install Python, install Playwright, konfigurasi script, sampai script berjalan dan file PDF tersimpan di komputermu.
Persyaratan Sistem
Sebelum mulai, pastikan ini tersedia:
- Python 3.8 ke atas (direkomendasikan Python 3.10+)
- Koneksi internet aktif
- Akun ProQuest yang valid dan aktif
- Minimal 1 GB ruang disk bebas untuk folder unduhan
- Windows 10/11, macOS, atau Linux
Bagian 1 — Install Python
Download Python
Buka python.org/downloads dan download versi terbaru Python 3. Pilih installer sesuai sistem:
- Windows → pilih
Windows installer (64-bit) - macOS → pilih
macOS installer
Install di Windows
- Jalankan file installer
- Wajib: centang opsi “Add Python to PATH” sebelum klik Install Now
- Klik Install Now dan tunggu selesai
Verifikasi Instalasi
Buka Command Prompt (Win + R → ketik cmd → Enter):
python --version
Kalau muncul Python 3.x.x — instalasi berhasil. Cek juga pip:
pip --version
Bagian 2 — Install Library yang Dibutuhkan
Proquest Downloader membutuhkan dua library Python:
| Library | Fungsi |
|---|---|
playwright | Mengontrol browser Chromium untuk navigasi dan interaksi halaman |
requests | Mengunduh file PDF dari URL yang ditangkap sesi browser |
Install keduanya sekaligus:
pip install playwright requests
Install Browser Chromium
Setelah Playwright terinstall, jalankan perintah ini untuk download browser Chromium:
playwright install chromium
Proses ini download sekitar 150 MB. Tunggu sampai selesai. Ini hanya perlu dilakukan sekali.
Bagian 3 — Menyiapkan Virtual Environment (Opsional)
Virtual environment mengisolasi library project ini dari project Python lain di komputermu. Direkomendasikan tapi tidak wajib.
Buat virtual environment di folder project:
python -m venv venv
Aktifkan:
# Windows
venv\Scripts\activate
# macOS / Linux
source venv/bin/activate
Setelah aktif, prompt terminal berubah jadi (venv) .... Install library di dalam environment ini:
pip install playwright requests
playwright install chromium
Bagian 4 — Konfigurasi Script
Buka file proquest_downloader.py dengan teks editor (Notepad, VS Code, dll). Cari bagian # Configuration di awal script:
# Configuration
BASE_URL = "https://www.proquest.com/"
DOWNLOAD_DIR = "downloads"
MAX_PAGES = 5
DELAY_BETWEEN_DOWNLOADS = 5
Penjelasan Tiap Parameter
BASE_URL
URL halaman utama ProQuest. Tidak perlu diubah kecuali ada perubahan domain dari ProQuest.
DOWNLOAD_DIR
Nama folder tempat PDF disimpan. Dibuat otomatis di lokasi yang sama dengan script kalau belum ada. Bisa diganti ke path absolut:
DOWNLOAD_DIR = r"D:\Jurnal\ProQuest"
MAX_PAGES
Jumlah halaman hasil pencarian yang diproses. Setiap halaman biasanya berisi 10–15 jurnal. Mulai dengan 2 untuk test awal:
MAX_PAGES = 2 # Test dulu dengan 2 halaman
Naikkan ke 5, 10, atau lebih setelah yakin script berjalan stabil di sistemmu.
DELAY_BETWEEN_DOWNLOADS
Jeda dalam detik antara setiap PDF yang diunduh. Default 5 detik — jangan kurangi terlalu drastis untuk menghindari rate limiting dari server ProQuest.
Bagian 5 — Menjalankan Script
Letakkan File Script
Simpan proquest_downloader.py di folder yang mudah diakses, misalnya:
D:\proquest-downloader\
└── proquest_downloader.py
Folder downloads\ akan dibuat otomatis di lokasi yang sama saat script pertama kali dijalankan.
Buka Terminal di Folder Script
Windows:
- Buka File Explorer, navigasi ke folder script
- Klik address bar, ketik
cmd, tekan Enter — terminal terbuka langsung di folder tersebut
Atau dari Command Prompt biasa:
cd D:\proquest-downloader
Jalankan Script
python proquest_downloader.py
Input Kata Kunci
Script akan menampilkan prompt:
==========
Masukkan KATA KUNCI pencarian:
Ketik kata kunci pencarian jurnal yang kamu inginkan, lalu tekan Enter. Contoh:
Masukkan KATA KUNCI pencarian: machine learning healthcare
Bagian 6 — Proses yang Terjadi
Setelah kata kunci dimasukkan, script berjalan otomatis:
Membuka ProQuest...
Mencari 'machine learning healthcare'...
--- Halaman 1 ---
Ada 15 judul.
[1] Proses: Machine Learning Applications in Clinical Decision...
URL PDF: https://www.proquest.com/docview/12345...
Selesai.
[2] Skip (ada): Deep Learning for Radiology Image Classificatio...
[3] Proses: Neural Networks in Predictive Healthcare Analytics...
URL PDF: https://www.proquest.com/docview/67890...
Selesai.
Arti status:
Proses:— sedang mengunduh PDF iniSkip (ada):— file dengan nama ini sudah ada di folder downloads, dilewatiGagal menemukan tombol download.— jurnal ini tidak punya link PDF yang bisa diakses (mungkin restricted)Gagal (Status: 403)— URL PDF ditemukan tapi akses ditolak server
Di akhir semua halaman:
Semua proses selesai.
Browser ditutup otomatis dan semua PDF tersimpan di folder downloads\.
Bagian 7 — Mode Manual (Fallback)
Kadang ProQuest mengubah struktur HTML atau selector kotak pencarian, sehingga script tidak bisa mengisi form otomatis. Kalau itu terjadi, script menampilkan:
Silakan cari manual, lalu tekan ENTER jika sudah muncul DAFTAR JURNAL...
Dalam kondisi ini:
- Browser sudah terbuka dan menampilkan halaman ProQuest
- Kamu lakukan pencarian manual di browser
- Tunggu sampai daftar jurnal muncul di halaman
- Kembali ke terminal, tekan Enter
Proses otomatis (klik jurnal, download PDF, navigasi halaman) tetap berjalan seperti biasa — hanya langkah pencarian awal yang manual.
Bagian 8 — Hasil di Folder Downloads
Semua PDF tersimpan di folder downloads\ (atau sesuai DOWNLOAD_DIR yang dikonfigurasi). Nama file diambil dari judul jurnal:
downloads\
├── Machine Learning Applications in Clinical Decision Making.pdf
├── Neural Networks in Predictive Healthcare Analytics.pdf
├── Comparative Study of ML Algorithms for Patient Outcome.pdf
└── ...
Nama file dibersihkan dari karakter tidak valid (\ / * ? : " < > |) dan dipotong maksimal 110 karakter untuk kompatibilitas dengan sistem file Windows.
Bagian 9 — Lanjutkan ke PDF Metadata Extractor
Setelah PDF terkumpul, kamu bisa melanjutkan dengan PDF Metadata Extractor — tool pendamping yang membaca metadata setiap PDF, query CrossRef API untuk data bibliografi lengkap, dan ekspor seluruh informasi (judul, penulis, DOI, jurnal, tahun) ke Google Sheets.
Kombinasi keduanya membentuk pipeline riset yang lengkap:
Proquest Downloader → kumpulkan PDF
PDF Metadata Extractor → ekstrak metadata + ekspor ke Sheets
Troubleshooting
Error: ModuleNotFoundError: No module named 'playwright'
Library belum terinstall. Jalankan:
pip install playwright requests
playwright install chromium
Error: playwright._impl._errors.TimeoutError
Browser Chromium tidak bisa menemukan elemen di halaman dalam waktu yang ditentukan. Kemungkinan penyebab:
- Koneksi internet lambat — ProQuest belum selesai load
- ProQuest mengubah struktur halaman — selector perlu diupdate
- Sesi login ProQuest sudah expired — login ulang manual di browser yang terbuka
PDF Tidak Terdownload (Status 403)
Jurnal yang dimaksud memerlukan akses premium atau institutional yang tidak dimiliki akun ProQuest saat ini. Script akan mencatat “Gagal” dan lanjut ke jurnal berikutnya.
Browser Tidak Terbuka
Pastikan Playwright Chromium sudah terinstall:
playwright install chromium
Kalau masih gagal, coba jalankan dari Command Prompt biasa (bukan PowerShell atau terminal IDE).
Script Berhenti di Tengah Jalan
File yang sudah berhasil diunduh tetap tersimpan dan aman. Jalankan ulang script dengan kata kunci yang sama — file yang sudah ada akan di-skip otomatis, dan script melanjutkan dari jurnal yang belum diunduh.
Referensi Cepat
# Install library
pip install playwright requests
# Install browser
playwright install chromium
# Jalankan script
python proquest_downloader.py
# Cek Python terinstall
python --version
# Cek library terinstall
pip list
Dikembangkan oleh SASHINDO PROJECT — sashindo.web.id