Proquest Downloader — Panduan Setup & Penggunaan

Pendahuluan

Proquest Downloader adalah script Python buatan SASHINDO PROJECT yang mengotomasi proses unduh PDF jurnal dari ProQuest.com. Script membuka browser Chromium, melakukan pencarian berdasarkan kata kunci yang kamu masukkan, lalu mengunduh setiap PDF yang ditemukan ke folder lokal — tanpa interaksi manual per jurnal.

Panduan ini mencakup seluruh proses dari nol: install Python, install Playwright, konfigurasi script, sampai script berjalan dan file PDF tersimpan di komputermu.

Persyaratan Sistem

Sebelum mulai, pastikan ini tersedia:

Python 3.8 ke atas (direkomendasikan Python 3.10+)
Koneksi internet aktif
Akun ProQuest yang valid dan aktif
Minimal 1 GB ruang disk bebas untuk folder unduhan
Windows 10/11, macOS, atau Linux

Bagian 1 — Install Python

Download Python

Buka python.org/downloads dan download versi terbaru Python 3. Pilih installer sesuai sistem:

Windows → pilih Windows installer (64-bit)
macOS → pilih macOS installer

Install di Windows

Jalankan file installer
Wajib: centang opsi “Add Python to PATH” sebelum klik Install Now
Klik Install Now dan tunggu selesai

Verifikasi Instalasi

Buka Command Prompt (Win + R → ketik cmd → Enter):

python --version

Kalau muncul Python 3.x.x — instalasi berhasil. Cek juga pip:

pip --version

Bagian 2 — Install Library yang Dibutuhkan

Proquest Downloader membutuhkan dua library Python:

Library	Fungsi
`playwright`	Mengontrol browser Chromium untuk navigasi dan interaksi halaman
`requests`	Mengunduh file PDF dari URL yang ditangkap sesi browser

Install keduanya sekaligus:

pip install playwright requests

Install Browser Chromium

Setelah Playwright terinstall, jalankan perintah ini untuk download browser Chromium:

playwright install chromium

Proses ini download sekitar 150 MB. Tunggu sampai selesai. Ini hanya perlu dilakukan sekali.

Bagian 3 — Menyiapkan Virtual Environment (Opsional)

Virtual environment mengisolasi library project ini dari project Python lain di komputermu. Direkomendasikan tapi tidak wajib.

Buat virtual environment di folder project:

python -m venv venv

Aktifkan:

# Windows
venv\Scripts\activate

# macOS / Linux
source venv/bin/activate

Setelah aktif, prompt terminal berubah jadi (venv) .... Install library di dalam environment ini:

pip install playwright requests
playwright install chromium

Bagian 4 — Konfigurasi Script

Buka file proquest_downloader.py dengan teks editor (Notepad, VS Code, dll). Cari bagian # Configuration di awal script:

# Configuration
BASE_URL = "https://www.proquest.com/"
DOWNLOAD_DIR = "downloads"
MAX_PAGES = 5
DELAY_BETWEEN_DOWNLOADS = 5

Penjelasan Tiap Parameter

BASE_URL
URL halaman utama ProQuest. Tidak perlu diubah kecuali ada perubahan domain dari ProQuest.

DOWNLOAD_DIR
Nama folder tempat PDF disimpan. Dibuat otomatis di lokasi yang sama dengan script kalau belum ada. Bisa diganti ke path absolut:

DOWNLOAD_DIR = r"D:\Jurnal\ProQuest"

MAX_PAGES
Jumlah halaman hasil pencarian yang diproses. Setiap halaman biasanya berisi 10–15 jurnal. Mulai dengan 2 untuk test awal:

MAX_PAGES = 2  # Test dulu dengan 2 halaman

Naikkan ke 5, 10, atau lebih setelah yakin script berjalan stabil di sistemmu.

DELAY_BETWEEN_DOWNLOADS
Jeda dalam detik antara setiap PDF yang diunduh. Default 5 detik — jangan kurangi terlalu drastis untuk menghindari rate limiting dari server ProQuest.

Bagian 5 — Menjalankan Script

Letakkan File Script

Simpan proquest_downloader.py di folder yang mudah diakses, misalnya:

D:\proquest-downloader\
└── proquest_downloader.py

Folder downloads\ akan dibuat otomatis di lokasi yang sama saat script pertama kali dijalankan.

Buka Terminal di Folder Script

Windows:

Buka File Explorer, navigasi ke folder script
Klik address bar, ketik cmd, tekan Enter — terminal terbuka langsung di folder tersebut

Atau dari Command Prompt biasa:

cd D:\proquest-downloader

Jalankan Script

python proquest_downloader.py

Input Kata Kunci

Script akan menampilkan prompt:

==========
Masukkan KATA KUNCI pencarian:

Ketik kata kunci pencarian jurnal yang kamu inginkan, lalu tekan Enter. Contoh:

Masukkan KATA KUNCI pencarian: machine learning healthcare

Bagian 6 — Proses yang Terjadi

Setelah kata kunci dimasukkan, script berjalan otomatis:

Membuka ProQuest...
Mencari 'machine learning healthcare'...

--- Halaman 1 ---
Ada 15 judul.
[1] Proses: Machine Learning Applications in Clinical Decision...
    URL PDF: https://www.proquest.com/docview/12345...
    Selesai.
[2] Skip (ada): Deep Learning for Radiology Image Classificatio...
[3] Proses: Neural Networks in Predictive Healthcare Analytics...
    URL PDF: https://www.proquest.com/docview/67890...
    Selesai.

Arti status:

Proses: — sedang mengunduh PDF ini
Skip (ada): — file dengan nama ini sudah ada di folder downloads, dilewati
Gagal menemukan tombol download. — jurnal ini tidak punya link PDF yang bisa diakses (mungkin restricted)
Gagal (Status: 403) — URL PDF ditemukan tapi akses ditolak server

Di akhir semua halaman:

Semua proses selesai.

Browser ditutup otomatis dan semua PDF tersimpan di folder downloads\.

Bagian 7 — Mode Manual (Fallback)

Kadang ProQuest mengubah struktur HTML atau selector kotak pencarian, sehingga script tidak bisa mengisi form otomatis. Kalau itu terjadi, script menampilkan:

Silakan cari manual, lalu tekan ENTER jika sudah muncul DAFTAR JURNAL...

Dalam kondisi ini:

Browser sudah terbuka dan menampilkan halaman ProQuest
Kamu lakukan pencarian manual di browser
Tunggu sampai daftar jurnal muncul di halaman
Kembali ke terminal, tekan Enter

Proses otomatis (klik jurnal, download PDF, navigasi halaman) tetap berjalan seperti biasa — hanya langkah pencarian awal yang manual.

Bagian 8 — Hasil di Folder Downloads

Semua PDF tersimpan di folder downloads\ (atau sesuai DOWNLOAD_DIR yang dikonfigurasi). Nama file diambil dari judul jurnal:

downloads\
├── Machine Learning Applications in Clinical Decision Making.pdf
├── Neural Networks in Predictive Healthcare Analytics.pdf
├── Comparative Study of ML Algorithms for Patient Outcome.pdf
└── ...

Nama file dibersihkan dari karakter tidak valid (\ / * ? : " < > |) dan dipotong maksimal 110 karakter untuk kompatibilitas dengan sistem file Windows.

Bagian 9 — Lanjutkan ke PDF Metadata Extractor

Setelah PDF terkumpul, kamu bisa melanjutkan dengan PDF Metadata Extractor — tool pendamping yang membaca metadata setiap PDF, query CrossRef API untuk data bibliografi lengkap, dan ekspor seluruh informasi (judul, penulis, DOI, jurnal, tahun) ke Google Sheets.

Kombinasi keduanya membentuk pipeline riset yang lengkap:

Proquest Downloader → kumpulkan PDF
PDF Metadata Extractor → ekstrak metadata + ekspor ke Sheets

Troubleshooting

Error: `ModuleNotFoundError: No module named 'playwright'`

Library belum terinstall. Jalankan:

pip install playwright requests
playwright install chromium

Error: `playwright._impl._errors.TimeoutError`

Browser Chromium tidak bisa menemukan elemen di halaman dalam waktu yang ditentukan. Kemungkinan penyebab:

Koneksi internet lambat — ProQuest belum selesai load
ProQuest mengubah struktur halaman — selector perlu diupdate
Sesi login ProQuest sudah expired — login ulang manual di browser yang terbuka

PDF Tidak Terdownload (Status 403)

Jurnal yang dimaksud memerlukan akses premium atau institutional yang tidak dimiliki akun ProQuest saat ini. Script akan mencatat “Gagal” dan lanjut ke jurnal berikutnya.

Browser Tidak Terbuka

Pastikan Playwright Chromium sudah terinstall:

playwright install chromium

Kalau masih gagal, coba jalankan dari Command Prompt biasa (bukan PowerShell atau terminal IDE).

Script Berhenti di Tengah Jalan

File yang sudah berhasil diunduh tetap tersimpan dan aman. Jalankan ulang script dengan kata kunci yang sama — file yang sudah ada akan di-skip otomatis, dan script melanjutkan dari jurnal yang belum diunduh.

Referensi Cepat

# Install library
pip install playwright requests

# Install browser
playwright install chromium

# Jalankan script
python proquest_downloader.py

# Cek Python terinstall
python --version

# Cek library terinstall
pip list

Dikembangkan oleh SASHINDO PROJECT — sashindo.web.id