PDF Metadata Extractor

Ringkasan Project

PDF Metadata Extractor adalah tool Python yang dibuat oleh SASHINDO PROJECT untuk mengotomasi proses ekstraksi metadata dari file PDF yang tersimpan di Google Drive. Tool ini membaca metadata langsung dari file PDF (judul, penulis, tanggal), mengambil data bibliografi dari CrossRef API berdasarkan DOI yang ditemukan, lalu merename file secara otomatis dan mencatat seluruh hasilnya ke Google Sheets.

Project ini lahir dari kebutuhan nyata: mengelola ratusan file PDF akademik yang namanya tidak informatif. Rename manual satu per satu bukan pilihan — butuh waktu berjam-jam dan rawan salah.

Fitur Utama

Koneksi langsung ke Google Drive API untuk baca dan proses PDF tanpa download manual
Ekstraksi DOI dari metadata PDF maupun teks konten (3 halaman pertama)
Lookup otomatis ke CrossRef API untuk mengambil judul resmi, nama penulis, jurnal, tahun terbit, volume, dan publisher
Rename file di Google Drive berdasarkan judul CrossRef (prioritas pertama) atau judul dari metadata PDF
Ekspor seluruh hasil ke Google Sheets dengan timestamp, status rename, dan link file
Mode preview — jalankan tanpa benar-benar merename untuk cek hasilnya dulu
Sanitasi nama file otomatis: hapus karakter tidak valid, batasi panjang nama

Teknologi

Komponen	Detail
Bahasa	Python 3
Google API	Drive API v3, Sheets API v4
Library	PyPDF2, gspread, google-auth, requests
Metadata Source	CrossRef REST API
Output	Google Sheets (auto-format header)

Alur Kerja

Autentikasi OAuth2 ke Google (Drive + Sheets)
Ambil daftar file PDF dari folder Google Drive yang ditentukan
Untuk setiap PDF: download → ekstrak metadata → cari DOI → query CrossRef
Tentukan nama file baru berdasarkan judul terbaik yang ditemukan
Rename file di Drive (jika mode aktif)
Tulis baris data ke Google Sheets dengan semua field metadata

Catatan Teknis

Tool ini menggunakan token.json dan credentials.json dari Google Cloud Console. Scope yang dibutuhkan: drive (full) dan spreadsheets. File token.json dibuat otomatis setelah autentikasi pertama — tidak perlu login ulang di run berikutnya.

Ringkasan Project

Fitur Utama

Teknologi

Alur Kerja

Catatan Teknis

Command Palette

Choose Theme