Skip to main content
PDF Metadata Extractor — tool Python otomasi rename PDF dari Google Drive ke Google Sheets

PDF Metadata Extractor

Completed
Google Sheets

Ringkasan Project

PDF Metadata Extractor adalah tool Python yang dibuat oleh SASHINDO PROJECT untuk mengotomasi proses ekstraksi metadata dari file PDF yang tersimpan di Google Drive. Tool ini membaca metadata langsung dari file PDF (judul, penulis, tanggal), mengambil data bibliografi dari CrossRef API berdasarkan DOI yang ditemukan, lalu merename file secara otomatis dan mencatat seluruh hasilnya ke Google Sheets.

Project ini lahir dari kebutuhan nyata: mengelola ratusan file PDF akademik yang namanya tidak informatif. Rename manual satu per satu bukan pilihan — butuh waktu berjam-jam dan rawan salah.

Fitur Utama

  • Koneksi langsung ke Google Drive API untuk baca dan proses PDF tanpa download manual
  • Ekstraksi DOI dari metadata PDF maupun teks konten (3 halaman pertama)
  • Lookup otomatis ke CrossRef API untuk mengambil judul resmi, nama penulis, jurnal, tahun terbit, volume, dan publisher
  • Rename file di Google Drive berdasarkan judul CrossRef (prioritas pertama) atau judul dari metadata PDF
  • Ekspor seluruh hasil ke Google Sheets dengan timestamp, status rename, dan link file
  • Mode preview — jalankan tanpa benar-benar merename untuk cek hasilnya dulu
  • Sanitasi nama file otomatis: hapus karakter tidak valid, batasi panjang nama

Teknologi

KomponenDetail
BahasaPython 3
Google APIDrive API v3, Sheets API v4
LibraryPyPDF2, gspread, google-auth, requests
Metadata SourceCrossRef REST API
OutputGoogle Sheets (auto-format header)

Alur Kerja

  1. Autentikasi OAuth2 ke Google (Drive + Sheets)
  2. Ambil daftar file PDF dari folder Google Drive yang ditentukan
  3. Untuk setiap PDF: download → ekstrak metadata → cari DOI → query CrossRef
  4. Tentukan nama file baru berdasarkan judul terbaik yang ditemukan
  5. Rename file di Drive (jika mode aktif)
  6. Tulis baris data ke Google Sheets dengan semua field metadata

Catatan Teknis

Tool ini menggunakan token.json dan credentials.json dari Google Cloud Console. Scope yang dibutuhkan: drive (full) dan spreadsheets. File token.json dibuat otomatis setelah autentikasi pertama — tidak perlu login ulang di run berikutnya.