Blog / Scraping

Aspirer tous les pdf d'une page web

Comment télécharger facilement des milliers de documents PDF d'une page web sans effort

19 mars 2025 · 3 min read

Comment télécharger 2000PDF

⌛ 2 minutes sans compétence technique

(Étude de cas : Archives JFK 2025)

Imagine pouvoir récupérer des milliers de fichiers PDF en quelques clics, sans coder, sans être développeur, ni passer des heures à les télécharger un par un.

Aujourd'hui, je te partage deux méthodes ultra-simples et rapides pour récupérer instantanément tous les PDF d'une page web.

Et quoi de mieux pour illustrer ça que la récente mise en ligne des archives déclassifiées sur l’assassinat de JFK, rendues publiques le 18 mars 2025 ?

Fini les pertes de temps.

Découvre comment faire 👇

Méthode #1 : Script directement dans ton navigateur

Étape 1 : Ouvre la page contenant les PDF. Par exemple : Archives JFK 2025

Étape 2 : Ouvre la console JavaScript de ton navigateur :

Windows/Linux : Ctrl + Maj + J
Mac : Cmd + Option + J

Étape 3 : Copie/colle ce script dans la console puis appuie sur Entrée :

Array.from(document.querySelectorAll('a'))
  .map(a => a.href)
  .filter(href => href.endsWith('.pdf'))
  .forEach(link => {
    const a = document.createElement('a');
    a.href = link;
    a.download = link.split('/').pop();
    document.body.appendChild(a);
    a.click();
    document.body.removeChild(a);
  });

Et voilà, tous tes PDF se téléchargent instantanément ! 🎯

Méthode #2 : Automatisation avec Google Colab (gratuit)

Cette méthode stocke directement tous les PDF sur ton Google Drive.

Étape 1 : Va sur le Google Colab que je vous ai préparé.

Étape 2 : Tu cliques sur ▶️

Étape 3 : Tu accepte la connexion à on google drive pour sauvegarder tous les pdf dans le dossier /ColabPDF dans la racine de ton Google Drive

Étape 4 : Entre l'URL (exemple JFK ci-dessus) : https://www.archives.gov/research/jfk/release-2025

Étape 5 : Valide le téléchargement

Vous voulez le faire par vous même bravo ! Voici la marche à suivre pas à pas :

Étape 1 : Va sur Google Colab et crée un nouveau Notebook.

Étape 2 : Copie ce script Python dans une cellule Colab :

from google.colab import drive
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# Monter Google Drive
drive.mount('/content/drive')

# Dossier où enregistrer les PDF
drive_folder = '/content/drive/MyDrive/ColabPDF'
os.makedirs(drive_folder, exist_ok=True)

# URL contenant les PDF
url = input("🔗 Entre l'URL de la page web contenant les PDF : ")

# Scraping des PDF
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
pdf_links = [urljoin(url, a['href']) for a in soup.find_all('a', href=True) if a['href'].lower().endswith('.pdf')]

# Afficher les PDF détectés
print("\n📌 Liste des PDF détectés :")
for idx, pdf_url in enumerate(pdf_links, 1):
    print(f"{idx}. {pdf_url}")

# Nombre total détecté
print(f"\n📝 Nombre total de PDF détectés : {len(pdf_links)}")

# Confirmation utilisateur
confirm = input("\n✅ Veux-tu télécharger tous ces PDF sur ton Drive ? (oui/non) : ").strip().lower()

if confirm in ['oui', 'o', 'yes', 'y']:
    for pdf_url in pdf_links:
        pdf_name = pdf_url.split('/')[-1]
        pdf_path = os.path.join(drive_folder, pdf_name)

        print(f"Téléchargement : {pdf_name}...")
        pdf_content = requests.get(pdf_url).content

        with open(pdf_path, 'wb') as f:
            f.write(pdf_content)

    print("\n🎉 Téléchargement terminé ! Tous tes PDF sont dans ton Google Drive.")
else:
    print("\n❌ Téléchargement annulé.")

Étape 3 : Lance le script en cliquant sur ▶️, puis suis les instructions affichées :

Étape 4 : Tu accepte la connexion à on google drive pour sauvegarder tous les pdf dans le dossier /ColabPDF dans la racine de ton Google Drive Étape 5 : Entre l'URL (exemple JFK ci-dessus) : https://www.archives.gov/research/jfk/release-2025

Étape 6 : Valide le téléchargement

Et voilà, tes milliers de PDF sont automatiquement sauvegardés sur ton Drive ! 🚀

Résumé : Pourquoi utiliser ces méthodes ?

✅ Rapidité : 2 min au lieu de plusieurs heures.

✅ Facilité : Aucun prérequis technique nécessaire.

✅ Automatisation : Tout est téléchargé instantanément.

Utilise ces astuces pour récupérer rapidement les informations importantes, que ce soit pour des recherches historiques, universitaires, ou pour constituer rapidement une bibliothèque numérique.

Tu as tout en main pour devenir super efficace dès aujourd'hui ! 💪

À toi de jouer ! 😉