Question 1

Quels types d'URLs l'extracteur détecte-t-il ?

Accepted Answer

L'extracteur détecte les URLs HTTP et HTTPS standard, les URLs avec sous-domaines, les paramètres de requête et les fragments (#). Il détecte aussi les URLs dans les attributs HTML (href, src, action). Les URLs relatives (/page, ../image.jpg) peuvent ne pas être détectées sans contexte du domaine de base.

Question 2

Peut-il extraire des URLs depuis des images ou des PDFs scannés ?

Accepted Answer

Non directement — l'outil traite uniquement du texte brut et du code HTML. Pour les PDFs, extrayez d'abord le texte avec un outil OCR ou le visualiseur PDF d'Adobe Acrobat ou Google Drive, puis collez le texte ici.

Question 3

L'extracteur supprime-t-il les URLs dupliquées ?

Accepted Answer

Oui — l'extracteur peut éliminer les URLs dupliquées pour retourner une liste unique. Cette option est utile quand le même lien apparaît plusieurs fois sur une page (menu de navigation, pied de page, corps de l'article) et que vous n'avez besoin que de la liste unique des destinations.

Question 4

Peut-il extraire des URLs depuis des emails ?

Accepted Answer

Oui — collez le contenu textuel de l'email (pas le fichier .eml) et l'extracteur détectera toutes les URLs. Les clients de messagerie masquent souvent les vraies URLs derrière du texte lié — pour voir les URLs réelles, accédez au code source HTML de l'email dans votre client.

Question 5

Quelle est la différence entre URL, URI et lien ?

Accepted Answer

URI (Uniform Resource Identifier) est le terme général pour tout identifiant de ressource. URL (Uniform Resource Locator) est un type d'URI incluant la localisation (http://..., ftp://...). Un lien ou hyperlien est du texte ou une image cliquable en HTML pointant vers une URL. Dans l'usage courant, les trois termes sont utilisés de façon interchangeable.

Extracteur d'URL

Comment utiliser Extracteur d'URL

À quoi sert un extracteur d'URLs ?

Frequently Asked Questions

Extracteur navigateur vs grep vs Beautiful Soup