Question 1

Welche URL-Typen erkennt der Extraktor?

Accepted Answer

Der Extraktor erkennt standardmäßige HTTP- und HTTPS-URLs, URLs mit Subdomains, Query-Parametern und Fragmenten (#). Er erkennt auch URLs in HTML-Attributen (href, src, action). Relative URLs (/seite, ../bild.jpg) werden möglicherweise ohne Kontext der Basis-Domain nicht erkannt.

Question 2

Kann er URLs aus Bildern oder gescannten PDFs extrahieren?

Accepted Answer

Nein — dieses Tool verarbeitet nur Klartext und HTML-Code. Bilder und gescannte PDFs erfordern zunächst OCR (Optische Zeichenerkennung). Adobe Acrobat, Google Drive oder Online-OCR-Dienste können Text aus Bildern extrahieren.

Question 3

Entfernt der Extraktor doppelte URLs?

Accepted Answer

Ja — der Extraktor kann doppelte URLs eliminieren, um eine eindeutige Liste zurückzugeben. Diese Option ist nützlich, wenn derselbe Link mehrfach auf einer Seite erscheint (Navigationsmenü, Fußzeile, Artikeltext) und Sie nur die eindeutige Liste der Ziele benötigen.

Question 4

Kann er URLs aus E-Mails extrahieren?

Accepted Answer

Ja — fügen Sie den Textinhalt der E-Mail (nicht die .eml-Datei) ein, und der Extraktor erkennt alle URLs. E-Mail-Clients verbergen häufig echte URLs hinter verknüpftem Text — um echte URLs zu sehen, greifen Sie auf den HTML-Quellcode der E-Mail in Ihrem Client zu.

Question 5

Was ist der Unterschied zwischen URL, URI und Link?

Accepted Answer

URI (Uniform Resource Identifier) ist der allgemeine Begriff für jede Ressourcenkennung. URL (Uniform Resource Locator) ist ein URI-Typ, der den Standort einschließt (http://..., ftp://...). Ein Link oder Hyperlink ist anklickbarer Text oder ein Bild in HTML, das auf eine URL zeigt. Im täglichen Gebrauch werden die drei Begriffe austauschbar verwendet.

URL-Extraktor

Wie man URL-Extraktor benutzt

Wofür wird ein URL-Extraktor verwendet?

Frequently Asked Questions

Browser-Extraktor vs. grep vs. Python-Skript