Question 1

Jakie typy URL wykrywa ekstraktor?

Accepted Answer

Standardowe adresy HTTP i HTTPS, URL z subdomenami, z parametrami zapytania i fragmentami (#). URL w atrybutach HTML (href, src, action) są też wykrywane. Względne URL (/strona, ../obraz.jpg) mogą nie być wykrywane bez kontekstu domeny bazowej.

Question 2

Czy można wyodrębnić URL z obrazów lub skanowanych PDF?

Accepted Answer

Nie — narzędzie przetwarza tylko zwykły tekst i HTML. Obrazy i skanowane PDF muszą być najpierw przetworzone przez OCR do tekstu.

Question 3

Czy ekstraktor usuwa zduplikowane URL?

Accepted Answer

Tak — ekstraktor może usuwać zduplikowane URL, dostarczając unikalną listę. Przydatne gdy ten sam link pojawia się kilka razy na stronie (menu nawigacji, stopka, treść artykułu).

Question 4

Czy można wyodrębnić URL z emaila?

Accepted Answer

Tak — wklej treść tekstową emaila (nie plik .eml), a ekstraktor wykryje wszystkie URL. Klienty pocztowe często ukrywają właściwy URL za tekstem linku — sprawdź źródło HTML emaila, żeby wyodrębnić rzeczywiste adresy.

Question 5

Jaka jest różnica między URL, URI a linkiem?

Accepted Answer

URI (Uniform Resource Identifier) to ogólny termin dla identyfikatorów zasobów. URL (Uniform Resource Locator) to typ URI zawierający lokalizację (http://...). Link lub hiperlink to klikalny tekst lub obraz w HTML wskazujący na URL. W codziennym użyciu wszystkie trzy używane są zamiennie.

Ekstraktor URL

Jak używać Ekstraktor URL

Do czego służy ekstraktor URL?

Przeglądarkowy ekstraktor vs grep vs skrypt Python