Question 1

¿Qué tipos de URLs detecta el extractor?

Accepted Answer

El extractor detecta URLs HTTP y HTTPS estándar, URLs con subdominios, parámetros de consulta y fragmentos. También detecta URLs en atributos HTML (href, src, action). Las URLs relativas (/pagina, ../imagen.jpg) pueden no detectarse sin contexto del dominio base.

Question 2

¿Puede extraer URLs de imágenes o PDFs?

Accepted Answer

No directamente —la herramienta procesa texto plano y código HTML. Para PDFs, primero extrae el texto con una herramienta OCR o el propio visor de PDFs, luego pega el texto aquí. Para imágenes con texto, necesitas OCR primero.

Question 3

¿Elimina el extractor las URLs duplicadas?

Accepted Answer

Sí —el extractor puede eliminar las URL duplicadas para devolver una lista única. Esta opción es útil cuando el mismo enlace aparece varias veces en una página (menú de navegación, pie de página, cuerpo del artículo) y solo necesitas la lista única de destinos.

Question 4

¿Puede extraer URLs de emails?

Accepted Answer

Sí —pega el contenido de texto del correo (no el archivo .eml) y el extractor detectará todas las URLs. Los clientes de correo suelen ocultar las URLs reales detrás de texto enlazado —para ver las URLs reales, ve al código fuente HTML del correo.

Question 5

¿Cuál es la diferencia entre URL, URI y enlace?

Accepted Answer

URI (Uniform Resource Identifier) es el término general para cualquier identificador de recurso. URL (Uniform Resource Locator) es un tipo de URI que incluye la ubicación (http://..., ftp://...). Un enlace o hipervínculo es texto o imagen clicable en HTML que apunta a una URL. En el uso cotidiano, los tres términos se usan indistintamente.

Extractor de URLs

Cómo usar Extractor de URLs

¿Para qué sirve un extractor de URLs?

Frequently Asked Questions

Extractor de URLs en navegador vs grep vs Beautiful Soup