Extractor de URLs
Extrae URLs de cualquier texto o HTML
Cómo usar Extractor de URLs
Extrae todas las URLs e hipervínculos de cualquier texto o código HTML. Elimina duplicados. Extractor de URLs gratuito.
¿Para qué sirve un extractor de URLs?
Extraer todas las URLs de un texto o documento HTML manualmente es una tarea tediosa y propensa a errores. Un extractor automatizado lo hace al instante con precisión total.
- Auditorías SEO: Extrae todos los enlaces internos y externos de una página para analizar la estructura de enlaces, detectar enlaces rotos o mapear la arquitectura de información del sitio.
- Análisis de código fuente: Extrae todas las URLs del código fuente HTML de una página —útil para encontrar recursos externos (CDN, APIs, scripts de terceros) o verificar que todos los recursos se cargan desde el dominio correcto (seguridad CSP).
- Creación de listas de recursos: Extrae URLs de documentos de investigación, artículos o notas para crear listas de referencias o bibliografías.
- Monitorización de enlaces: Extrae todos los enlaces de una newsletter, documento o página para comprobar sistemáticamente que cada URL sigue siendo válida y redirige correctamente.
- Scraping y automatización: Como paso previo a la automatización —extrae las URLs a procesar antes de pasarlas a un script o herramienta de scraping.
Nota de privacidad: Asegúrate de tener permiso para extraer y usar las URLs de las páginas que analices. Algunos sitios web prohíben el scraping en sus términos de servicio.
Frequently Asked Questions
¿Qué tipos de URLs detecta el extractor?
El extractor detecta URLs HTTP y HTTPS estándar, URLs con subdominios, parámetros de consulta y fragmentos. También detecta URLs en atributos HTML (href, src, action). Las URLs relativas (/pagina, ../imagen.jpg) pueden no detectarse sin contexto del dominio base.
¿Puede extraer URLs de imágenes o PDFs?
No directamente —la herramienta procesa texto plano y código HTML. Para PDFs, primero extrae el texto con una herramienta OCR o el propio visor de PDFs, luego pega el texto aquí. Para imágenes con texto, necesitas OCR primero.
¿Elimina el extractor las URLs duplicadas?
Sí —el extractor puede eliminar las URL duplicadas para devolver una lista única. Esta opción es útil cuando el mismo enlace aparece varias veces en una página (menú de navegación, pie de página, cuerpo del artículo) y solo necesitas la lista única de destinos.
¿Puede extraer URLs de emails?
Sí —pega el contenido de texto del correo (no el archivo .eml) y el extractor detectará todas las URLs. Los clientes de correo suelen ocultar las URLs reales detrás de texto enlazado —para ver las URLs reales, ve al código fuente HTML del correo.
¿Cuál es la diferencia entre URL, URI y enlace?
URI (Uniform Resource Identifier) es el término general para cualquier identificador de recurso. URL (Uniform Resource Locator) es un tipo de URI que incluye la ubicación (http://..., ftp://...). Un enlace o hipervínculo es texto o imagen clicable en HTML que apunta a una URL. En el uso cotidiano, los tres términos se usan indistintamente.
Extractor de URLs en navegador vs grep vs Beautiful Soup
grep en la línea de comandos puede extraer URLs con un patrón regex, pero requiere acceso a terminal y conocimiento del comando. Beautiful Soup (Python) es la herramienta más potente para el scraping web estructurado —extrae URLs con selección CSS/XPath y gestiona HTML malformado. Un extractor en navegador como este es el más rápido para texto pegado sin configuración —ideal para verificaciones puntuales. Para scraping automatizado de muchas páginas, Beautiful Soup o Scrapy son más apropiados.