Guías/Solucionador de problemas de indexación

Archivos PDF no indexados en Google: cómo meter tus documentos en los resultados de búsqueda

Tus documentos PDF contienen contenido valioso pero Google no puede encontrarlos o no puede leerlos. Aprende los retos específicos de la indexación de PDFs y cuándo usar alternativas HTML en su lugar.

Actualizado: 1 abr 2026

En esta guía

Los archivos PDF son un formato de contenido significativo para muchas organizaciones. Los papers de investigación, whitepapers, catálogos de productos, manuales técnicos, documentos legales, formularios gubernamentales y materiales educativos se publican frecuentemente como PDFs. Google puede indexar archivos PDF y de hecho lo hace, tratándolos como páginas que pueden aparecer directamente en los resultados de búsqueda. Cuando un usuario hace clic en un resultado PDF en Google, se le lleva directamente al archivo PDF.

Sin embargo, la indexación de PDFs no es automática y se enfrenta a un conjunto único de retos que no aplican a las páginas web HTML. Muchos PDFs son esencialmente imágenes, creados escaneando documentos en papel sin reconocimiento óptico de caracteres, lo que significa que Google no puede leer ningún contenido textual. Los PDFs tienden a ser archivos mucho más grandes que las páginas HTML, ralentizando el rendimiento del rastreo. Los archivos PDF carecen de la rica infraestructura de metadatos de las páginas HTML, sin equivalente de las meta etiquetas description, las estructuras de encabezado o el marcado de structured data. Y los PDFs a menudo son archivos huérfanos en un directorio /docs/ o /downloads/ sin enlaces desde las páginas principales del sitio que apunten a ellos.

La cuestión de si indexar PDFs en absoluto merece la pena considerarse antes de optimizarlos. En muchos casos, convertir el contenido del PDF en páginas web HTML produce mejor visibilidad de búsqueda, mejor experiencia de usuario y mejor accesibilidad. Pero hay casos legítimos donde PDF es el formato apropiado, y en esos casos, una optimización adecuada es esencial para la indexación.

Esta guía cubre los retos técnicos y de contenido específicos para conseguir que los archivos PDF se indexen en Google, los pasos de optimización para hacer que los PDFs merezcan la indexación y orientación sobre cuándo las alternativas HTML son el mejor enfoque.

IndexBolt consigue que Google rastree tus URL en menos de 24 horas — sin envíos manuales, sin esperar semanas.

Cómo procesa e indexa Google los archivos PDF

Google trata los archivos PDF de forma diferente a las páginas HTML en cada fase del pipeline de indexación. Entender estas diferencias es esencial para diagnosticar por qué tus PDFs no están indexados.

Cuando Google rastrea un PDF, descarga el archivo entero. A diferencia de las páginas HTML donde Google puede parsear el contenido textual conforme entra en streaming, los PDFs deben descargarse por completo antes de que pueda empezar el procesamiento. Esto significa que los PDFs grandes (10MB, 50MB o más) consumen significativamente más recursos de rastreo que las páginas HTML. Google puede despriorizar la descarga de PDFs grandes cuando el ancho de banda de rastreo es limitado, llevando al estado "Descubierta: actualmente sin indexar".

Tras la descarga, Google extrae contenido textual del PDF. Para PDFs creados a partir de documentos digitales (exportados desde Word, InDesign o herramientas similares), la extracción de texto suele ser sencilla. La capa de texto está incrustada en el PDF y Google puede leerla directamente. Para PDFs creados escaneando documentos en papel, la situación es completamente diferente. Un PDF escaneado es esencialmente una serie de imágenes, y no hay capa de texto que Google pueda extraer. Sin reconocimiento óptico de caracteres (OCR), Google no puede leer ningún contenido en PDFs escaneados y los clasificará como sin contenido indexable.

Google también lee las propiedades de metadatos del PDF. Los archivos PDF tienen campos de metadatos integrados incluyendo Title, Author, Subject, Keywords y Description. Estas propiedades se establecen en la herramienta de creación de PDF y Google las usa para entender el tema del documento, similar a cómo funcionan las etiquetas title y meta description del HTML. La mayoría de los PDFs se publican con metadatos por defecto o vacíos, lo que es una oportunidad de optimización perdida.

Google genera un snippet de resultado de búsqueda para los PDFs indexados usando el contenido textual que extrajo. Dado que los PDFs no tienen etiquetas meta description HTML, Google selecciona el snippet del texto del cuerpo del PDF o de los metadatos. El resultado de búsqueda incluye una pequeña insignia "PDF" para indicar el tipo de archivo, y hacer clic en el resultado descarga o abre el PDF dependiendo de los ajustes del navegador del usuario.

De forma importante, Google no puede seguir enlaces dentro de PDFs con tanta fiabilidad como los enlaces dentro de las páginas HTML. Aunque Google puede detectar algunos hipervínculos en PDFs, los enlaces incrustados en el texto del PDF no siempre se reconocen, especialmente si no están formateados como hipervínculos clicables en el documento original. Esto significa que los PDFs son pobres vehículos para pasar link equity en comparación con las páginas HTML.

Resultado de búsqueda de Google mostrando un PDF con la etiqueta [PDF] — Google muestra una insignia PDF en los resultados de búsqueda para documentos PDF indexados

PDFs escaneados y el problema del OCR

La razón más común por la que un PDF no se indexa es que es un documento escaneado sin capa de texto. Cuando se escanea un documento en papel para crear un PDF, el escáner captura una imagen de cada página. El PDF resultante contiene imágenes, no texto. Cuando Google se encuentra con este tipo de PDF, ve lo que es esencialmente una colección de fotografías sin contenido legible.

Puedes determinar rápidamente si un PDF tiene una capa de texto abriéndolo e intentando seleccionar texto con el cursor. Si puedes resaltar palabras individuales y copiarlas, el PDF tiene una capa de texto. Si hacer clic y arrastrar selecciona una región rectangular de la imagen en lugar de palabras individuales, el PDF es solo imagen y no tiene capa de texto.

El arreglo para PDFs escaneados es aplicar Reconocimiento Óptico de Caracteres (OCR). El software de OCR analiza las imágenes en el PDF, identifica caracteres y añade una capa de texto detrás de las imágenes. La apariencia visual del PDF permanece sin cambios, pero el archivo ahora contiene texto extraíble que Google puede leer e indexar.

Para organizaciones con grandes archivos de PDFs escaneados, varias herramientas de OCR pueden procesar documentos en bloque. Adobe Acrobat Pro tiene funcionalidad OCR integrada. Las herramientas de código abierto como Tesseract OCR pueden procesar PDFs programáticamente. Los servicios en la nube como Google Cloud Vision API, Amazon Textract y Microsoft Azure AI pueden manejar el procesamiento OCR de alto volumen. La calidad de la salida OCR depende de la calidad del escaneo. Los documentos escaneados a 300 DPI o superior con buen contraste y fuentes estándar producen excelentes resultados OCR. Los escaneos de baja calidad, el texto manuscrito y las fuentes inusuales pueden producir errores que necesitan corrección manual.

Tras aplicar OCR, verifica la calidad de la extracción de texto buscando frases específicas dentro del PDF. Si el texto OCR es lo bastante preciso como para que puedas encontrar contenido buscando, Google también podrá extraerlo e indexarlo. Para documentos donde la calidad OCR es pobre debido a la baja calidad del escaneo, considera recrear el documento digitalmente en lugar de depender de una salida OCR propensa a errores.

Un enfoque híbrido funciona para organizaciones en transición de papel a digital. Aplica OCR a los PDFs escaneados existentes para hacerlos inmediatamente indexables, mientras implementas una política de crear documentos futuros digitalmente (en Word o herramientas similares) y exportarlos a PDF con capas de texto incrustadas. Con el tiempo, la proporción de PDFs indexables en tu archivo crece de forma natural.

Establece metadatos descriptivos en las propiedades del PDF para ayudar a Google a entender el documento

Olvídate del trabajo manual — IndexBolt envía tus URL directamente a la cola de rastreo de Google. Empieza con 100 créditos gratis.

100 créditos gratis. Sin tarjeta de crédito.

Tamaño de archivo PDF y rendimiento de rastreo

El tamaño del archivo PDF tiene un impacto directo en si Google descargará y procesará el archivo. Aunque Google no ha publicado un tamaño máximo oficial de PDF para indexación, las observaciones prácticas sugieren que los PDFs de más de 10 a 20 MB se saltan o despriorizan frecuentemente durante el rastreo. Los PDFs extremadamente grandes (50MB+) casi nunca se indexan porque el tiempo de descarga excede el timeout de rastreo de Google.

Los problemas de tamaño de archivo en los PDFs típicamente provienen de imágenes incrustadas de alta resolución, fuentes incrustadas o complejidad del documento. Un catálogo de productos con 200 fotografías de producto de alta resolución puede alcanzar fácilmente 100MB o más. Un manual técnico con cientos de diagramas, capturas de pantalla y fotografías acumula tamaño rápidamente. Incluso los PDFs cargados de texto pueden ser sorprendentemente grandes si incrustan fuentes poco comunes o contienen formato complejo.

Optimizar el tamaño del archivo PDF implica varias técnicas. Primero, comprime las imágenes dentro del PDF. La mayoría de las herramientas de edición de PDF tienen una función "reducir tamaño del archivo" u "optimizar" que recomprime las imágenes incrustadas. Reducir la calidad de imagen de 300 DPI a 150 DPI típicamente reduce el tamaño del archivo a la mitad o más manteniendo una calidad legible en pantalla. Segundo, elimina las fuentes incrustadas si es posible, o limita las fuentes para incluir solo los caracteres realmente usados en el documento en lugar de los archivos de fuente completos. Tercero, aplana las capas complejas, los campos de formulario y las anotaciones que añaden sobrecarga de procesamiento.

Para documentos muy grandes que no pueden reducirse por debajo de 10 MB mediante compresión, considera dividir el PDF en documentos más pequeños. Un catálogo de productos de 200 páginas puede dividirse en PDFs por categoría de 20 a 30 páginas cada uno. Cada PDF más pequeño es más probable que se rastree e indexe, y los tamaños de archivo más pequeños mejoran la experiencia de usuario para las personas que descargan los documentos. Crea una página índice HTML que enlace a cada PDF de sección, proporcionando a Google una estructura de navegación rastreable.

Otro enfoque es ofrecer tanto una descarga PDF como una versión HTML del mismo contenido. La versión HTML sirve como contenido indexable principal que Google rastrea eficientemente, mientras que el PDF sirve a usuarios que necesitan una versión descargable e imprimible. Enlaza la versión HTML al PDF y viceversa para que los usuarios puedan acceder a cualquier formato que prefieran.

Optimización de metadatos de PDF

Los metadatos de PDF cumplen un papel similar a las meta tags HTML para la indexación en motores de búsqueda. Los metadatos correctamente configurados ayudan a Google a entender el tema del documento, generar snippets de resultados de búsqueda apropiados y evaluar la relevancia para consultas de búsqueda. La mayoría de los PDFs se publican con metadatos por defecto o vacíos, lo que es una oportunidad significativamente perdida.

La propiedad Title es el campo de metadatos más importante. Google usa el título del PDF de forma similar a como usa la etiqueta title HTML, como la señal principal para el tema de la página y como el titular clicable por defecto en los resultados de búsqueda. Un PDF con el título "Documento1" o "Sin título" no le da a Google información útil. Establece el Title como un título descriptivo y relevante para palabras clave que refleje con precisión el contenido del documento, similar a cómo optimizarías el título de una página HTML.

La propiedad Author ayuda a establecer autoridad y puede influir en cómo Google presenta el documento. Para documentos organizativos, usa el nombre de la organización. Para papers de investigación y artículos, usa el nombre del autor. La propiedad Subject proporciona una breve descripción del tema del documento, similar a una meta description HTML. Establécela como un resumen conciso del contenido del documento.

La propiedad Keywords te permite especificar palabras clave relevantes asociadas con el documento. Aunque los metadatos de keywords tienen menos impacto en el ranking que en los primeros años de la búsqueda, proporcionan señales temáticas adicionales que pueden ayudar a Google a categorizar el documento correctamente.

Puedes ver y editar los metadatos de PDF de varias maneras. Adobe Acrobat Pro proporciona un diálogo de Propiedades en Archivo > Propiedades donde todos los campos de metadatos pueden editarse. Herramientas gratuitas como PDFtk, ExifTool y la biblioteca PyPDF2 de Python pueden modificar metadatos de PDF programáticamente, lo que es útil para actualizar metadatos en bloque a través de grandes colecciones de documentos. Algunas herramientas de creación de PDF (como InDesign o la exportación a PDF de Word) te permiten establecer metadatos durante el proceso de exportación.

Más allá de los metadatos estándar, considera los primeros párrafos de contenido textual en el PDF. Google usa el contenido textual inicial para generar snippets de resultados de búsqueda cuando los metadatos son insuficientes. Asegúrate de que los párrafos de apertura de tu PDF sean descriptivos y relevantes al tema principal del documento en lugar de empezar con avisos de copyright, índice o texto administrativo de relleno.

Cuándo usar páginas HTML en lugar de PDFs

Antes de invertir esfuerzo en optimizar PDFs para indexación, considera si el contenido funcionaría mejor como páginas web HTML. En muchos casos, la respuesta es sí. Las páginas HTML tienen ventajas significativas de indexación y experiencia de usuario sobre los PDFs.

Las páginas HTML son rastreadas e indexadas con más eficiencia. Google puede parsear HTML conforme entra en streaming, sin descargar el archivo entero primero. Las páginas HTML consumen recursos de rastreo mínimos y se procesan más rápido. El HTML soporta metadatos ricos (etiquetas title, meta descriptions, etiquetas Open Graph, structured data) que los PDFs no pueden igualar. Las páginas HTML pueden incluir enlaces internos, navegación de breadcrumb, secciones de contenido relacionado y otros elementos que refuerzan la posición de la página en el grafo de enlaces de tu sitio.

Las páginas HTML proporcionan una mejor experiencia de usuario para la mayoría de los tipos de contenido. Son responsive (adaptándose a pantallas móviles), accesibles (soportando lectores de pantalla y tecnologías de asistencia de forma nativa) e interactivas (soportando búsqueda, navegación, comentarios y otras funcionalidades de engagement). Los PDFs son documentos de layout fijo diseñados para impresión, y leer un PDF en un móvil requiere pellizcar y hacer zoom constantemente.

Las páginas HTML soportan rich results en la búsqueda. Una página de FAQ en HTML puede optar a rich results de FAQ. Una guía cómo-hacer en HTML puede optar a rich results de cómo-hacer. Una especificación de producto en HTML puede incluir schema Product. Los PDFs no pueden participar en ningún formato de rich result.

Sin embargo, los PDFs son la elección correcta para ciertos tipos de contenido. Los documentos que necesitan mantener un formato exacto para impresión (contratos legales, formularios gubernamentales, planos de ingeniería) requieren formato PDF. Los documentos que necesitan descargarse para uso offline se benefician del formato PDF. Los papers académicos con notación matemática compleja, layouts de múltiples columnas y requisitos tipográficos específicos a menudo se sirven mejor con PDF.

El enfoque recomendado para la mayoría de las organizaciones es publicar versiones HTML de todo el contenido que deba ser encontrable a través de la búsqueda, y ofrecer versiones PDF como descargas suplementarias para usuarios que las necesiten. Enlaza la página HTML al PDF para descarga e incluye una etiqueta canonical en la página HTML (no añadas un canonical al PDF, ya que los PDFs no soportan etiquetas canonical de la misma manera). Si debes publicar contenido solo como PDF, sigue los pasos de optimización de esta guía para maximizar el éxito de indexación.

Guía paso a paso

Audita tus archivos PDF por estado de indexación

Compila una lista de todos los archivos PDF en tu web. Comprueba el sistema de archivos de tu sitio o usa una herramienta de rastreo de sitio que incluya archivos PDF en su escaneo. Para cada PDF, busca en Google "site:tudominio.com filetype:pdf" para ver qué PDFs están actualmente indexados. Cruza con datos de Google Search Console si tus PDFs están incluidos en tu sitemap. Categoriza cada PDF como indexado, no indexado o estado desconocido. Para los PDFs no indexados, anota el tamaño del archivo, si tiene una capa de texto y si alguna página HTML enlaza con él.

Resultados de búsqueda de Google para la consulta site:tudominio.com filetype:pdf — Usa el operador filetype:pdf para ver qué PDFs ha indexado Google

Comprueba los PDFs por capa de texto y estado OCR

Abre cada PDF no indexado y prueba si puedes seleccionar y copiar texto. Si la selección de texto no funciona, el PDF es solo imagen y necesita procesamiento OCR. Crea dos listas: PDFs con capas de texto (listos para optimización) y PDFs sin capas de texto (necesitan OCR primero). Para PDFs que necesitan OCR, procésalos con la función OCR de Adobe Acrobat, o usa una herramienta OCR por lotes para colecciones grandes. Tras el procesamiento OCR, verifica la calidad del texto buscando términos específicos dentro del PDF procesado. Sustituye los archivos originales en tu servidor por las versiones procesadas con OCR.

PDF con cursor de selección de texto resaltando contenido textual extraíble — Si puedes seleccionar y copiar texto en el PDF, tiene una capa de texto que Google puede leer

Optimiza los tamaños de archivo PDF

Comprueba el tamaño de archivo de cada PDF que quieras indexado. Marca cualquier PDF de más de 5 MB para optimización. Usa la función "Reducir Tamaño de Archivo" u "Optimizar PDF" de Adobe Acrobat para comprimir imágenes y eliminar datos innecesarios. Apunta a un tamaño de archivo final por debajo de 5 MB para máxima probabilidad de rastreo. Para PDFs que no se puedan comprimir por debajo de 5 MB, considera dividirlos en documentos más pequeños por capítulo o sección. Tras la optimización, sustituye los archivos en tu servidor y verifica que las versiones optimizadas se abren correctamente.

Comprime los PDFs por debajo de 5 MB para máxima probabilidad de rastreo

Establece las propiedades de metadatos del PDF

Para cada PDF que quieras indexado, abre las propiedades del archivo y establece los campos Title, Author, Subject y Keywords. El Title debe ser un título descriptivo y relevante para palabras clave de 50 a 70 caracteres (similar a una etiqueta title HTML). El Subject debe ser una descripción de una frase del contenido del documento. El Author debe ser el nombre de la organización o individuo. Las Keywords deben incluir tres a cinco términos relevantes. Para actualizaciones masivas de metadatos, usa una herramienta como ExifTool o un script de Python con la biblioteca PyPDF2 para actualizar metadatos en todos los PDFs programáticamente.

Crea enlaces HTML y entradas de sitemap para los PDFs

Asegúrate de que cada PDF que quieras indexado esté enlazado desde al menos una página HTML de tu sitio. Crea una página de recursos, página de descargas o biblioteca de documentos que enlace a todos los PDFs importantes con texto ancla descriptivo. Incluye las URLs de los PDFs en tu sitemap XML. Puedes añadirlos a tu sitemap principal o crear un sitemap dedicado para PDFs. Cada entrada de PDF en el sitemap debe incluir la URL y la fecha de última modificación. Envía el sitemap actualizado a Google Search Console.

Considera crear equivalentes HTML para documentos clave

Para tus PDFs más importantes (los que apuntan a consultas de búsqueda de alto volumen), crea equivalentes en página HTML. Copia el contenido del PDF en una página HTML con estructura adecuada de encabezados, meta tags y enlazado interno. Enlaza la página HTML al PDF como opción de "Descargar versión PDF". La página HTML se indexará más rápido, posicionará mejor y proporcionará una mejor experiencia de usuario mientras el PDF permanece disponible como descarga. Con el tiempo, monitoriza qué formato prefiere indexar Google y ajusta tu estrategia en consecuencia.

Envía URLs de PDF para indexación

Tras completar los pasos de optimización, envía tus URLs de PDF importantes para indexación a través de la herramienta de Inspección de URLs de Google Search Console (introduce la URL directa del archivo PDF) o a través de IndexBolt para envío masivo. Monitoriza el progreso de indexación durante las dos a cuatro semanas siguientes. Los PDFs típicamente tardan más en indexarse que las páginas HTML porque consumen más recursos de rastreo, así que ten paciencia. Si los PDFs permanecen sin indexar tras cuatro semanas, comprueba si el tamaño del archivo sigue siendo demasiado grande o si el PDF está bloqueado por robots.txt o autenticación.

¿Terminaste los pasos manuales? Acelera el proceso.

IndexBolt envía tus URL directamente a Google — la mayoría se rastrea en menos de 24 horas.

Problemas habituales y cómo solucionarlos

El PDF se muestra como 'Rastreada: actualmente sin indexar' en Search Console

Causa: Google descargó el PDF pero determinó que no tiene suficiente contenido valioso para indexar. Esto ocurre con PDFs escaneados que no tienen capa de texto, PDFs muy cortos con solo una o dos páginas de contenido o PDFs con contenido genérico que duplica información ya disponible en páginas HTML en otros lugares de la web o en tu propio sitio.

Solución: Verifica que el PDF tenga una capa de texto (comprueba intentando seleccionar texto). Si es solo imagen, aplica OCR. Si tiene una capa de texto pero contenido mínimo, considera si el PDF añade valor único que no esté disponible en tus páginas HTML. Si el contenido del PDF duplica una página HTML existente, o bien elimina el PDF de tus objetivos de indexación o añade contenido único al PDF que lo diferencie. Establece títulos y descripciones de metadatos apropiados para ayudar a Google a entender el valor del documento.

PDFs detrás de un login o paywall no se indexan

Causa: Google no puede acceder a contenido que requiera autenticación. Si tus PDFs se sirven desde un área solo para miembros, un directorio protegido por contraseña o requieren envío de formulario para descargar, el crawler de Google no puede llegar a ellos y nunca se indexarán. Algunos sistemas de gestión de contenido sirven PDFs a través de scripts PHP que comprueban autenticación, incluso cuando los propios PDFs son accesibles si se accede directamente.

Solución: Haz que los PDFs sean accesibles públicamente si quieres que se indexen. Si el documento completo debe estar restringido, considera publicar un resumen o las primeras páginas como un PDF de vista previa accesible públicamente y restringir solo la versión completa. Asegúrate de que la URL del PDF sea directamente accesible sin autenticación, cookies de sesión o envío de formulario. Prueba accediendo a la URL del PDF en una ventana de navegador privada/incógnito donde no estés conectado a tu sitio.

Catálogos PDF grandes no se indexan completamente

Causa: Los archivos PDF de más de 10 a 20 MB se despriorizan o saltan frecuentemente durante el rastreo de Google porque consumen un ancho de banda de descarga desproporcionado. Un catálogo de productos de 50 páginas con imágenes de alta resolución puede exceder fácilmente 20 MB, convirtiéndolo en un mal candidato para indexación como archivo único.

Solución: Divide el catálogo grande en PDFs más pequeños basados en secciones (uno por categoría o línea de producto), cada uno por debajo de 5 MB. Optimiza las imágenes para reducir el tamaño del archivo sin sacrificar legibilidad. Crea una página índice HTML que enlace a cada PDF de sección con texto descriptivo sobre qué contiene cada sección. Esta página índice sirve como página de aterrizaje para el tráfico de búsqueda y proporciona a Google navegación clara a cada sección PDF más pequeña e indexable.

PDF indexado pero mostrando título incorrecto en los resultados de búsqueda

Causa: La propiedad Title de los metadatos del PDF está vacía, establecida como un valor por defecto genérico como "Microsoft Word - Documento1.docx" o no coincide con el tema real del documento. Google recurre al nombre del archivo o extrae un título del primer contenido textual del PDF, que puede no ser descriptivo o relevante.

Solución: Abre el PDF en un editor de metadatos y establece la propiedad Title con un título descriptivo y amigable para la búsqueda. Por ejemplo, cambia "Documento1" por "Guía 2026 sobre normas de seguridad industrial - Requisitos de cumplimiento OSHA". Vuelve a subir el archivo y solicita el re-rastreo a través de Google Search Console o IndexBolt. Google debería captar el nuevo título en uno o dos ciclos de rastreo.

Consejos pro

Usa nombres de archivo descriptivos como "guia-seguridad-2026.pdf" en lugar de "documento-final-v2.pdf".

Añade contenido textual a la página uno del PDF: Google pondera mucho el contenido inicial.

Formatea los enlaces del PDF como hipervínculos clicables para que Google pueda seguirlos.

Crea una sección HTML /recursos/ enlazando a cada PDF con texto ancla descriptivo.

Monitoriza los PDFs indexados con búsquedas "site:tudominio.com filetype:pdf" regularmente.

Tus documentos PDF contienen experiencia que tu audiencia está buscando. IndexBolt envía las URLs de PDF directamente al pipeline de indexación de Google, consiguiendo que tus whitepapers, guías y documentos técnicos lleguen a los resultados de búsqueda donde tu audiencia pueda encontrarlos. Envía tu biblioteca de documentos a IndexBolt y haz que tus PDFs sean descubribles.

100 créditos gratis. Sin tarjeta de crédito. Resultados en menos de 24 horas.

Preguntas frecuentes

¿Puede Google realmente leer e indexar archivos PDF?+

Sí. Google ha estado indexando archivos PDF desde 2001 y los trata como contenido de primera clase en los resultados de búsqueda. Google puede extraer texto de PDFs con capas de texto incrustadas, leer las propiedades de metadatos del PDF y mostrar PDFs en los resultados de búsqueda con una insignia PDF. Sin embargo, Google no puede leer texto de PDFs solo imagen escaneados sin una capa de texto OCR, y puede saltarse archivos PDF muy grandes debido a restricciones de tiempo de descarga. Los PDFs correctamente optimizados con contenido textual, metadatos y tamaños de archivo razonables se indexan de forma fiable.

¿Debería bloquear la indexación de PDFs y usar HTML en su lugar?+

Para la mayoría de los tipos de contenido, HTML es un mejor formato para la visibilidad de búsqueda. Las páginas HTML se rastrean más rápido, soportan metadatos y structured data más ricos, proporcionan mejor experiencia móvil y pueden participar en formatos de rich result. Sin embargo, ciertos tipos de contenido se sirven mejor con PDF: documentos legales, formularios gubernamentales, guías imprimibles, papers académicos y cualquier cosa que requiera formato exacto de impresión. El enfoque recomendado es crear versiones HTML para descubribilidad y ofrecer PDFs como alternativas descargables para usuarios que las necesiten.

¿Cómo añado un equivalente a una meta description en un PDF?+

Los PDFs no soportan etiquetas meta description HTML, pero tienen un campo de metadatos llamado Subject (o Description, dependiendo del editor de PDF) que cumple un propósito similar. Abre las propiedades del PDF en Adobe Acrobat u otro editor de PDF y establece el campo Subject/Description con un resumen conciso del contenido del documento, idealmente de 150 a 160 caracteres. Google puede usar este campo al generar el snippet del resultado de búsqueda, aunque también puede sacar el texto del snippet directamente del contenido del cuerpo del PDF.

¿Necesitan los PDFs estar en mi sitemap XML para indexarse?+

Los sitemaps no son estrictamente necesarios para la indexación pero mejoran significativamente la descubribilidad de los PDFs. Dado que los PDFs a menudo se almacenan en directorios de archivos sin enlazado interno fuerte desde páginas HTML, los sitemaps pueden ser la única forma en que Google los descubra. Añade las URLs de PDF a tu sitemap XML existente o crea un sitemap dedicado para PDFs. Incluye la fecha lastmod para cada PDF para que Google sepa cuándo se actualizó por última vez el documento. Enviar el sitemap a través de Google Search Console asegura que Google sea consciente de todos tus archivos PDF.

¿Por qué mi PDF muestra un título diferente en los resultados de búsqueda de Google que el del nombre del archivo?+

Google usa la propiedad Title de los metadatos del PDF como título del resultado de búsqueda, no el nombre del archivo. Si el Title de los metadatos está vacío o establecido como un valor por defecto genérico, Google puede generar un título a partir del primer encabezado o contenido textual del PDF, o recurrir al nombre del archivo. Para controlar cómo aparece tu PDF en los resultados de búsqueda, establece la propiedad Title de los metadatos con un título descriptivo y relevante para palabras clave usando un editor de PDF. Este es el equivalente más cercano a establecer una etiqueta title HTML para una página web.

Herramientas gratuitas para esto

Google Index Checker XML Sitemap Validator Meta Tag Analyzer

Lecturas adicionales

How to Get Your Website Indexed on Google

Guías relacionadas

Entradas de blog no indexadas en Google: guía completa de resolución de problemas Web nueva sin aparecer en Google: cómo conseguir que se indexe tu sitio nuevo Páginas JavaScript no indexadas: arregla el renderizado de SPA y frameworks para Google Páginas tras migración de sitio no indexadas: guía completa de recuperación Indexación de WordPress en Google: la guía completa para que se encuentre cada página

¿Listo para indexar tus URLs?

Empieza con 100 créditos gratis. Sin tarjeta de crédito.