Raspado
Scraping, o "web scraping", es el proceso de extraer grandes cantidades de información de un página web. Esto puede involucrar Descarga de varias páginas web o todo el sitio. El contenido descargado puede incluir solo el texto de las páginas, el texto completo HTML, o tanto el HTML como las imágenes de cada página.
Hay muchos métodos diferentes para raspar un sitio web. Lo más básico es descargar manualmente páginas web. Esto se puede hacer copiando y pegando el contenido de cada página en un editor de texto o usando el navegador de su navegador. comando para guardar copias locales de páginas individuales. El raspado también se puede hacer automáticamente usando el software de raspado web. Esta es la forma más común de descargar una gran cantidad de páginas de un sitio web. En algunos casos, los robots se puede usar para raspar un sitio web a intervalos regulares.
El raspado web se puede realizar para varios propósitos diferentes. Por ejemplo, es posible que desee archivar una sección de un sitio web para desconectado acceso. Al descargar varias páginas a su computadora, puede leerlas más adelante sin estar conectado al Internet. Los desarrolladores web a veces raspan sus propios sitios web cuando prueban que no funcionan campo de golf e imágenes dentro de cada página. El raspado también se puede realizar con fines ilegales, como copiar un sitio web y volver a publicarlo con un nombre diferente. Este tipo de raspado se considera una violación de derechos de autor y puede llevar a un enjuiciamiento legal.
NOTA: Si bien raspar un sitio web con el propósito de volver a publicar información siempre es incorrecto, raspar un sitio para otros fines puede violar los términos de uso del sitio web. Por lo tanto, siempre debe leer los términos de uso de un sitio web antes de descargar contenido del sitio.