Personalmente no lo he hecho pero no veo por qué no. Hay múltiples maneras de hacer el raspado de la web con algunos métodos que son más precio pesado y otros que requieren más manos en el trabajo para lograr. Aquí están mis sugerencias:
- Codificar un raspador web usted mismo.
Esto es probablemente sólo viable para las personas con amplia experiencia en codificación, especialmente si su tarea requiere raspar grandes cantidades de datos de muchas páginas de destino. La codificación de un raspador web requerirá que usted maneje todos los desafíos que vienen con el raspado web - principalmente cada sitio web tratando de bloquear cualquier actividad automatizada en su sitio web. Dicho esto, esto no es demasiado difícil, pero tendrá que pasar algún tiempo en él. Puedes buscar en Selenium y beautifulSoup para hacer esto. Y puedes encontrar mucha ayuda en Stackoverflow. (Recomiendo hacer esto en el lenguaje de programación Python) También hay un montón de tutoriales para hacer esto en youtube. - Usando uno de los muchos servicios premium en este campo.
Esto quita la carga de hacer todas las cosas usted mismo, pero requerirá la inversión de dinero. Estos servicios proporcionan una robusta herramienta de raspado web que manejará el cambio de servidor proxy y otras características de antidetección, así como (esto se aplica a algunos servicios, pero no a todos) un administrador de cuentas dedicado que normalmente puede ayudar con cualquier problema que pueda tener con el servicio o la recopilación de datos. Para este método puede consultar oxylabs rtc, octoparse y otras herramientas similares. - Tercera opción - raspadores web visuales. Estos raspadores web suelen tener la forma de una extensión del navegador. Lo configuras para cualquier sitio web específico y normalmente te da los datos recogidos en formato csv que puedes copiar a donde quieras. Este es el método más barato y el que menos habilidades requiere, pero es el método menos automatizado de recogida de datos (aparte de copiar y pegar todo a mano). Para este tipo de raspador web puedes buscar en dataminer y otras extensiones de navegador similares.
.