Normalmente, Craigslist utiliza reCAPTCHAs para detener las solicitudes automatizadas a su plataforma, eso detiene los intentos abusivos de traer daño a una escala decente.
Creyendo que tu intención no es perjudicar a otros, sino recolectar datos públicos que están disponibles en Craigslist, a continuación menciono algunas recomendaciones. Ten en cuenta que no promociono ninguno de los servicios o herramientas que menciono aquí, deberías investigar en Quora o Google por servicios para tener una visión más amplia.
Recomendaciones para empezar:
- Ejecuta tu software de scraping automatizado con las últimas versiones del navegador chrome headless. Con Chrome headless y selenium tu scraper se volvería más amigable con los servidores de Craigslist, por lo que reduciría mucho el porcentaje de dar con un CAPTCHA.
- Haz uso de proxies residenciales. Sí, en los casos de reCAPTCHA, hacer peticiones a través de otros tipos de proxies no funciona realmente en la mayoría de los casos. Un proxy residencial utilizado con un navegador headless le da una mejor posibilidad de eludir los bloqueos.
- Si está tratando de recopilar datos disponibles públicamente y no tiene experiencia en ello, se recomienda dar el trabajo a los servicios que hacen la protección de raspado web para usted como por ejemplo ProxyCrawl.
Como resultado, haga uso de los navegadores y las redes residenciales, con esta combinación es probable que eluda los reCAPTCHAs, si eso se complica, haga uso de un proveedor de servicios de raspado para la protección de la web.