Apache Spark es un marco de computación en clúster de propósito general distribuido, gratuito y de código abierto. Desarrollado originalmente en el AMPLab de la Universidad de California en Berkeley, el código base de Spark fue donado posteriormente a la Apache Software Foundation, que lo mantiene desde entonces. Spark proporciona una interfaz para programar clusters enteros con paralelismo de datos implícito y tolerancia a fallos.
Spark es una alternativa al marco Hadoop MapReduce y puede ejecutarse sobre un clúster Hadoop o en modo autónomo. En modo autónomo, Spark puede desplegarse sobre cualquier gestor de clústeres existente, como YARN o Mesos, o puede configurarse para ejecutarse por sí mismo.
Spark ha sido diseñado para ser altamente accesible, ofreciendo APIs simples en Python, Java, Scala y R. También proporciona entornos de shell ricos e interactivos en Python y Scala. Spark también se puede utilizar desde Java, a través de una rica y cómoda API de Java.
¿Quién utiliza Spark?
Spark es una tecnología relativamente nueva que está ganando popularidad en la comunidad de procesamiento y análisis de datos. Es utilizada por organizaciones de todos los tamaños, desde las startups hasta las empresas de la lista Fortune 500. Algunos usuarios notables de Spark son Airbnb, Yahoo y Uber.
¿Cuál es la terminología de Spark?
El término "Spark" puede referirse a varias cosas diferentes:
1. Apache Spark - un marco de procesamiento de big data de código abierto que se puede utilizar para una variedad de tareas de procesamiento de datos, incluyendo ETL, aprendizaje automático y streaming.
2. SparkFun - una popular tienda de electrónica que se especializa en la venta de componentes y kits para construir proyectos de electrónica de bricolaje.
3. Spark UI - la interfaz de usuario basada en la web para el marco de Apache Spark. ¿Es Apache Spark una base de datos? No, Apache Spark no es una base de datos. Es un motor de procesamiento de datos diseñado para trabajar con grandes conjuntos de datos.
¿Quién utiliza Spark? Spark, una herramienta de análisis de datos que ha ido creciendo en popularidad, se utiliza para analizar big data. Empresas como Facebook y LinkedIn utilizan Spark para analizar sus datos. A medida que se orientan hacia las soluciones de big data, más empresas lo adoptan. ¿Es Apache Spark una herramienta ETL? No, Apache Spark no es una herramienta ETL. Es un marco de procesamiento de big data que puede ser utilizado para una variedad de propósitos, incluyendo ETL.