La ciencia de los datos no es una ciencia, ni siquiera es realmente una cosa; es sólo un término de 50 centavos para la analítica de datos, que es el proceso de derivar información (procesable, comprensión significativa) de los datos, y por lo general un montón de datos. Para fines académicos y de I+D, el término "ciencia" suena bien, pero todas las ciencias formulan hipótesis y realizan experimentos y/u observaciones para determinar si las hipótesis son correctas. La "ciencia" de los datos utiliza métodos especulativos para intentar encontrar conclusiones novedosas y en gran medida no buscadas. Si quisiera saber dónde debo colocar las patatas fritas en mi tienda de alimentación, la analítica puede ayudarme a responder a esa pregunta, pero no con un nivel de certeza científico. La analítica asume que la correlación está lo suficientemente cerca de la causalidad, por lo que acabaré poniendo las patatas fritas junto a la cerveza. Si mis ventas de patatas fritas suben, todos estamos contentos. Los valores P nunca entran en juego. Puede que haya utilizado el aprendizaje automático y/o la estadística para tomar esa determinación, pero sólo puedo demostrar la correlación. Eso está bien; no todas las cosas pueden o deben estudiarse científicamente.
La informática es un campo amplio que estudia la naturaleza de la computación, su implementación y su aplicación. La analítica de datos es una de esas aplicaciones. La gente afirmará correctamente que la analítica de datos es un campo interdisciplinar, pero también lo es la informática, así que no estoy seguro del punto.
Finalmente, la analítica de datos y las matemáticas, bla, bla, bla, las matemáticas no son la parte importante. Lo importante es la aplicación de los métodos de investigación cuantitativa de las ciencias sociales, que utilizan la estadística. Cada vez más, nos encontramos con que los modelos matemáticos pueden ser sustituidos y/o manipulados para demostrar (en lugar de estudiar realmente) un resultado predeterminado. Eso es malo. Muy malo. En las ciencias, se llama p-hacking. Gran parte de la aplicación de la tecnología informática, incluida la analítica de datos, es una ilusión, en lugar de una comprensión válida del mundo. No se puede predecir o entender el comportamiento humano sin entender primero a los humanos. Hay aplicaciones de la analítica de datos que van más allá de los datos humanos, pero son raras.