Molienda de documentos
La molienda de documentos es el proceso de análisis documentos para extraer datos significativos. El término a menudo se asocia con piratería informática, ya que los piratas informáticos puede "moler" documentos para revelar datos confidenciales. Sin embargo, la molienda de documentos también se utiliza para fines no malignos. Los ejemplos incluyen identificación desconocida tipos de archivo y viendo el archivo metadatos.
Es posible realizar la molienda de documentos en ambos Texto sin formato y a la binario archivos.
Archivos de texto
Moler archivos de texto es un proceso simple ya que almacenan datos como texto sin formato. Puedes buscar personajes y a la instrumentos de cuerda dentro de un documento de texto usando una herramienta como grep u otra utilidad de búsqueda. Dado que el procesamiento de texto es una operación informática relativamente rápida, puede ser posible moler varios documentos grandes en menos de un segundo.
Los tipos de archivos de texto comunes destinados a la molienda de documentos incluyen archivos de registro (.LOG, .TXT) y archivos de configuración (.CONF, .CNF) Si un hacker obtiene acceso a un servidor web, por ejemplo, puede buscar estos archivos para nombres de usuario, contraseñasy otros datos confidenciales.
Archivos binarios
Los archivos binarios pueden contener texto sin formato, pero también almacenan archivos binarios. datos - 1s y 0s. Es más difícil moler datos binarios ya que no se pueden buscar con una herramienta de búsqueda de texto. Además, muchos archivos binarios se guardan en una propiedad formato de archivo, que es difícil de analizar gramaticalmente sin el correspondiente solicitud. Por lo tanto, la molienda de documentos binarios generalmente se enfoca en encabezamiento y a la pie de página de un documento, que puede contener texto sin formato. También puede aspirar a extraer metadatos de archivo.
Muchos archivos binarios contienen información sobre el tipo de archivo en el encabezado del filete. Por ejemplo, en la imagen de muestra, las letras "PNG" en el encabezado indican que el archivo es un Papúa Nueva Guinea imagen. Esta información es útil para identificar el tipo de archivo, ya que no tiene un extensión de archivo. Del mismo modo, las fotos digitales a menudo contienen ocultas EXIF datos guardados cuando se tomó la foto. Un programa de visualización de imágenes o una molienda de documentos guión puede detectar y extraer esta información.