Codificación de caracteres
Mientras vemos los documentos de texto como líneas de texto, las computadoras realmente los ven como binario datos, o una serie de unos y ceros. Por lo tanto, la personajes dentro de un documento de texto debe estar representado por códigos numéricos. Para lograr esto, el texto se guarda usando uno de varios tipos de codificación de caracteres.
Los tipos más populares de codificación de caracteres son ASCII y Unicode. Si bien ASCII todavía es compatible con casi todos los editores de texto, Unicode se usa más comúnmente porque admite un conjunto de caracteres más grande. Unicode a menudo se define como UTF-8, UTF-16 o UTF-32, que se refieren a diferentes estándares de Unicode. UTF significa "Formato de transformación Unicode" y el número indica el número de los bits solía representar cada personaje. Desde los primeros días de la informática, los personajes han sido representados por al menos uno byte (Bits 8), razón por la cual los diferentes estándares Unicode guardan caracteres en múltiplos de bits 8.
Si bien ASCII y Unicode son los tipos más comunes de codificación de caracteres, también se pueden usar otros estándares de codificación para codificar archivos de texto Por ejemplo, existen varios tipos de estándares de codificación de caracteres específicos del idioma, como occidental, latinoamericano, japonés, coreano y chino. Mientras que los idiomas occidentales usan caracteres similares, los idiomas orientales requieren un conjunto de caracteres completamente diferente. Por lo tanto, una codificación latina no admitiría los símbolos necesarios para representar un texto. cadena en chino. Afortunadamente, los estándares modernos como UTF-16 admiten un conjunto de caracteres lo suficientemente grande como para representar letras y símbolos occidentales y orientales.