El contenido a publicar debe seguir las normas de contenido caso contrario se procederá a eliminar y suspender la cuenta.
¿Quiénes pueden ver este post?
Selecciona los planes que van a tener acceso
Anexo 1- Miniscript utiliza el sistema de carateres Unicode - ¿Qué es Unicode?
Cargando imagen
Es un sistema para representar caracteres de todos los diferentes idiomas del mundo.
-Diseñado para intercambiar documentos en diferentes idiomas sin problemas.
-Surge a finales de 1987.
Proporciona un número único para cada carácter, sin importar la plataforma, ni el programa, ni el idioma.
Cuando Miniscript, u otro lenuaje de programación que lo acepte, y eso sería deseable, aunque pocos lo cumplen, analiza un documento, los datos se almacenan en memoria como Unicode.
Unicode representa cada carácter como un número de 2 bytes, de 0 a 65535. Cada número de 2 bytes representa un único carácter utilizado en, al menos, un idioma del mundo (los caracteres que se usan en más de un idioma tienen el mismo código numérico).
-Hay exactamente un número por carácter.
-Los datos de Unicode nunca son ambiguos.
-El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas de codificación anticuados, muchos de los cuales están muy limitados en tamaño y son incompatibles con entornos plurilingües como es el mundo de hoy, más aún en el ámbito tecnológico.
Se ha vuelto el más extenso y completo esquema de codificación de caracteres, siendo el dominante en la internacionalización del software.
El estándar ha sido implementado en un número considerable de tecnologías recientes y sistemas operativos modernos.
Las computadoras sólo trabajan con números (Almacenan letras y otros caracteres mediante la asignación de un número a cada uno).
Antes de que se inventara Unicode, existían cientos de sistemas de codificación distintos para asignar estos números. Ninguna codificación específica podía contener caracteres suficientes:
por ejemplo, la Unión Europea, por sí sola, necesita varios sistemas de codificación distintos para cubrir todos sus idiomas.
Incluso para el inglés, no había un único sistema de codificación que se adecuara a todas las letras, signos de puntuación y símbolos técnicos de uso común.
-Toda computadora y servidor necesita ser compatible con muchos sistemas de codificación distintos.
-Unicode proporciona un número único para cada carácter, sin importar la plataforma, ni el programa, ni el idioma, y utiliza dos byte por cada carácter.
En el formato ASCII clásico, es suficiente, un solo byte para representar cada carácter.
Esta mayor cantidad de espacio, normalmente está prevista por los programas y sistemas operativos que soportan esta codificación.
Historia
Antes de Unicode, había sistemas de codificación de caracteres para cada idioma, cada uno usando los mismos números (0-255) para representar los caracteres de ese lenguaje.
El proyecto Unicode se inició a finales de 1987, tras conversaciones entre los ingenieros de Apple y Xerox: Joe Becker, Lee Collins y Mark Davis.
En agosto de 1988 se publicó el primer borrador de Unicode bajo el nombre de Unicode88.
Esta primera versión, con códigos de 16 bits, se publicó asumiendo que solo se codificarían los caracteres necesarios para el uso moderno.
Durante el año 1989 el trabajo continuó con la adición de colaboradores de otras compañías como Microsoft o Sun Microsystems.
El Consorcio Unicode se formó el 3 de febrero de 1991 y en octubre de 1991 se publicó la primera versión del estándar.
La segunda versión, incluyendo escritura ideográfica Han se publicó en junio de 1992.
Ventajas de Unicode
La verdadera ventaja de Unicode, es su capacidad de almacenar caracteres que no son ASCII, como la “ñ” española. El carácter Unicode para la ñ es 0xf1 en hexadecimal (241 en decimal), que se puede escribir así: \xf1
Unicode es un superconjunto de ASCII, así que también se puede almacenar una cadena ASCII normal como Unicode.
Cuando MIniscropt o Python imprimen una cadena intentará convertirla a la codificación por omisión, que suele ser ASCII.
Como la cadena Unicode está hecha de caracteres que a la vez son ASCII, imprimirlos tiene el mismo resultado que imprimir una cadena ASCII normal.
Tratamiento de la información: Formas de codificación
Los puntos de código de Unicode se identifican por un número entero. Según su arquitectura, un ordenador utilizará unidades de 8, 16 o 32 bits para representar dichos enteros. Las formas de codificación de Unicode reglamentan la forma en que los puntos de código se transformarán en unidades tratables por el computador.
Unicode define tres formas de codificación bajo el nombre UTF (Formato de Transformación Unicode- "Unicode Transformation Format"-
Los formatos de codificación que se pueden usar con Unicode se denominan UTF-8, UTF-16 y UTF-32.
UTF-8: Codificación orientada a byte con símbolos de longitud variable.
UTF-16: Codificación de 16 bits de longitud variable optimizada para la representación del plano básico multilingüe (BMP).
UTF-32: Codificación de 32 bits de longitud fija, y la más sencilla de las tres.
(A partir de las 3 formas identificadas se definen 7 esquemas de codificación).
Las formas de codificación se limitan a describir el modo en que se representan los puntos de código en formato inteligible por la máquina.
Esquemas de codificación
Los esquemas de codificación tratan de la forma en que se serializa la información codificada.
Una diferencia fundamental entre procesadores es el orden de disposición de los byte en palabras de 16 y 32 bits, lo que se denomina endianness.
Los esquemas de codificación deben garantizar que los extremos de una comunicación saben cómo interpretar la información recibida.
A partir de las 3 formas de codificación se definen 7 esquemas. A pesar de que comparten nombres, no debe confundirse esquemas y formas de codificación.
----------------------------------
Si te gusta cerar arte ASCII como éste (Puedes utilizar Miniscript y usar el ASCII básico o ampliado a todo el Unicode)
\_0_/ @_@ _/\_ |x_x| ||_-\o/-_||
------------------------------------
Leer mas: https://www.w3.org/International/articles/definitions-characters/index.es#:~:text=Los%20formatos%20de%20codificaci%C3%B3n%20que,%2D16%20y%20UTF%2D32.
Fuentes consultadas:
http://www.unicode.org/unicode/standard/translations/spanish.htmlhttp://www.vsantivirus.com/Unicode.htmhttp://www.unicode.org/ucd/https://www.ecured.cu/Lenguaje_Unicode
Ver más
Compartir
Creando imagen...
¿Estás seguro que quieres borrar este post?
Debes iniciar sesión o registrarte para comprar un plan