GSM 03.38

Codificación de caracteres

En telefonía móvil, GSM 03.38 o 3GPP 23.038 es una codificación de caracteres utilizada en redes GSM para SMS (Short Message Service), CB ( Cell Broadcast ) y USSD (Unstructured Supplementary Service Data). El estándar 3GPP TS 23.038 (originalmente la recomendación GSM 03.38) define el alfabeto GSM predeterminado de 7 bits que es obligatorio para los teléfonos móviles y elementos de red GSM, ^[1] pero el conjunto de caracteres es adecuado solo para inglés y varios idiomas de Europa occidental. Los idiomas como el chino, el coreano o el japonés deben transferirse utilizando la codificación de caracteres UCS-2 de 16 bits. Un número limitado de idiomas, como el portugués , el español , el turco y varios idiomas utilizados en la India escritos con escrituras brahmicas pueden utilizar la codificación de 7 bits con la tabla de cambio de idioma nacional definida en 3GPP 23.038. Para mensajes binarios , se utiliza la codificación de 8 bits.

Alfabeto GSM de 7 bits predeterminado y tabla de extensión de 3GPP TS 23.038 / GSM 03.38

La codificación estándar para los mensajes GSM es el alfabeto predeterminado de 7 bits, tal como se define en la recomendación 23.038.

Los caracteres de siete bits deben codificarse en octetos siguiendo uno de los tres modos de empaquetado:

CBS: utilizando esta codificación, es posible enviar hasta 93 caracteres (comprimidos en hasta 82 octetos) en un mensaje SMS en un servicio de difusión celular.
SMS: utilizando esta codificación, es posible enviar hasta 160 caracteres (comprimidos en hasta 140 octetos) en un mensaje SMS en la red GSM.
USSD: utilizando esta codificación, es posible enviar hasta 182 caracteres (comprimidos en hasta 160 octetos) en un mensaje SMS de datos de servicio suplementario no estructurados.

Conjunto de caracteres básicos ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Δ	ES	0	¡	PAG	¿	pag
0x01	£	_	!	1	A	Q	a	q
0x02	$	Φ	"	2	B	R	b	a
0x03	¥	Γ	#	3	do	S	do	s
0x04	mi	O	¤	4	D	yo	d	a
0x05	mi	Ohmio	%	5	mi	tú	mi	tú
0x06	Un	P	&	6	F	V	F	en
0x07	i	O	'	7	GRAMO	Yo	gramo	el
0x08	o	Σ	(	8	yo	incógnita	yo	incógnita
0x09	DO	O	)	9	I	Y	i	y
0x0A	Si	O	*	:	Yo	O	yo	el
0x0B	Ø	ESC	+	;	K	A	a	a
0x0C	ø	A	,	<	yo	O	yo	o
0x0D	ES	a	-	=	METRO	NORTE	metro	norte
0x0E	A	ß	.	>	norte	U	norte	ü
0x0F	a	MI	/	?	Oh	§	o	a

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un escape a la tabla de extensión (se asigna a NBSP).
SP es un personaje espacial.

Extensión del conjunto de caracteres básicos ^[2]
	0x00	0x10	0x20	0x30	0x40	0x60
0x00					\|
0x01
0x02
0x03
0x04		^
0x05						€
0x06
0x07
0x08			{
0x09			}
0x0A	FF
0x0B		SS2
0x0C				[
0x0D	CR2			~
0x0E				]
0x0F			\

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Es importante (especialmente cuando se va a segmentar un mensaje utilizando el mecanismo de SMS concatenado ) que los caracteres de la tabla del conjunto de caracteres básicos ocupen un septeto y los caracteres de la tabla de extensión del conjunto de caracteres básicos ocupen dos septetos.

Tenga en cuenta que la segunda parte de la tabla solo es accesible si el dispositivo GSM admite el mecanismo de extensión de 7 bits, utilizando el prefijo del carácter ESC. De lo contrario, el código ESC en sí se interpreta como un espacio y el carácter siguiente se tratará como si no hubiera ningún código ESC inicial.

La mayor parte de la parte alta de la tabla no se utiliza en el conjunto de caracteres predeterminado, pero el estándar GSM define algunos indicadores de código de idioma que permiten al sistema identificar variantes nacionales de esta parte, para admitir más caracteres que los que se muestran en la tabla anterior.

En un mensaje de texto GSM estándar, todos los caracteres se codifican utilizando unidades de código de 7 bits, empaquetadas juntas para llenar todos los bits de los octetos. Así, por ejemplo, el sobre de 140 octetos de un SMS ^[3] , sin ningún otro indicador de idioma excepto solo el prefijo de clase estándar, puede transportar hasta (140*8)/7=160, es decir, 160 caracteres GSM de 7 bits (pero tenga en cuenta que el código ESC cuenta como uno de ellos, si se utilizan caracteres en la parte superior de la tabla).

Se pueden enviar mensajes más largos, pero requerirán un prefijo de continuación y un número de secuencia en los mensajes SMS posteriores (estos bytes de prefijo y número de secuencia se cuentan dentro de la longitud máxima de la carga útil de 140 octetos del formato de sobre).

Cuando hay entre 1 y 6 bits de repuesto en el último octeto de un mensaje, estos bits se ponen a cero (estos bits no cuentan como un carácter, sino solo como relleno). Cuando hay 7 bits de repuesto en el último octeto de un mensaje, estos bits se ponen al código de 7 bits del control CR (también se utiliza como relleno) en lugar de ponerse a cero (donde se confundirían con el código de 7 bits de un carácter '@').

Esta codificación de 7 bits permite el transporte de textos que consisten en caracteres imprimibles del latín básico (bloque Unicode) (con la excepción del acento grave/acento invertido), así como algunos caracteres del conjunto de caracteres ISO Latin 1. También permite la codificación de textos escritos en el alfabeto griego, pero solo en mayúsculas; para tal uso en griego, las letras mayúsculas latinas que se parecen a las letras griegas se reutilizan con el mismo código, de modo que el conjunto de caracteres anterior está completo solo para el griego monótono moderno restringido a letras mayúsculas. Un soporte completo para el alfabeto griego (incluidas las letras minúsculas) requiere una versión nacional de la tabla desplazada de 7 bits (utilizando el código ESC para cada carácter nacional codificado en esta tabla desplazada), o una codificación propietaria de 8 bits no especificada, o el uso de la codificación UCS-2 (ver más abajo).

Tenga en cuenta que el código especial marcado SS2 en la tabla anterior también se ha asignado (y codificado como 0x1B,0x1B) para permitir el uso de otra tabla de desplazamiento de 7 bits alternativa. Pero este mecanismo nunca se ha utilizado y se ha preferido la codificación UCS-2.

Téngase en cuenta que el carácter 0x09 ( Ç , C mayúscula con cedilla) debe reemplazarse por ç (c minúscula con cedilla) en la implementación moderna, como lo recomienda Unicode, ^[4] ya que la versión en mayúsculas es de poca utilidad.

Codificación de datos GSM de 8 bits

El modo de codificación de datos de 8 bits trata la información como datos sin procesar. Según el estándar, el alfabeto para esta codificación es específico del usuario.

Codificación UCS-2

Esta codificación permite el uso de una mayor variedad de caracteres e idiomas. UCS-2 puede representar los caracteres latinos y orientales más utilizados a costa de un mayor gasto de espacio. Estrictamente hablando, UCS-2 está limitado a caracteres en el Plano Multilingüe Básico . Sin embargo, dado que los entornos de programación modernos no proporcionan codificadores o decodificadores para UCS-2, algunos teléfonos móviles (por ejemplo, iPhones ) utilizan UTF-16 en lugar de UCS-2. ^[5] Esto funciona, porque para los caracteres en el Plano Multilingüe Básico (incluidos los alfabetos completos de la mayoría de los idiomas humanos modernos) las codificaciones UCS-2 y UTF-16 son idénticas. Para codificar caracteres fuera del BMP (inalcanzables en UCS-2 simple), como Emoji , UTF-16 utiliza pares sustitutos , que cuando se decodifican con UCS-2 aparecerían como dos puntos de código válidos pero no mapeados .

Un solo mensaje SMS GSM que utilice esta codificación puede tener como máximo 70 caracteres (140 octetos).

Tenga en cuenta que en muchos teléfonos móviles GSM no existe una preselección específica de la codificación UCS-2. El valor predeterminado es utilizar la codificación de 7 bits descrita anteriormente, hasta que se introduce un carácter que no está presente en la tabla de 7 bits GSM (por ejemplo, la "a" minúscula con á). En ese caso, todo el mensaje se vuelve a codificar utilizando la codificación UCS-2 y la longitud máxima del mensaje enviado en un único SMS se reduce inmediatamente a 70 caracteres, en lugar de 160. Otros varían en función de la elección y configuración de la aplicación SMS y de la longitud del mensaje ^{[ cita requerida ]} .

Para evitar costes inesperados para los remitentes que tienen una suscripción a un paquete limitado de SMS enviados, las aplicaciones deberían ^{[ ¿según quién? ]} mostrar el número de caracteres utilizados y el número máximo de caracteres en el SMS compuesto. Cuando un mensaje excede este máximo, el mensaje se ^{[ aclaración necesaria ]} enviará como múltiples SMS sucesivos que contienen partes del mensaje (cada una de ellas contiene un número de secuencia, que también utiliza algunos caracteres iniciales en cada parte); estas partes están destinadas a ser ^{[ cita requerida ]} reensambladas más tarde por el destinatario.

Algunas aplicaciones alertan al usuario cuando es necesario dividir un mensaje o incluso envían un mensaje más largo como mensaje multimedia (MMS).

Tablas de cambios de idioma nacionales

Desde la versión 8 del estándar 3GPP 23.038 de marzo de 2008, se puede acceder a conjuntos de caracteres adicionales mediante el uso de tablas de cambio de idioma nacional.

Estas tablas permiten utilizar diferentes conjuntos de caracteres según el idioma en el que se va a escribir el texto. La elección de la tabla para un mensaje determinado se selecciona en la sección Encabezado de datos de usuario de un mensaje SMS y se puede especificar para todo el texto (una tabla de desplazamiento con bloqueo que reemplaza la tabla del alfabeto predeterminado de 7 bits GSM estándar) o para un solo carácter ( una tabla de desplazamiento simple que reemplaza la tabla de extensión del alfabeto predeterminado de 7 bits GSM). Es posible utilizar juntas las tablas de desplazamiento con bloqueo y de desplazamiento simple en el mismo mensaje si se deben reemplazar tanto la tabla del alfabeto predeterminado estándar como la tabla de extensión del alfabeto predeterminado.

Si se utiliza una tabla de desplazamiento, un mensaje puede seguir utilizando una codificación de 7 bits para los caracteres, pero se puede elegir un conjunto diferente para mostrar correctamente los caracteres acentuados y específicos del idioma. Esto permite hasta 155 caracteres, codificados en 136 octetos (140 octetos, menos los 4 octetos del encabezado de datos del usuario necesarios para indicar el uso de una tabla de desplazamiento y el código de idioma). Con las tablas de desplazamiento simple y con bloqueo , se permiten hasta 152 caracteres, codificados en 133 octetos (140 octetos, menos los 7 octetos del encabezado de datos del usuario ).

Los caracteres de cualquier tabla de desplazamiento de bloqueo toman un septeto, los caracteres de la tabla de desplazamiento simple (o tabla de extensión del conjunto de caracteres básicos) toman dos septetos.

Inicialmente, las tablas de turnos solo se especificaron para turco; el español y el portugués se agregaron en revisiones posteriores de la versión 8. La versión 9 introdujo 10 idiomas utilizados en la India escritos con escrituras brahmáticas (bengalí, gujarati, hindi, kannada, malabar, oriya, punjabi, tamil, telugu) y urdu .

Todavía no existe una tabla de cambio de idioma nacional definida para francés, griego, ruso, búlgaro, árabe, hebreo y la mayoría de los idiomas de Europa Central que necesitan una cobertura mejor que el conjunto de caracteres estándar predeterminado de 7 bits y su conjunto de caracteres de extensión predeterminado de 7 bits: si alguna vez se compone algún carácter que no se puede representar en esos conjuntos de 7 bits GSM predeterminados, el mensaje se recodificará automáticamente utilizando UCS-2, con el efecto de dividir por más de dos la longitud máxima en caracteres de los mensajes que se pueden enviar al precio de un solo SMS (cuando un mensaje se divide en varias partes, se necesitan algunos otros octetos en el encabezado de datos de usuario para indicar el número de secuencia de cada parte).

Aunque una revisión de GSM 03.38 (ya en la versión 4.0.1 de septiembre de 1994) definió valores de esquema de codificación de datos para el sistema de difusión celular (CBS) para alemán, inglés, italiano, francés, español, holandés, sueco, danés, finlandés, noruego, griego y turco; con húngaro, polaco, checo, hebreo, árabe, ruso e islandés añadidos en revisiones posteriores, no se definieron tablas de codificación para estos idiomas. El propósito de este campo era puramente identificar el idioma del mensaje.

Tampoco existe una tabla de desplazamiento de idioma para el japonés escrito en kanas básicos, ni para el coreano escrito en hangul jamos, ni para el chino escrito en alfabeto han. Esto no suele ser un problema en Japón, porque utiliza otros estándares distintos de GSM y WAP para la mensajería. Los otros dos idiomas también tienen demasiados caracteres distintos para caber en una tabla de desplazamiento de 7 bits.

Lengua española (alfabeto latino)

No existe un conjunto de caracteres de bloqueo de mayúsculas específico para el idioma español. Se utiliza el conjunto de caracteres básico predeterminado.

Conjunto de caracteres básicos
por defecto
(sin tabla de bloqueo de mayúsculas definida para español) ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Δ	ES	0	¡	PAG	¿	pag
0x01	£	_	!	1	A	Q	a	q
0x02	$	Φ	"	2	B	R	b	a
0x03	¥	Γ	#	3	do	S	do	s
0x04	mi	O	¤	4	D	yo	d	a
0x05	mi	Ohmio	%	5	mi	tú	mi	tú
0x06	Un	P	&	6	F	V	F	en
0x07	i	O	'	7	GRAMO	Yo	gramo	el
0x08	o	Σ	(	8	yo	incógnita	yo	incógnita
0x09	DO	O	)	9	I	Y	i	y
0x0A	Si	O	*	:	Yo	O	yo	el
0x0B	Ø	ESC	+	;	K	A	a	a
0x0C	ø	A	,	<	yo	O	yo	o
0x0D	ES	a	-	=	METRO	NORTE	metro	norte
0x0E	A	ß	.	>	norte	U	norte	ü
0x0F	a	MI	/	?	Oh	§	o	a

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma español
UDH contiene 0x24 0x01 0x02 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00					\|
0x01					A		a
0x02
0x03
0x04		^
0x05						U	€	tu
0x06
0x07
0x08			{
0x09	do		}		I		i
0x0A	FF
0x0B		SS2
0x0C				[
0x0D	CR2			~
0x0E				]
0x0F			\		Ó		o

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua portuguesa (alfabeto latino)

El conjunto de caracteres de bloqueo de mayúsculas
para el idioma portugués
UDH contiene 0x25 0x01 0x03 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Δ	ES	0	I	PAG	~	pag
0x01	£	_	!	1	A	Q	a	q
0x02	$	ª	"	2	B	R	b	a
0x03	¥	DO	#	3	do	S	do	s
0x04	mi	A	º	4	D	yo	d	a
0x05	mi	∞	%	5	mi	tú	mi	tú
0x06	tu	^	&	6	F	V	F	en
0x07	i	\	'	7	GRAMO	Yo	gramo	el
0x08	o	€	(	8	yo	incógnita	yo	incógnita
0x09	do	Ó	)	9	I	Y	i	y
0x0A	Si	\|	*	:	Yo	O	yo	el
0x0B	O	ESC	+	;	K	A	a	a
0x0C	o	A	,	<	yo	O	yo	o
0x0D	ES	a	-	=	METRO	U	metro	`
0x0E	A	MI	.	>	norte	U	norte	ü
0x0F	a	MI	/	?	Oh	§	o	a

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma portugués
UDH contiene 0x24 0x01 0x03 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00					\|
0x01					A		A
0x02		Φ
0x03		Γ
0x04		^
0x05	mi	Ohmio				U	€	tu
0x06		P
0x07		O
0x08		Σ	{
0x09	do	O	}		I		i
0x0A	FF
0x0B	O	SS2				A		a
0x0C	o			[		O		o
0x0D	CR2			~
0x0E	A			]
0x0F	a	MI	\		Ó		o	a

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua turca (alfabeto latino)

El conjunto de caracteres de bloqueo de mayúsculas
para el idioma turco
UDH contiene 0x25 0x01 0x01 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	@	Δ	ES	0	I	PAG	do	pag
0x01	£	_	!	1	A	Q	a	q
0x02	$	Φ	"	2	B	R	b	a
0x03	¥	Γ	#	3	do	S	do	s
0x04	€	O	¤	4	D	yo	d	a
0x05	mi	Ohmio	%	5	mi	tú	mi	tú
0x06	Un	P	&	6	F	V	F	en
0x07	i	O	'	7	GRAMO	Yo	gramo	el
0x08	o	Σ	(	8	yo	incógnita	yo	incógnita
0x09	DO	O	)	9	I	Y	i	y
0x0A	Si	O	*	:	Yo	O	yo	el
0x0B	GRAMO	ESC	+	;	K	A	a	a
0x0C	gramo	S	,	<	yo	O	yo	o
0x0D	ES	s	-	=	METRO	NORTE	metro	norte
0x0E	A	ß	.	>	norte	U	norte	ü
0x0F	a	MI	/	?	Oh	§	o	a

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma turco
UDH contiene 0x24 0x01 0x01 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00					\|
0x01
0x02
0x03						S	do	s
0x04		^
0x05							€
0x06
0x07					GRAMO		gramo
0x08			{
0x09			}		I		i
0x0A	FF
0x0B		SS2
0x0C				[
0x0D	CR2			~
0x0E				]
0x0F			\

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua urdu (escrituras árabe y latina básica)

También puede usarse para el idioma sindhi escrito también en escritura árabe.

A veces también se puede utilizar para el idioma árabe , pero los dígitos orientales (codificados aquí en su variante persa-hindú) no se utilizarán en ese caso porque el árabe estándar prefiere sus dígitos árabes orientales tradicionales y con frecuencia se reemplazarán por dígitos árabes occidentales (codificados en el conjunto de caracteres de bloqueo de desplazamiento en la columna 0x30) que también se utilizan ahora con frecuencia en urdu. Sin embargo, en la India, los teléfonos que reconocen la indicación del idioma árabe pueden sustituir las variantes persa-hindú de los dígitos árabes orientales por los dígitos árabes orientales tradicionales.

El conjunto de caracteres de bloqueo de mayúsculas
para el idioma urdu
UDH contiene 0x25 0x01 0x0D ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	A	Sí	ES	0	A	ں	◌ٔ	pag
0x01	A	ج	!	1	ض	ڻ	a	q
0x02	ب	ځ	ڏ	2	A	ڼ	b	a
0x03	ٻ	ڄ	ڍ	3	ظ	Yo	do	s
0x04	ڀ	ڃ	A	4	ع	ۄ	d	a
0x05	1	څ	ر	5	Yo	ە	mi	tú
0x06	ڦ	چ	ڑ	6	1	ہ	F	en
0x07	A mí	ڇ	ړ	7	ک	ھ	gramo	el
0x08	ۂ	Asi	)	8	ڪ	A	yo	incógnita
0x09	ٿ	خ	(	9	ګ	ی	i	y
0x0A	Si	Sí	ڙ	:	گ	ې	yo	el
0x0B	ٹ	ESC	ز	;	ڳ	ے	a	◌ٕ
0x0C	ٽ	ڌ	,	ښ	ڱ	◌ٍ	yo	◌ّ
0x0D	ES	ڈ	ږ	س	A	◌ِ	metro	◌ٓ
0x0E	1	ډ	.	ش	mi	◌ُ	norte	◌ٖ
0x0F	1	ڊ	ژ	?	1	◌ٗ	o	◌ٰ

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma urdu
UDH contiene 0x24 0x01 0x0D ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	4	◌ؓ	\|	PAG
0x01	£	=	5	◌ؔ	A	Q
0x02	$	>	6	A	B	R
0x03	¥	¡	7	؟	do	S
0x04	¿	^	8	ـ	D	yo
0x05	"	¡	9	◌ْ	mi	tú	€
0x06	¤	_	،	◌٘	F	V
0x07	%	#	؍	٫	GRAMO	Yo
0x08	&	*	{	٬	yo	incógnita
0x09	'	Al	}	1	I	Y
0x0A	FF	A	A	ٳ	Yo	O
0x0B	*	SS2	؏	ۍ	K
0x0C	+	0	◌ؐ	[	yo
0x0D	CR2	1	◌ؑ	~	METRO
0x0E	-	2	◌ؒ	]	norte
0x0F	/	3	\	۔	Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua hindi (devanagari y escritura latina básica)

El conjunto de caracteres de bloqueo de mayúsculas
para el idioma hindi
UDH contiene 0x25 0x01 0x06 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ँ	ऐ	ES	0	A	◌ा	ॐ	pag
0x01	◌ं	ऑ	!	1	A	◌ि	a	q
0x02	◌ः	A	ट	2	Mi	◌ी	b	a
0x03	A	A	A	3	य	◌ु	do	s
0x04	A.	A	A	4	A	◌ू	d	a
0x05	A.	A	A	5	ऱ	◌ृ	mi	tú
0x06	Yo	A	A	6	ल	◌ॄ	F	en
0x07	Yo	A	A.	7	A	◌ॅ	gramo	el
0x08	A	A	)	8	A	◌ॆ	yo	incógnita
0x09	A	A	(	9	A	◌े	i	y
0x0A	Si	च	a.	:	A	◌ै	yo	el
0x0B	ऌ	ESC	a.	;	A	◌ॉ	a	ॲ
0x0C	ऍ	A	,	A	A	◌ॊ	yo	ॻ
0x0D	ES	H	ध	A	ह	◌ो	metro	ॼ
0x0E	A	A	.	A mí	◌़	◌ौ	norte	ॾ
0x0F	A	A	A	?	A	◌्	o	ॿ

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma hindi
UDH contiene 0x24 0x01 0x06 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	A.	ज़	\|	PAG
0x01	£	=	A mí	ड़	A	Q
0x02	$	>	६	Sí	B	R
0x03	¥	¡	A mí	Sí	do	S
0x04	¿	^	८	Sí	D	yo
0x05	"	¡	९	ॠ	mi	tú	€
0x06	¤	_	◌॑	ॡ	F	V
0x07	%	#	◌॒	◌ॢ	GRAMO	Yo
0x08	&	*	{	◌ॣ	yo	incógnita
0x09	'	A.	}	A	I	Y
0x0A	FF	A.	◌॓	ॱ	Yo	O
0x0B	*	SS2	◌॔		K
0x0C	+	a.	Sí	[	yo
0x0D	CR2	१	Ya	~	METRO
0x0E	-	२	ग़	]	norte
0x0F	/	A	\		Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lenguas bengalí y asamés (escrituras bengalí y latina básica)

Conjunto de caracteres de bloqueo de mayúsculas
para los idiomas bengalí y asamés.
El UDH contiene 0x25 0x01 0x04 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ঁ	ঐ	ES	0	◌ব	া	ৎ	pag
0x01	◌ং		!	1	A	◌ি	a	q
0x02	◌ঃ		ট	2	ম	◌ী	b	a
0x03	অ	ও	ঠ	3	য	◌ু	do	s
0x04	আ	ঔ	ড	4	র	◌ূ	d	a
0x05	ই	ক	A.	5		◌ৃ	mi	tú
0x06	ঈ	খ	A	6	ল	◌ৄ	F	en
0x07	উ	গ	A.	7			gramo	el
0x08	ঊ	A.	)	8			yo	incógnita
0x09	ঋ	ঙ	(	9		◌ে	i	y
0x0A	Si	চ	A.	:	শ	◌ৈ	yo	el
0x0B	ঌ	ESC	দ	;	ষ		a	◌ৗ
0x0C		A.	,		স		yo	ড়
0x0D	ES	জ	ধ	প	হ	◌ো	metro	Yo
0x0E		ঝ	.	ফ	◌়	◌ৌ	norte	ৰ
0x0F	এ	ঞ	ন	?	ঽ	◌্	o	ৱ

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para los idiomas bengalí y asamés
UDH contiene 0x24 0x01 0x04 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	৬	৶	\|	PAG
0x01	£	=	৭	৷	A	Q
0x02	$	>	৮	৸	B	R
0x03	¥	¡	৯	৹	do	S
0x04	¿	^	Sí	৺	D	yo
0x05	"	¡	ৠ		mi	tú	€
0x06	¤	_	ৡ		F	V
0x07	%	#	◌ৢ		GRAMO	Yo
0x08	&	*	{		yo	incógnita
0x09	'	০	}		I	Y
0x0A	FF	১	◌ৣ		Yo	O
0x0B	*	SS2	৲		K
0x0C	+	২	৳	[	yo
0x0D	CR2	৩	৴	~	METRO
0x0E	-	৪	৵	]	norte
0x0F	/	৫	\		Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua punjabi (gurmukhī y escritura latina básica)

El conjunto de caracteres de bloqueo de desplazamiento
para el idioma punjabi
UDH contiene 0x25 0x01 0x0A ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ਁ	ਐ	ES	0	ਬ	◌ਾ	◌ੑ	pag
0x01	◌ਂ		!	1	Yo	◌ਿ	a	q
0x02	◌ਃ		ਟ	2	ਮ	◌ੀ	b	a
0x03	ਅ	ਓ	ਠ	3	ਯ	◌ੁ	do	s
0x04	ਆ	Y	ਡ	4	ਰ	◌ੂ	d	a
0x05	ਇ	ਕ	ਢ	5			mi	tú
0x06	Yo	ਖ	Yo	6	ਲ		F	en
0x07	ਉ	ਗ	ਤ	7	Yo		gramo	el
0x08	ਊ	ਘ	)	8			yo	incógnita
0x09		ਙ	(	9	ਵ	◌ੇ	i	y
0x0A	Si	ਚ	ਥ	:	Yo	◌ੈ	yo	el
0x0B		ESC	ਦ	;			a	◌ੰ
0x0C		ਛ	,		ਸ		yo	◌ੱ
0x0D	ES	ਜ	ਧ	Yo	ਹ	◌ੋ	metro	ੲ
0x0E		ਝ	.	ਫ	◌਼	◌ੌ	norte	Yo
0x0F	ਏ	ਞ	ਨ	?		◌੍	o	Yo

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma punjabi
UDH contiene 0x24 0x01 0x0A ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	Yo		\|	PAG
0x01	£	=	Yo		A	Q
0x02	$	>	੬		B	R
0x03	¥	¡	Yo		do	S
0x04	¿	^	Yo		D	yo
0x05	"	¡	Yo		mi	tú	€
0x06	¤	_	Sí		F	V
0x07	%	#	ਗ਼		GRAMO	Yo
0x08	&	*	{		yo	incógnita
0x09	'	A.	}		I	Y
0x0A	FF	A.	ਜ਼		Yo	O
0x0B	*	SS2	Yo		K
0x0C	+	੦	Sí	[	yo
0x0D	CR2	੧	◌ੵ	~	METRO
0x0E	-	Yo		]	norte
0x0F	/	Yo	\		Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua gujarati (escrituras gujarati y latinas básicas)

El conjunto de caracteres de bloqueo de desplazamiento
para el idioma gujarati
UDH contiene 0x25 0x01 0x05 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ઁ	ઐ	ES	0	બ	◌ા	ૐ	pag
0x01	◌ં	ઑ	!	1	Yo	◌િ	a	q
0x02	◌ઃ		ટ	2	મ	◌ી	b	a
0x03	Yo	ઓ	ઠ	3	ય	◌ુ	do	s
0x04	આ	Sí	ડ	4	A	◌ૂ	d	a
0x05	ઇ	İ	En	5		◌ૃ	mi	tú
0x06	Yo	ખ	Yo	6	લ	◌ૄ	F	en
0x07	Yo	ગ	Yo	7	Yo	◌ૅ	gramo	el
0x08	Yo	Yo	)	8			yo	incógnita
0x09	ઋ	Yo	(	9	Yo	◌ે	i	y
0x0A	Si	ચ	A	:	Yo	◌ૈ	yo	el
0x0B	ઌ	ESC	દ	;	ષ	◌ૉ	a	ૠ
0x0C	ઍ	છ	,		Yo		yo	ૡ
0x0D	ES	જ	ધ	Yo	હ	◌ો	metro	◌ૢ
0x0E		n	.	Yo	◌઼	◌ૌ	norte	◌ૣ
0x0F	એ	En	Yo	?	n	◌્	o	૱

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma gujarati
UDH contiene 0x24 0x01 0x05 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	Yo		\|	PAG
0x01	£	=	૫		A	Q
0x02	$	>	૬		B	R
0x03	¥	¡	Yo		do	S
0x04	¿	^	૮		D	yo
0x05	"	¡	૯		mi	tú	€
0x06	¤	_			F	V
0x07	%	#			GRAMO	Yo
0x08	&	*	{		yo	incógnita
0x09	'	A.	}		I	Y
0x0A	FF	A.			Yo	O
0x0B	*	SS2			K
0x0C	+	૦		[	yo
0x0D	CR2	૧		~	METRO
0x0E	-	૨		]	norte
0x0F	/	Yo	\		Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua oriya (Oriya y escritura latina básica)

El conjunto de caracteres de bloqueo de mayúsculas
para el idioma Oriya
UDH contiene 0x25 0x01 0x09 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ଁ	ଐ	ES	0	ବ	◌ା	◌ୖ	pag
0x01	◌ଂ		!	1	ଭ	◌ି	a	q
0x02	◌ଃ		ଟ	2	ମ	◌ୀ	b	a
0x03	ଅ	ଓ	ଠ	3	ଯ	◌ୁ	do	s
0x04	ଆ	ଔ	ଡ	4	ର	◌ୂ	d	a
0x05	ଇ	କ	ଢ	5		◌ୃ	mi	tú
0x06	ଈ	ଖ	ଣ	6	ଲ	Sí	F	en
0x07	ଉ	ଗ	ତ	7	ଳ		gramo	el
0x08	ଊ	ଘ	)	8			yo	incógnita
0x09	ଋ	ଙ	(	9	ଵ	◌େ	i	y
0x0A	Si	ଚ	ଥ	:	ଶ	◌ୈ	yo	el
0x0B	ଌ	ESC	ଦ	;	ଷ		a	◌ୗ
0x0C		ଛ	,		ସ		yo	ୠ
0x0D	ES	ଜ	ଧ	ପ	ହ	◌ୋ	metro	ୡ
0x0E		ଝ	.	ଫ	◌଼	◌ୌ	norte	◌ୢ
0x0F	ଏ	ଞ	ନ	?	ଽ	◌୍	o	◌ୣ

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma Oriya
UDH contiene 0x24 0x01 0x09 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	Yo		\|	PAG
0x01	£	=	୫		A	Q
0x02	$	>	୬		B	R
0x03	¥	¡	୭		do	S
0x04	¿	^	୮		D	yo
0x05	"	¡	୯		mi	tú	€
0x06	¤	_	ଡ଼		F	V
0x07	%	#	ଢ଼		GRAMO	Yo
0x08	&	*	{		yo	incógnita
0x09	'	A.	}		I	Y
0x0A	FF	A.	ୟ		Yo	O
0x0B	*	SS2	A		K
0x0C	+	୦	ୱ	[	yo
0x0D	CR2	୧		~	METRO
0x0E	-	Sí		]	norte
0x0F	/	Yo	\		Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua tamil (Tamil y escritura latina básica)

El conjunto de caracteres de bloqueo de desplazamiento
para el idioma tamil
UDH contiene 0x25 0x01 0x0B ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00		ஐ	ES	0		◌ா	ௐ	pag
0x01	◌ஂ		!	1		◌ி	a	q
0x02	◌ஃ	ஒ	ட	2	ம	◌ீ	b	a
0x03	அ	ஓ		3	ய	◌ு	do	s
0x04	ஆ	ஔ		4	ர	◌ூ	d	a
0x05	இ	க		5	ற		mi	tú
0x06	ஈ		ண	6	ல		F	en
0x07	உ		த	7	ள		gramo	el
0x08	ஊ		)	8	ழ	◌ெ	yo	incógnita
0x09		ங	(	9	வ	◌ே	i	y
0x0A	Si	ச		:	ஶ	◌ை	yo	el
0x0B		ESC		;	ஷ		a	◌ௗ
0x0C			,	ன	ஸ	◌ொ	yo	௰
0x0D	ES	ஜ		ப	ஹ	◌ோ	metro	௱
0x0E	எ		.			◌ௌ	norte	௲
0x0F	ஏ	ஞ	ந	?		◌்	o	௹

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma tamil
UDH contiene 0x24 0x01 0x0B ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	Yo		\|	PAG
0x01	£	=	௫		A	Q
0x02	$	>	௬		B	R
0x03	¥	¡	௭		do	S
0x04	¿	^	௮		D	yo
0x05	"	¡	௯		mi	tú	€
0x06	¤	_	௳		F	V
0x07	%	#	௴		GRAMO	Yo
0x08	&	*	{		yo	incógnita
0x09	'	A.	}		I	Y
0x0A	FF	A.	௵		Yo	O
0x0B	*	SS2	௶		K
0x0C	+	௦	௷	[	yo
0x0D	CR2	௧	௸	~	METRO
0x0E	-	En	௺	]	norte
0x0F	/	௩	\		Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua telugu (telugu y escritura latina básica)

El conjunto de caracteres de bloqueo de desplazamiento
para el idioma telugu
UDH contiene 0x25 0x01 0x0C ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70
0x00	◌ఁ	ఐ	ES	0	బ	◌ా	◌ౕ	pag
0x01	◌ం		!	1	A	◌ి	a	q
0x02	◌ః	ఒ	ట	2	మ	◌ీ	b	a
0x03	అ	ఓ	ఠ	3	య	◌ు	do	s
0x04	A	ఔ	డ	4	ర	◌ూ	d	a
0x05	ఇ	క	A	5	ఱ	◌ృ	mi	tú
0x06	A	ఖ	A	6	ల	◌ౄ	F	en
0x07	ఉ	గ	A.	7	ళ		gramo	el
0x08	ఊ	A	)	8		◌ె	yo	incógnita
0x09	ఋ	ఙ	(	9	A	◌ే	i	y
0x0A	Si	చ	A.	:	శ	◌ై	yo	el
0x0B	ఌ	ESC	ద	;	ష		a	◌ౖ
0x0C		A	,		స	◌ొ	yo	ౠ
0x0D	ES	జ	ధ	A	హ	◌ో	metro	ౡ
0x0E	ఎ	ఝ	.	A		◌ౌ	norte	◌ౢ
0x0F	ఏ	ఞ	న	?	ఽ	◌్	o	◌ౣ

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma telugu
UDH contiene 0x24 0x01 0x0C ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50
0x00	@	<	౪	౽	\|	PAG
0x01	£	=	౫	౾	A	Q
0x02	$	>	౬	౿	B	R
0x03	¥	¡	౭		do	S
0x04	¿	^	౮		D	yo
0x05	"	¡	౯		mi	tú
0x06	¤	_	ౘ		F	V
0x07	%	#	ౙ		GRAMO	Yo
0x08	&	*	{		yo	incógnita
0x09	'		}		I	Y
0x0A	FF		౸		Yo	O
0x0B	*	SS2	౹		K
0x0C	+	౦	౺	[	yo
0x0D	CR2	౧	౻	~	METRO
0x0E	-	౨	౼	]	norte
0x0F	/	౩	\		Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua kannada (kannada y escritura latina básica)

El conjunto de caracteres de bloqueo de desplazamiento
para el idioma kannada
UDH contiene 0x25 0x01 0x07 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70 !
0x00		ಐ	ES	0	ಬ	ಾ	ೕ	pag
0x01	ಂ		!	1	ಭ	ಿ	a	q
0x02	ಃ	ಒ	ಟ	2	ಮ	ೀ	b	a
0x03	ಅ	ಓ	ಠ	3	ಯ	ು	do	s
0x04	ಆ	ಔ	ಪ	4	ರ	ೂ	d	a
0x05	ಇ	ಕ	ಢ	5	ಱ	ೃ	mi	tú
0x06	ಈ	ಖ	ಣ	6	ಲ	ೄ	F	en
0x07	ಉ	ಗ	ತ	7	ಳ		gramo	el
0x08	ಊ	ಘ	)	8		ೆ	yo	incógnita
0x09	ಋ	ಙ	(	9	ವ	ೇ	i	y
0x0A	Si	ಚ	ಥ	:	ಶ	A	yo	el
0x0B	ಌ	ESC	ದ	;	ಷ		a	ೖ
0x0C		ಛ	,		ಸ	ೊ	yo	ೠ
0x0D	ES	ಜ	ಧ	ಪ	ಹ	ೋ	metro	ೡ
0x0E	ಎ	ಝ	.	ಫ	಼	ೌ	norte	ೢ
0x0F	ಏ	ಞ	ನ	?	ಽ	್	o	A

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma kannada
UDH contiene 0x24 0x01 0x07 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	೪		\|	PAG
0x01	£	=	೫		A	Q
0x02	$	>	೬		B	R
0x03	¥	¡	೭		do	S
0x04	¿	^	೮		D	yo
0x05	"	¡	೯		mi	tú	€
0x06	¤	_	ೞ		F	V
0x07	%	#	ೱ		GRAMO	Yo
0x08	&	*	{		yo	incógnita
0x09	'	A.	}		I	Y
0x0A	FF	A.	ೲ		Yo	O
0x0B	*	SS2			K
0x0C	+	೦		]	yo
0x0D	CR2	೧		~	METRO
0x0E	-	೨		]	norte
0x0F	/	೩	\		Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Lengua malayalam (malayalam y escritura latina básica)

El conjunto de caracteres de bloqueo de mayúsculas
para el idioma malayo
UDH contiene 0x25 0x01 0x08 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60	0x70 !
0x00		ഐ	ES	0	ബ	ാ	A	pag
0x01	ം		!	1	Yo	ി	a	q
0x02	ഃ	ഒ	ട	2	മ	ീ	b	a
0x03	അ	ഓ	ഠ	3	യ	A	do	s
0x04	ആ	ഔ	ഡ	4	ര	A	d	a
0x05	ഇ	ക	ഢ	5	റ	ൃ	mi	tú
0x06	Sí	ഖ	A	6	ല	A	F	en
0x07	ഉ	ഗ	ത	7	ള		gramo	el
0x08	ഊ	ഘ	)	8	ഴ	A	yo	incógnita
0x09	ഋ	ങ	(	9	A	A	i	y
0x0A	Si	ച	A	:	ശ	Yo	yo	el
0x0B	ഌ	ESC	ദ	;	ഷ		a	ൠ
0x0C		ഛ	,		സ	Yo	yo	ൡ
0x0D	ES	ജ	ധ	A	ഹ	ോ	metro	A
0x0E	എ	ഝ	.	ഫ		ൌ	norte	A
0x0F	ഏ	ഞ	ന	?	ഽ	്	o	൹

LF es un control de avance de línea.
CR es un control de retorno de carro, o relleno.
ESC es un control de escape.
SP es un personaje espacial.

El conjunto de caracteres de desplazamiento único
para el idioma malayo
UDH contiene 0x25 0x01 0x08 ^[2]
	0x00	0x10	0x20	0x30	0x40	0x50	0x60
0x00	@	<	Yo	A	-	PAG
0x01	£	=	൫	A mí	A	Q
0x02	$	>	൬	ൽ	B	R
0x03	¥	¡	Yo	ൾ	do	S
0x04	¿	^	൮	ൿ	D	yo
0x05	"	¡	൯		mi	tú	€
0x06	¤	_	A		F	V
0x07	%	#	൱		GRAMO	Yo
0x08	&	*	{		yo	incógnita
0x09	'	A.	}		I	Y
0x0A	FF	A.	൲		Yo	O
0x0B	*	SS2	A		K
0x0C	+	A	A mí	[	yo
0x0D	CR2	൧	A	~	METRO
0x0E	-	൨	A mí	]	norte
0x0F	/	Yo	\		Oh

FF es un control de salto de página. Si no se reconoce, se tratará como LF .
CR2 es un carácter de control. No se codificará ningún carácter específico de un idioma en esta posición.
SS2 es un segundo control de escape de turno único reservado para futuras ampliaciones.

Véase también

Referencias

^ 3GPP TS 23.038, Alfabetos e información específica del idioma.
^ abcdefghijklmnopqrstu vwxyz aa ab Alfabetos e información específica del idioma (3G TS 23.038 versión 12.0.0) (archivo .doc comprimido), ETSI, septiembre de 2014.
^ "Los mensajes de texto [...] contienen hasta 140 octetos." en 3GPP TS 23.040 Realización técnica del Servicio de Mensajes Cortos (SMS)
^ GSM 03.38 a Unicode GSM 03.38 a Unicode
^ Chad Selph (8 de noviembre de 2012). "Aventuras en SMS Unicode". Twilio. Archivado desde el original el 8 de septiembre de 2015. Consultado el 28 de agosto de 2015 .

Enlaces externos

GSM 03.38 a Unicode: el archivo de datos de mapeo de GSM 03.38 a Unicode de unicode.org.
Texto a GSM 03.38 en C# - Mapeo de texto a GSM 03.38 en el lenguaje de programación C# .
JCharset - El paquete Java Charset incluye soporte para GSM 03.38 - JCharset - El paquete Java Charset incluye soporte para GSM 03.38.
Expresión regular de Java para GSM 03.38 - Expresión regular de Java para GSM 03.38 con comentarios de código que explican la expresión regular.
Límite de caracteres de SMS: comprensión del límite de caracteres de SMS.
Componentes internacionales para Unicode (ICU), archivo de mapeo gsm-03.38-2009.ucm

[3GPP_23.038-1] 3GPP TS 23.038, Alfabetos e información específica del idioma.

[3G-TS-23.038-2] qrstu vwxyz aa ab Alfabetos e información específica del idioma (3G TS 23.038 versión 12.0.0) (archivo .doc comprimido), ETSI, septiembre de 2014.

[3] "Los mensajes de texto [...] contienen hasta 140 octetos." en 3GPP TS 23.040 Realización técnica del Servicio de Mensajes Cortos (SMS)

[GSM_03.38_to_Unicode-4] GSM 03.38 a Unicode GSM 03.38 a Unicode

[5] Chad Selph (8 de noviembre de 2012). "Aventuras en SMS Unicode". Twilio. Archivado desde el original el 8 de septiembre de 2015. Consultado el 28 de agosto de 2015 .