Se usó la API de Cloud Translation para traducir esta página.

El protocolo de envío web

Matt Gaunt

Vimos cómo se puede usar una biblioteca para activar mensajes push, pero ¿qué hacen exactamente estas bibliotecas?

Bueno, realizan solicitudes de red y, al mismo tiempo, se aseguran de que estas tengan el formato correcto. La especificación que define esta solicitud de red es el protocolo Web Push.

Diagrama del envío de un mensaje push desde tu servidor a un servicio push

En esta sección, se describe cómo el servidor puede identificarse con las claves del servidor de aplicaciones y cómo se envía la carga útil encriptada y los datos asociados.

Este no es un aspecto atractivo de los mensajes web push y no soy experto en encriptación, pero analicemos cada parte, ya que es útil saber qué hacen estas bibliotecas en segundo plano.

Claves del servidor de aplicaciones

Cuando suscribimos a un usuario, pasamos un applicationServerKey. Esta clave se pasa al servicio push y se usa para verificar que la aplicación que suscribió al usuario también sea la que activa los mensajes push.

Cuando activamos un mensaje push, hay un conjunto de encabezados que enviamos que permiten que el servicio de envío autentique la aplicación. (Esto se define en la especificación de VAPID).

¿Qué significa todo esto y qué sucede exactamente? Estos son los pasos que se siguen para la autenticación del servidor de aplicaciones:

El servidor de aplicaciones firma cierta información JSON con su clave de aplicación privada.
Esta información firmada se envía al servicio de notificaciones push como un encabezado en una solicitud POST.
El servicio push usa la clave pública almacenada que recibió de pushManager.subscribe() para verificar que la información recibida esté firmada por la clave privada relacionada con la clave pública. Recuerda: La clave pública es el applicationServerKey que se pasa a la llamada de suscripción.
Si la información firmada es válida, el servicio de envío envía el mensaje push al usuario.

A continuación, se muestra un ejemplo de este flujo de información. (Ten en cuenta la leyenda en la parte inferior izquierda para indicar las claves públicas y privadas).

Ilustración de cómo se usa la clave del servidor de aplicaciones privado cuando se envía un mensaje

La "información firmada" que se agrega a un encabezado en la solicitud es un token web JSON.

Token web JSON

Un token web JSON (o JWT, en resumen) es una forma de enviar un mensaje a un tercero para que el receptor pueda validar quién lo envió.

Cuando un tercero recibe un mensaje, debe obtener la clave pública del remitente y usarla para validar la firma del JWT. Si la firma es válida, el JWT debe haberse firmado con la clave privada coincidente, por lo que debe ser del remitente esperado.

Hay una gran cantidad de bibliotecas en https://jwt.io/ que pueden realizar la firma por ti. Te recomiendo que lo hagas siempre que sea posible. Para completar la información, veamos cómo crear un JWT firmado de forma manual.

Envío web y JWT firmados

Un JWT firmado es solo una cadena, aunque se puede considerar como tres cadenas unidas con puntos.

Ilustración de las cadenas en un token web JSON

La primera y la segunda cadenas (la información y los datos del JWT) son fragmentos de JSON que se codificaron en base64, lo que significa que son legibles de forma pública.

La primera cadena es información sobre el JWT en sí, que indica qué algoritmo se usó para crear la firma.

La información del JWT para los mensajes web push debe contener la siguiente información:

{
  "typ": "JWT",
  "alg": "ES256"
}

La segunda cadena son los datos del JWT. Esto proporciona información sobre el remitente del JWT, para quién está destinado y durante cuánto tiempo es válido.

En el caso de los mensajes web push, los datos tendrían el siguiente formato:

{
  "aud": "https://some-push-service.org",
  "exp": "1469618703",
  "sub": "mailto:example@web-push-book.org"
}

El valor aud es el "público", es decir, para quién está destinado el JWT. Para los mensajes push web, el público es el servicio push, por lo que lo configuramos en el origen del servicio push.

El valor exp es el vencimiento del JWT, lo que evita que los espías puedan volver a usar un JWT si lo interceptan. El vencimiento es una marca de tiempo en segundos y no debe superar las 24 horas.

En Node.js, el vencimiento se establece con lo siguiente:

Math.floor(Date.now() / 1000) + 12 * 60 * 60;

Son 12 horas en lugar de 24 para evitar cualquier problema con las diferencias de reloj entre la aplicación de envío y el servicio push.

Por último, el valor de sub debe ser una URL o una dirección de correo electrónico mailto. Esto se hace para que, si un servicio push necesita comunicarse con el remitente, pueda encontrar la información de contacto en el JWT. (por eso la biblioteca de notificaciones web push necesitaba una dirección de correo electrónico).

Al igual que la información del JWT, los datos del JWT se codifican como una cadena base64 segura para URL.

La tercera cadena, la firma, es el resultado de tomar las dos primeras cadenas (la información y los datos de JWT), unirlas con un carácter de punto, al que llamaremos “token sin firmar”, y firmarlo.

El proceso de firma requiere encriptar el "token sin firmar" con ES256. Según las especificaciones de JWT, ES256 es la sigla en inglés de "ECDSA con la curva P-256 y el algoritmo de hash SHA-256". Con la criptografía web, puedes crear la firma de la siguiente manera:

// Utility function for UTF-8 encoding a string to an ArrayBuffer.
const utf8Encoder = new TextEncoder('utf-8');

// The unsigned token is the concatenation of the URL-safe base64 encoded
// header and body.
const unsignedToken = .....;

// Sign the |unsignedToken| using ES256 (SHA-256 over ECDSA).
const key = {
  kty: 'EC',
  crv: 'P-256',
  x: window.uint8ArrayToBase64Url(
    applicationServerKeys.publicKey.subarray(1, 33)),
  y: window.uint8ArrayToBase64Url(
    applicationServerKeys.publicKey.subarray(33, 65)),
  d: window.uint8ArrayToBase64Url(applicationServerKeys.privateKey),
};

// Sign the |unsignedToken| with the server's private key to generate
// the signature.
return crypto.subtle.importKey('jwk', key, {
  name: 'ECDSA', namedCurve: 'P-256',
}, true, ['sign'])
.then((key) => {
  return crypto.subtle.sign({
    name: 'ECDSA',
    hash: {
      name: 'SHA-256',
    },
  }, key, utf8Encoder.encode(unsignedToken));
})
.then((signature) => {
  console.log('Signature: ', signature);
});

Un servicio push puede validar un JWT con la clave pública del servidor de aplicaciones para desencriptar la firma y asegurarse de que la cadena desencriptada sea la misma que el "token sin firmar" (es decir, las dos primeras cadenas en el JWT).

El JWT firmado (es decir, las tres cadenas unidas por puntos) se envía al servicio de notificaciones push web como el encabezado Authorization con WebPush agregado al principio, de la siguiente manera:

Authorization: 'WebPush [JWT Info].[JWT Data].[Signature]';

El Protocolo de notificaciones push web también establece que la clave pública del servidor de aplicaciones se debe enviar en el encabezado Crypto-Key como una cadena codificada en base64 segura para URL con p256ecdsa= al principio.

Crypto-Key: p256ecdsa=[URL Safe Base64 Public Application Server Key]

La encriptación de la carga útil

A continuación, veremos cómo podemos enviar una carga útil con un mensaje push para que, cuando nuestra app web reciba un mensaje push, pueda acceder a los datos que recibe.

Una pregunta común que surge de quienes usaron otros servicios push es por qué se debe encriptar la carga útil de los mensajes push web. Con las apps nativas, los mensajes push pueden enviar datos como texto sin formato.

Parte de la belleza de los mensajes push web es que, como todos los servicios push usan la misma API (el protocolo de notificaciones push web), a los desarrolladores no les importa quién es el servicio push. Podemos realizar una solicitud en el formato correcto y esperar que se envíe un mensaje push. La desventaja de esto es que los desarrolladores podrían enviar mensajes a un servicio de envío que no sea confiable. Cuando se encripta la carga útil, un servicio push no puede leer los datos que se envían. Solo el navegador puede desencriptar la información. Esto protege los datos del usuario.

La encriptación de la carga útil se define en las especificaciones de encriptación de mensajes.

Antes de analizar los pasos específicos para encriptar una carga útil de mensajes push, deberíamos analizar algunas técnicas que se usarán durante el proceso de encriptación. (Un gran agradecimiento a Mat Scales por su excelente artículo sobre la encriptación push).

ECDH y HKDF

Tanto ECDH como HKDF se usan durante todo el proceso de encriptación y ofrecen beneficios para encriptar información.

ECDH: Intercambio de claves de Diffie-Hellman de curva elíptica

Imagina que tienes dos personas que quieren compartir información, Alicia y Roberto. Alicia y Roberto tienen sus propias claves públicas y privadas. Alice y Bob comparten sus claves públicas entre sí.

La propiedad útil de las claves generadas con ECDH es que Alice puede usar su clave privada y la clave pública de Bob para crear el valor secreto "X". Roberto puede hacer lo mismo, tomar su clave privada y la clave pública de Alicia para crear de forma independiente el mismo valor "X". Esto hace que “X” sea un secreto compartido, y Alice y Bob solo tuvieron que compartir su clave pública. Ahora Roberto y Alicia pueden usar “X” para encriptar y desencriptar mensajes entre ellos.

Según mi conocimiento, la ECDH define las propiedades de las curvas que permiten esta "función" de crear un secreto compartido "X".

Esta es una explicación general de la ECDH. Si quieres obtener más información, te recomiendo que mires este video.

En términos de código, la mayoría de los lenguajes o plataformas incluyen bibliotecas para facilitar la generación de estas claves.

En el nodo, haríamos lo siguiente:

const keyCurve = crypto.createECDH('prime256v1');
keyCurve.generateKeys();

const publicKey = keyCurve.getPublicKey();
const privateKey = keyCurve.getPrivateKey();

HKDF: Función de derivación de claves basada en HMAC

Wikipedia tiene una descripción concisa del HKDF:

HKDF es una función de derivación de claves basada en HMAC que transforma cualquier material de clave débil en material de clave criptográficamente sólido. Se puede usar, por ejemplo, para convertir secretos compartidos intercambiados de Diffie Hellman en material de clave adecuado para usar en la encriptación, la verificación de integridad o la autenticación.

En esencia, HKDF tomará una entrada que no es particularmente segura y la hará más segura.

La especificación que define esta encriptación requiere el uso de SHA-256 como algoritmo de hash, y las claves resultantes para HKDF en los mensajes push web no deben tener más de 256 bits (32 bytes).

En Node, esto se podría implementar de la siguiente manera:

// Simplified HKDF, returning keys up to 32 bytes long
function hkdf(salt, ikm, info, length) {
  // Extract
  const keyHmac = crypto.createHmac('sha256', salt);
  keyHmac.update(ikm);
  const key = keyHmac.digest();

  // Expand
  const infoHmac = crypto.createHmac('sha256', key);
  infoHmac.update(info);

  // A one byte long buffer containing only 0x01
  const ONE_BUFFER = new Buffer(1).fill(1);
  infoHmac.update(ONE_BUFFER);

  return infoHmac.digest().slice(0, length);
}

Este código de ejemplo se basa en el artículo de Mat Scale.

Esto abarca de forma imprecisa ECDH y HKDF.

ECDH es una forma segura de compartir claves públicas y generar un secreto compartido. HKDF es una forma de tomar material no seguro y hacerlo seguro.

Se usará durante la encriptación de nuestra carga útil. A continuación, veamos qué tomamos como entrada y cómo se encripta.

Entradas

Cuando queremos enviar un mensaje push a un usuario con una carga útil, necesitamos tres entradas:

La carga útil en sí.
El secreto auth de PushSubscription.
La clave p256dh de PushSubscription.

Vimos que los valores auth y p256dh se recuperan de un PushSubscription, pero, a modo de recordatorio rápido, si tenemos una suscripción, necesitaremos estos valores:

subscription.toJSON().keys.auth;
subscription.toJSON().keys.p256dh;

subscription.getKey('auth');
subscription.getKey('p256dh');

El valor auth debe tratarse como un secreto y no compartirlo fuera de tu aplicación.

La clave p256dh es una clave pública, a veces denominada clave pública del cliente. Aquí, nos referiremos a p256dh como la clave pública de la suscripción. El navegador genera la clave pública de suscripción. El navegador mantendrá la clave privada en secreto y la usará para desencriptar la carga útil.

Estos tres valores, auth, p256dh y payload, se necesitan como entradas, y el resultado del proceso de encriptación será la carga útil encriptada, un valor de sal y una clave pública que se usa solo para encriptar los datos.

Salt

La sal debe ser de 16 bytes de datos aleatorios. En NodeJS, haríamos lo siguiente para crear una sal:

const salt = crypto.randomBytes(16);

Claves públicas y privadas

Las claves públicas y privadas deben generarse con una curva elíptica P-256, que haríamos en Node de la siguiente manera:

const localKeysCurve = crypto.createECDH('prime256v1');
localKeysCurve.generateKeys();

const localPublicKey = localKeysCurve.getPublicKey();
const localPrivateKey = localKeysCurve.getPrivateKey();

Nos referiremos a estas claves como "claves locales". Se usan solo para la encriptación y no tienen nada que ver con las claves del servidor de aplicaciones.

Con la carga útil, el secreto de autenticación y la clave pública de suscripción como entradas y con una sal y un conjunto de claves locales generados recientemente, ya podemos realizar la encriptación.

Secret compartido

El primer paso es crear un secreto compartido con la clave pública de la suscripción y nuestra nueva clave privada (¿recuerdas la explicación de ECDH con Alice y Bob? Así de simple).

const sharedSecret = localKeysCurve.computeSecret(
  subscription.keys.p256dh,
  'base64',
);

Esto se usa en el siguiente paso para calcular la clave pseudoaleatoria (PRK).

Clave pseudoaleatoria

La clave pseudoaleatoria (PRK) es la combinación del secreto de autenticación de la suscripción push y el secreto compartido que acabamos de crear.

const authEncBuff = new Buffer('Content-Encoding: auth\0', 'utf8');
const prk = hkdf(subscription.keys.auth, sharedSecret, authEncBuff, 32);

Es posible que te preguntes para qué sirve la cadena Content-Encoding: auth\0. En resumen, no tiene un propósito claro, aunque los navegadores podrían desencriptar un mensaje entrante y buscar la codificación de contenido esperada. \0 agrega un byte con un valor de 0 al final del búfer. Los navegadores que desencriptan el mensaje esperan tantos bytes para la codificación de contenido, seguidos de un byte con el valor 0 y, luego, los datos encriptados.

Nuestra clave pseudoaleatoria simplemente ejecuta la autenticación, el secreto compartido y una parte de la información de codificación a través de HKDF (es decir, lo hace más seguro a nivel criptográfico).

Contexto

El "contexto" es un conjunto de bytes que se usa para calcular dos valores más adelante en el navegador de encriptación. Es, en esencia, un array de bytes que contiene la clave pública de la suscripción y la clave pública local.

const keyLabel = new Buffer('P-256\0', 'utf8');

// Convert subscription public key into a buffer.
const subscriptionPubKey = new Buffer(subscription.keys.p256dh, 'base64');

const subscriptionPubKeyLength = new Uint8Array(2);
subscriptionPubKeyLength[0] = 0;
subscriptionPubKeyLength[1] = subscriptionPubKey.length;

const localPublicKeyLength = new Uint8Array(2);
subscriptionPubKeyLength[0] = 0;
subscriptionPubKeyLength[1] = localPublicKey.length;

const contextBuffer = Buffer.concat([
  keyLabel,
  subscriptionPubKeyLength.buffer,
  subscriptionPubKey,
  localPublicKeyLength.buffer,
  localPublicKey,
]);

El búfer de contexto final es una etiqueta, la cantidad de bytes en la clave pública de suscripción, seguida de la clave en sí, luego la cantidad de bytes de la clave pública local, seguida de la clave en sí.

Con este valor de contexto, podemos usarlo en la creación de un nonce y una clave de encriptación de contenido (CEK).

Clave de encriptación de contenido y nonce

Un nonce es un valor que evita los ataques de repetición, ya que solo debe usarse una vez.

La clave de encriptación de contenido (CEK) es la clave que se usará en última instancia para encriptar nuestra carga útil.

Primero, debemos crear los bytes de datos para el nonce y la CEK, que es simplemente una cadena de codificación de contenido seguida del búfer de contexto que acabamos de calcular:

const nonceEncBuffer = new Buffer('Content-Encoding: nonce\0', 'utf8');
const nonceInfo = Buffer.concat([nonceEncBuffer, contextBuffer]);

const cekEncBuffer = new Buffer('Content-Encoding: aesgcm\0');
const cekInfo = Buffer.concat([cekEncBuffer, contextBuffer]);

Esta información se ejecuta a través de HKDF combinando la sal y la PRK con nonceInfo y cekInfo:

// The nonce should be 12 bytes long
const nonce = hkdf(salt, prk, nonceInfo, 12);

// The CEK should be 16 bytes long
const contentEncryptionKey = hkdf(salt, prk, cekInfo, 16);

Esto nos brinda nuestro nonce y la clave de encriptación de contenido.

Realiza la encriptación

Ahora que tenemos nuestra clave de encriptación de contenido, podemos encriptar la carga útil.

Creamos un algoritmo de cifrado AES128 con la clave de encriptación de contenido como clave, y el nonce es un vector de inicialización.

En Node, se hace de la siguiente manera:

const cipher = crypto.createCipheriv(
  'id-aes128-GCM',
  contentEncryptionKey,
  nonce,
);

Antes de encriptar nuestra carga útil, debemos definir cuánto padding queremos agregar al principio de la carga útil. El motivo por el que queremos agregar padding es que evita el riesgo de que los espías puedan determinar los “tipos” de mensajes en función del tamaño de la carga útil.

Debes agregar dos bytes de padding para indicar la longitud de cualquier padding adicional.

Por ejemplo, si no agregas relleno, tendrías dos bytes con el valor 0, es decir, no hay relleno. Después de estos dos bytes, leerás la carga útil. Si agregaste 5 bytes de padding, los primeros dos bytes tendrán un valor de 5, por lo que el consumidor leerá cinco bytes adicionales y, luego, comenzará a leer la carga útil.

const padding = new Buffer(2 + paddingLength);
// The buffer must be only zeros, except the length
padding.fill(0);
padding.writeUInt16BE(paddingLength, 0);

Luego, ejecutamos nuestro padding y nuestra carga útil a través de este algoritmo de cifrado.

const result = cipher.update(Buffer.concat(padding, payload));
cipher.final();

// Append the auth tag to the result -
// https://nodejs.org/api/crypto.html#crypto_cipher_getauthtag
const encryptedPayload = Buffer.concat([result, cipher.getAuthTag()]);

Ahora tenemos nuestra carga útil encriptada. ¡Bien!

Solo queda determinar cómo se envía esta carga útil al servicio de push.

Encabezados y cuerpo de la carga útil encriptada

Para enviar esta carga útil encriptada al servicio de notificaciones push, debemos definir algunos encabezados diferentes en nuestra solicitud POST.

Encabezado de encriptación

El encabezado "Encryption" debe contener la sal que se usa para encriptar la carga útil.

La sal de 16 bytes debe estar codificada en base64 segura para URL y agregarse al encabezado de encriptación de la siguiente manera:

Encryption: salt=[URL Safe Base64 Encoded Salt]

Encabezado de Crypto-Key

Vimos que el encabezado Crypto-Key se usa en la sección "Claves del servidor de aplicaciones" para contener la clave pública del servidor de aplicaciones.

Este encabezado también se usa para compartir la clave pública local que se usa para encriptar la carga útil.

El encabezado resultante se ve de la siguiente manera:

Crypto-Key: dh=[URL Safe Base64 Encoded Local Public Key String]; p256ecdsa=[URL Safe Base64 Encoded Public Application Server Key]

Encabezados de tipo, longitud y codificación de contenido

El encabezado Content-Length es la cantidad de bytes en la carga útil encriptada. Los encabezados "Content-Type" y "Content-Encoding" son valores fijos. Esto se muestra a continuación.

Content-Length: [Number of Bytes in Encrypted Payload]
Content-Type: 'application/octet-stream'
Content-Encoding: 'aesgcm'

Con estos encabezados configurados, debemos enviar la carga útil encriptada como el cuerpo de la solicitud. Observa que Content-Type se configuró como application/octet-stream. Esto se debe a que la carga útil encriptada se debe enviar como un flujo de bytes.

En NodeJS, lo haríamos de la siguiente manera:

const pushRequest = https.request(httpsOptions, function(pushResponse) {
pushRequest.write(encryptedPayload);
pushRequest.end();

¿Más encabezados?

Analizamos los encabezados que se usan para las claves de JWT o servidor de aplicaciones (es decir, cómo identificar la aplicación con el servicio de envío) y los encabezados que se usan para enviar una carga útil encriptada.

Hay encabezados adicionales que usan los servicios de envío para alterar el comportamiento de los mensajes enviados. Algunos de estos encabezados son obligatorios, mientras que otros son opcionales.

Encabezado de TTL

Obligatorio

TTL (o tiempo de actividad) es un número entero que especifica la cantidad de segundos que deseas que tu mensaje push permanezca en el servicio de notificaciones push antes de que se entregue. Cuando venza el TTL, el mensaje se quitará de la cola del servicio push y no se entregará.

TTL: [Time to live in seconds]

Si configuras un TTL de cero, el servicio push intentará entregar el mensaje de inmediato, pero, si no se puede acceder al dispositivo, tu mensaje se descartará de inmediato de la cola del servicio push.

Técnicamente, un servicio push puede reducir el TTL de un mensaje push si así lo desea. Para saber si esto sucedió, examina el encabezado TTL en la respuesta de un servicio push.

Tema

Opcional

Los temas son cadenas que se pueden usar para reemplazar un mensaje pendiente por uno nuevo si tienen nombres de temas coincidentes.

Esto es útil en situaciones en las que se envían varios mensajes mientras un dispositivo está sin conexión y solo quieres que un usuario vea el mensaje más reciente cuando el dispositivo esté encendido.

Urgencia

Opcional

La urgencia le indica al servicio push qué tan importante es un mensaje para el usuario. El servicio push puede usar esto para ayudar a conservar la duración de batería del dispositivo de un usuario, ya que solo se activa para recibir mensajes importantes cuando la batería está baja.

El valor del encabezado se define como se muestra a continuación. El valor predeterminado es normal.

Urgency: [very-low | low | normal | high]

Todo junto

Si tienes más preguntas sobre cómo funciona todo esto, puedes ver cómo las bibliotecas activan los mensajes push en web-push-libs org.

Una vez que tengas una carga útil encriptada y los encabezados anteriores, solo debes realizar una solicitud POST a endpoint en un PushSubscription.

Entonces, ¿qué hacemos con la respuesta a esta solicitud POST?

Respuesta del servicio push

Una vez que hayas realizado una solicitud a un servicio de notificaciones push, debes verificar el código de estado de la respuesta, ya que te indicará si la solicitud se realizó correctamente o no.

Código de estado	Descripción
201	Fecha de creación. Se recibió y aceptó la solicitud para enviar un mensaje push.
429	Demasiadas solicitudes. Esto significa que el servidor de aplicaciones alcanzó un límite de frecuencia con un servicio push. El servicio push debe incluir un encabezado "Retry-After" para indicar cuánto tiempo antes se puede realizar otra solicitud.
400	Solicitud no válida. Por lo general, esto significa que uno de tus encabezados no es válido o tiene un formato incorrecto.
404	No se encontró. Esto indica que la suscripción venció y no se puede usar. En este caso, debes borrar "PushSubscription" y esperar a que el cliente vuelva a suscribir al usuario.
410	Se fue. La suscripción ya no es válida y se debe quitar del servidor de aplicaciones. Para reproducir esto, llama a "unsubscribe(") en una "PushSubscription".
413	El tamaño de la carga útil es demasiado grande. La carga útil de tamaño mínimo que debe admitir un servicio de envío es de 4,096 bytes (o 4 KB).

También puedes leer el estándar Web Push (RFC8030) para obtener más información sobre los códigos de estado HTTP.