Qué es la ingesta de datos y por qué es importante

La ingesta de datos es el primer paso en cada canal de datos. Se refiere al proceso de recopilación de datos de los sistemas de origen y su traslado a un almacén de datos, lago o plataforma de análisis donde se pueden consultar.

Cuando la ingesta de datos falla, obtienes dashboards obsoletos, conciliaciones rotas y modelos de machine learning entrenados con datos incompletos. Peor aún, los datos incorrectos pueden afectar tus ganancias. Más del 25 % de las organizaciones reportaron que pierden USD 5 millones o más al año debido a la mala calidad de los datos.

A continuación, analizaremos más de cerca qué es la ingesta de datos, los principales patrones de ingesta de datos, los casos de uso que impulsan la mayor parte de la inversión en canales y los desafíos a los que se enfrentan los equipos.

Aspectos destacados

La ingesta de datos mueve datos de los sistemas de origen a un destino donde se pueden almacenar y consultar. El patrón que elige una empresa determina qué tan recientes son esos datos.
La ingesta confiable depende de dos cosas: la integridad (es decir, que estén todos los registros que deberían estar) y la puntualidad (es decir, que los datos lleguen antes de que la primera persona los necesite).
Un proveedor de servicios de pago moderno puede sincronizar datos directamente en destinos como Snowflake, Redshift y Amazon S3. Esto les da a las empresas acceso a todo su historial de transacciones sin necesidad de ingeniería personalizada ni de proveedores de conectores externos.

La ingesta de datos es el proceso de extraer información de los sistemas de origen y cargarla en un destino donde se puede almacenar, consultar y utilizar. Introduce datos en almacenes, lagos de datos y plataformas de análisis.

En el contexto de los pagos, la ingesta de datos puede implicar la recopilación de datos de fuentes dispares, incluidos sistemas POS, sitios web de comercio electrónico y pasarelas de pago.

Cuáles son los principales tipos de ingesta de datos

Qué tan recientes deben ser tus datos y qué tan obsoletos pueden estar antes de que dejen de ser útiles determina qué tipo de método de ingesta de datos es mejor para tu empresa.

Estos son los principales métodos a considerar.

Ingesta por lotes

La ingesta por lotes extrae datos de forma programada y los mueve en masa. La latencia es de horas o días, lo cual está bien para muchas cargas de trabajo. Por lo general, todos pueden usar este tipo de datos: cierres financieros, informes ejecutivos semanales y análisis de tendencias históricas (p. ej., análisis de abandono).

Ingesta de streaming

La ingesta de streaming procesa los eventos a medida que se producen, lo que reduce la latencia a segundos o menos. La infraestructura es más exigente (por lo general trabajas con sistemas como Apache Kafka o equivalentes nativos de la nube) y tus aplicaciones de consumo deben manejar eventos fuera de orden y entregas al menos una vez. Generalmente, es la opción correcta cuando el valor de los datos requiere señales de fraude, inventario en vivo y personalización en tiempo real.

Captura de datos de cambio

La captura de datos de cambio (CDC) lee el registro de transacciones de una base de datos de origen y emite solo lo que cambió, llegando al rango de latencia de minutos sin la sobrecarga de lecturas de tabla completa repetidas. Se encuentra entre los lotes y el streaming tanto en complejidad como en actualización, y es particularmente útil cuando necesitas precisión casi en tiempo real (NRT) a partir de un sistema relacional.

Cuáles son los casos de uso comunes de ingesta de datos

La ingesta de datos existe para servir a algún proceso posterior. El patrón que elijas depende en gran medida de cómo se usen los datos.

Estos son los casos de uso comunes de ingesta de datos:

Informes de Business Intelligence (BI): los dashboards de ingresos, conversión, abandono y volumen de soporte alimentan los paneles que los equipos revisan diariamente. La actualización de la ingesta determina qué tan actuales son esos datos.
Informes financieros: los cierres de fin de mes y de trimestre dependen de que aterricen datos de transacciones completos y precisos en un almacén donde finanzas pueda ejecutar sus consultas. Aquí la integridad importa tanto como la actualización.
Análisis de clientes y productos: los datos de eventos de comportamiento combinados con la gestión de relaciones con los clientes (CRM) y los datos de transacciones brindan a los equipos de productos y de crecimiento la imagen completa. La ingesta es lo que conecta esos sistemas de origen y hace que el conjunto de datos combinado se pueda consultar.
Monitoreo de fraude: una decisión que se toma sobre datos de hace 12 horas suele ser una decisión que se toma sobre datos irrelevantes. La detección de fraude es uno de los casos en los que vale la pena el esfuerzo adicional de realizar streaming o CDC casi en tiempo real.
Machine learning: los canales de entrenamiento necesitan datos históricos a granel; los canales de inferencia necesitan características nuevas. La ingesta sirve para ambas opciones: la ingesta por lotes se puede usar para conjuntos de entrenamiento y los patrones de latencia más baja se pueden usar para las tiendas de funciones.

Cómo se ve una buena ingesta de datos

Cuando los datos llegan completos y a tiempo, los analistas pueden dejar de dudar de sus números y de realizar controles de conciliación antes de cada informe.

La buena ingesta de datos promete integridad. Están todos los registros que deberían estar. Una capa de ingesta bien diseñada se encarga de deduplicar, rellenar los vacíos y detectar los registros que llegan tarde antes de que se conviertan en errores de informes.

Los datos también llegan cuando se necesitan. Eso no siempre significa lo más rápido posible: significa que los datos llegan antes de que el usuario los necesite.

Cuáles son los principales desafíos para la ingesta de datos

La ingesta parece sencilla hasta que la ejecutas en varios sistemas de origen. Los siguientes desafíos de ingesta de datos causan problemas constantemente.

Seguridad y exposición de datos

Mover datos confidenciales (p. ej., transacciones financieras, información personal identificable, registros de pago) a través de la infraestructura de ingesta crea una exposición en cada salto. Los equipos que enrutan los datos de pago a través de un conector de extracción, transformación y carga (ETL) externo le dan a ese proveedor acceso a todo su historial de transacciones. Si eso es aceptable depende de los contratos de los proveedores, los requisitos de cumplimiento de la normativa y la tolerancia al riesgo.

Crecimiento

El volumen se acumula con el tiempo. Los cambios de esquema en los sistemas de origen pueden interrumpir los canales de manera que no siempre se ven de inmediato. Las estrategias de partición, las cargas incrementales y el manejo de la evolución de esquemas son problemas de ingeniería que requieren consideración antes de convertirse en incidentes.

Fragmentación

En muchas organizaciones, la ingesta no está organizada, en lugar de ser un sistema que se diseñó intencionalmente. Digamos que el equipo de datos creó un conector para Salesforce, mientras que el de ingeniería creó uno separado para la base de datos de producción y finanzas tiene una exportación de valores separados por comas (CSV) que alguien carga todos los lunes. El resultado es canales de datos duplicados e inconsistentes que son difíciles de monitorear y aún más difíciles de confiar.

Fallas de calidad

Los canales a veces fallan de manera obvia: un trabajo arroja un error o un dashboard se queda en blanco. Pero las fallas también se pueden ocultar. Por ejemplo, un cambio de esquema inicial puede eliminar una columna y luego en las tablas posteriores empiezan a faltar datos, o un límite de frecuencia de la API (interfaz de programación de aplicaciones) puede causar cargas parciales que parecen completas. Sin un monitoreo que verifique el recuento de filas, los rangos de valores y la integridad referencial, no lo sabrás hasta que algo se rompa lo suficiente como para llamar la atención.

¿En qué se diferencia la ingesta de datos de ETL y ELT?

La ingesta de datos, ETL y ELT describen partes superpuestas del mismo proceso, pero significan cosas diferentes.

Ingesta de datos: Es el acto de trasladar datos desde un origen a un sistema de destino. Se trata del transporte y la entrega. No considera si los datos cambian durante el tránsito.
Extraer, transformar y cargar (ETL): Esta es una arquitectura en la que los datos se extraen de la fuente, se transforman en el medio —históricamente en una herramienta de transformación dedicada o servidor de ensayo— y se cargan en el destino en su forma final y listos para la consulta. La transformación se produce antes de que lleguen los datos.
Extraer, cargar y transformar (ELT): Esta es la misma arquitectura pero con los últimos dos pasos invertidos. Los datos sin procesar llegan primero al almacén de datos, y la transformación ocurre allí mediante el uso del lenguaje de consulta estructurado (SQL) o de herramientas como la herramienta de compilación de datos (dbt). Esto se volvió práctico a medida que los almacenes de datos en la nube se volvieron lo suficientemente económicos y potentes como para ejecutar transformaciones pesadas a gran escala, y ahora es el patrón dominante para las pilas de datos modernas.

Cómo ayuda un proveedor de servicios de pago con la ingesta de datos

Stripe Data Pipeline es una sincronización directa desde Stripe hasta tu almacén de datos o destino de almacenamiento en la nube sin un intermediario. Está disponible para los usuarios de Stripe actuales y se conecta a destinos como Snowflake, Redshift y Databricks. La configuración no requiere escribir código ni configurar conectores.

A continuación te explicamos cómo Stripe Data Pipeline ayuda con la ingesta de datos:

Actualidad de los datos: las sincronizaciones se ejecutan de forma continua y la mayoría de los datos están disponibles a las pocas horas del evento subyacente.
Datos históricos: cuando te conectas, tienes acceso a tu historial completo en Stripe, en lugar de solo los datos a partir de la fecha de conexión.
Integridad de los datos: Stripe Data Pipeline incluye informes financieros preconfigurados, como la conciliación de transferencias y el resumen de saldos, junto con conjuntos de datos seleccionados para casos de uso comunes, como los ingresos recurrentes mensuales (MRR) y el análisis de fraude. Los proveedores externos no pueden sincronizar estas fuentes de datos y requieren exportar o reconstruir los datos de forma manual.
Menor exposición a proveedores: debido a que la sincronización es directa de Stripe a tu almacén de datos, los datos de pago no pasan por la infraestructura de un proveedor externo.

El contenido de este artículo tiene solo fines informativos y educativos generales y no debe interpretarse como asesoramiento legal o fiscal. Stripe no garantiza la exactitud, la integridad, adecuación o vigencia de la información incluida en el artículo. Si necesitas asistencia para tu situación particular, te recomendamos consultar a un abogado o un contador competente con licencia para ejercer en tu jurisdicción.

Pagos

Ingresos

Gestión del dinero

Plataformas y marketplaces