数据团队花费大量时间移动数据、清理数据、检查昨晚的管道是否运行以及修复数据仪表盘。数据分析中的自动化用始终如一并可大规模处理它们的系统取代了分析生命周期中那些可重复的、基于规则的步骤。它涵盖了从数据移动和清理到转换、报告刷新和监控的所有内容。数据分析自动化可以减少 80% 的报告时间,为企业节省时间和资金。
下面,我们将介绍分析自动化的含义、首先自动化的工作流部分,以及在扩大规模之前应该做好哪些准备。
要点
当自动化首先应用于数据提取和移动时,它会带来价值,因为只有在源数据始终如一地到达时,下游流程才能可靠地工作。
静默故障、架构变更和治理偏离是分析自动化在生产中常见的失败原因。
拥有专门构建的数据管道工具的支付服务商,该工具可自动提取交易数据提取层,为团队提供了用于下游分析的干净基础。
数据分析中的自动化意味着什么?
数据分析中的自动化用始终如一地运行系统的系统取代了分析生命周期中可重复的、基于规则的步骤。不用分析师手动导出文件、清理数据、刷新数据仪表盘或检查管道,而是那些流程按定义的时间表和配置自动运行。
在实践中,自动化通常涵盖数据提取、清理、转换、报告刷新和监控。
在分析工作流中,您应该首先自动化什么?
从自动化频繁且容易出错的工作开始。对于分析团队来说,这些往往分为以下五个方面:
数据提取和移动
手动从源系统导出逗号分隔值 (CSV) 并将其加载到数据仓库中速度慢、容易出错且难以扩展。自动提取按可预测的计划移动数据,因此新记录无需人工管理该过程即可到达。
数据清洗和验证
原始数据很少能满足分析需求。自动验证检查可及早发现问题;例如,确认收入值为正、客户 ID在跨表匹配以及必填字段不为空。在提取期间发现诸如此类的问题可防止分析师基于不良数据构建模型。
转换和建模
将原始数据转换为可供分析的模型的结构化查询逻辑 (SQL) 可以进行版本控制和计划。它确保分析师根据相同的定义进行工作,而不是基于临时电子表格,在临时电子表格中,结果取决于谁运行了计算。
计划报告和管理平台刷新
直接连接到仓库表的管理平台可以自动刷新,而不是依赖手动导出的报告。刷新计划应与底层数据的节奏一致。对于业务指标,它是每小时一次,对于业务报告,通常是每晚一次。
异常检测和监控
自动监控系统会关注指标的异常变化或管道故障,并在需要注意时提醒团队。一旦管道可靠运行,此监控层就是自动化开始产生回报的地方。
数据分析中的自动化是如何工作的?
调度程序触发任务,任务根据已定义的配置运行,输出会被写入某个位置供下一步拾取。为使其正常运行,生产分析管道通常会堆叠三层:
提取:连接器对源系统进行身份验证,提取新记录或已更新记录,并将它们加载到云数据仓库中(如 BigQuery、Snowflake 或 Redshift)。数据通常使用时间戳或游标增量提取,因此每次运行只移动新数据。
转换:转换工具编译 SQL 模型,将原始数据表重塑为可供分析的数据集。模型之间的依赖关系会自动处理,因此如果一个模型依赖于另一个模型,上游模型就会先运行。测试会验证输出并在数据到达下游数据仪表盘或系统之前标记问题。
编排:编排用于协调管道。与单独运行提取和转换不同,它可确保每个步骤以正确顺序触发下一个步骤,并在发生故障时提醒团队。
自动化分析管道有哪些优势?
自动化可以节省时间并改变数据团队的运作方式。以下是一些关键优势:
时间重新分配
当重复性任务自动运行时,分析师可以花更少的时间准备数据,而花更多的时间解释数据。数据准备通常占据了数据团队工作时间的大部分:有时他们有 60% 到 80% 的时间 都花在准备和清理数据上。
一致性
自动化的模型每次都会运行相同的逻辑。指标定义记录在代码中,这使得解释数字变化的原因变得更容易。它还可以防止由手动计算引起的差异。
数据新鲜度
手动导出通常每天进行一次。自动化管道可以近乎实时地刷新数据,并在问题出现时迅速浮现问题。
扩张性
随着数据量的增长,手动流程会崩溃。自动化管道可以处理更大数据集和更频繁的更新,而无需按比例增加分析师的工作量。
组织信任
可靠、持续更新的数据仪表盘减少了利益相关者维护自己电子表格的需要。随着时间的推移,团队会融合到一个共享的、受管辖的单一事实来源上,这往往是自动化的最大长期影响。
在自动化数据分析之前,您应该考虑什么?
自动化既增加了可靠性,也增加了错误。一个有缺陷的管道能够像传递正确数据一样高效地传递错误数据。通常,故障模式分为几种一致的模式:
静默故障: 如果自动作业失败但未向任何人发出提醒,管理平台可能会连续数日显示过时的数据。每个管道步骤都需要有明确的故障处理措施,包括重试、提醒以及负责响应的明确所有者。
模式更改: 源系统发生变化。当列发生更改或数据类型发生更改时,依赖于固定模式的管道可能会中断。监控模式更改并在生产者和消费者之间建立明确的数据合同有助于降低风险。
治理漂移: 随着公司内部自动化的发展,跟踪指标定义位置以及哪个版本具有权威性变得越来越困难。一旦团队维护了数十个自动化模型,数据目录和沿袭文档就会变得非常重要。
数据团队内角色的变化: 自动化改变了数据团队的工作方式。数据工程师花更多时间构建和维护管道,而分析师则更专注于建模和解释。这两项功能都依赖于软件工程实践,例如版本控制和代码审查。
实施分析自动化的最佳实践是什么?
几个原则始终让自动化项目更成功。尽早做对这些事可以节省以后的返工时间。
以下是实施分析自动化的最佳实践:
增量自动化:从一层(通常是提取层)开始,并在自动执行下一层之前使其可靠。试图一次性自动执行整个分析堆栈通常会导致系统脆弱。
首先标准化指标定义:在您调度模型之前,请确认其背后的业务逻辑已记录在案并被使用输出的人员所接受。自动进行无人同意的计算只会引起混乱。
将可观测性构建到管道中:生产管道需要日志记录、提醒和数据质量检查。如果没有这些,故障往往会被忽视,直到有人在数据仪表盘上发现不正确的数字为止。
为所有内容提供版本控制:管道配置、转换逻辑和架构定义都应受版本控制。当发生故障时,团队需要确切地知道改变了什么,并能够撤销它。
记录血缘和所有权:每个自动化数据集或报告都应清楚地显示其数据来源、转换方式以及维护者。当系统发展或团队更换时,该文档就是必需的。
Stripe Data Pipeline 的优势
最繁琐的提取任务之一是将支付数据移至数据仓库,以便将其与其余业务数据连接在一起。Stripe Data Pipeline 可解决该特定问题。
它同步的内容:交易、争议、客户、提现和其他 Stripe 对象以旨在用于分析和报告的结构化架构直接传送到您的数据仓库。
它替代的内容:与编写应用程序编程接口 (API) 分页逻辑、管理增量负载以及处理速率限制不同,Stripe 数据提取层是自动管理的。
它在堆栈中的位置:Data Pipeline 专门涵盖 Stripe 数据的提取,并与您其余自动化管道已在其上运行的同一数据仓库基础设施集成。
Stripe Data Pipeline 移动并构造数据,但不会取代其余的分析堆栈。您仍然需要在数据仓库数据之上构建转换、模型和数据仪表盘。
了解有关 Stripe Data Pipeline 如何帮助您集中数据以获取更好业务见解的更多信息,或者立即开始使用。
本文中的内容仅供一般信息和教育目的,不应被解释为法律或税务建议。Stripe 不保证或担保文章中信息的准确性、完整性、充分性或时效性。您应该寻求在您的司法管辖区获得执业许可的合格律师或会计师的建议,以就您的特定情况提供建议。