คำอธิบายเกี่ยวกับ Data Lake เทียบกับคลังข้อมูล

Data Lake และคลังข้อมูลช่วยแก้ปัญหาได้ไม่เหมือนกันโดย Data Lake จะจัดเก็บข้อมูลดิบไว้ในรูปแบบดั้งเดิมและมีค่าธรรมเนียมที่ไม่แพง และคลังข้อมูลจะสามารถนำเสนอข้อมูลที่รวบรวมไว้ออกมาได้อย่างรวดเร็ว การที่คุณจะใช้ข้อมูลเหล่านี้แบบแยกต่างหากหรือจะใช้ร่วมกันต่างส่งผลต่อความสามารถในการดำเนินการของทีมวิเคราะห์ของคุณ และขนาดของข้อมูลสมัยใหม่นี้ยิ่งทำให้ตัวเลือกนี้มีความสำคัญขึ้นไปอีก โดยในปี 2024 ในแต่ละวันมีการสร้าง รวบรวม ทำสำเนา หรือใช้ข้อมูลปริมาณ 402.89 ล้าน เทราไบต์ ซึ่งรวมกันแล้วเท่ากับประมาณ 147 เซตตะไบต์ต่อปี

ด้านล่างนี้ เราจะเปรียบเทียบ Data Lake กับคลังข้อมูล อธิบายว่าข้อมูลเหล่านี้แตกต่างกันอย่างไรในด้านสคีมา ต้นทุน ประสิทธิภาพ และการกำกับดูแล ตลอดจนวิธีที่จับคู่สถาปัตยกรรมที่เหมาะสมกับเวิร์กโหลดของคุณ

ประเด็นสำคัญ

Data Lake จะใช้แนวคิด Schema-on-read เพื่อจัดเก็บข้อมูลดิบได้อย่างยืดหยุ่น ส่วนคลังข้อมูลจะใช้แนวคิด Schema-on-write เพื่อมอบประสิทธิภาพของคำขอที่รวดเร็วและสอดคล้องกันสำหรับข้อมูลเชิงธุรกิจ (BI) และการจัดทำรายงาน
โดยทั่วไปแล้วทีมข้อมูลที่มีประสบการณ์จะใช้ทั้ง 2 ระบบในสถาปัตยกรรมแบบแบ่งระดับ โดยที่ข้อมูลดิบจะถูกจัดเก็บไว้ใน Lake และข้อมูลที่รวบรวมไว้จะถูกส่งเข้าสู่คลังข้อมูลเพื่อดำเนินการวิเคราะห์
วิธีการสำหรับข้อมูลการชำระเงินแบบเดิมที่ใช้ในการสร้างไปป์ไลน์ของคุณขึ้นมาเองมักมีความเปราะบาง เนื่องจากการเปลี่ยนแปลงสคีมาของ API อาจทำให้ไปป์ไลน์ล้มเหลวได้

Data Lake คืออะไร

Data Lake เป็นคลังเก็บข้อมูลส่วนกลางที่จะจัดเก็บข้อมูลไว้ในรูปแบบดิบที่ยังเป็นดั้งเดิมอยู่ ซึ่งรวมถึงข้อมูลที่มีโครงสร้าง (ตาราง) ข้อมูลกึ่งมีโครงสร้าง เช่น บันทึก JavaScript Object Notation (JSON) และข้อมูลที่ไม่มีโครงสร้าง (ข้อความ รูปภาพ วิดีโอ)

แนวคิดหลักที่อยู่เบื้องหลัง Data Lake คือ Schema-on-read (เก็บข้อมูลไว้ก่อนแล้วจึงกำหนดสคีมาเมื่อต้องการอ่านข้อมูล) โดยข้อมูลจะถูกจัดเก็บในรูปแบบเดียวกับที่ถูกสร้างขึ้นมา และจะมีการใช้โครงสร้างในภายหลัง ณ เวลาที่มีการสืบค้น เมื่อผู้ใช้งานรู้แล้วว่ากำลังพยายามตอบคำถามอะไรอยู่ ความยืดหยุ่นนี้ทำให้ Data Lake เหมาะอย่างมากสำหรับการนำข้อมูลเข้าในปริมาณมากและการวิเคราะห์เชิงสำรวจ คุณจะสามารถจัดเก็บได้เกือบทุกประเภทโดยไม่ต้องตัดสินใจล่วงหน้าว่าจะสร้างแบบจำลองอย่างไร

คลังข้อมูลคืออะไร

คลังข้อมูลเป็นระบบการวิเคราะห์แบบมีโครงสร้างที่ออกแบบมาเพื่อการสืบค้นที่รวดเร็วและสอดคล้องกัน

ก่อนที่ข้อมูลจะไปอยู่ในคลังข้อมูล โดยทั่วไป ข้อมูลจะผ่านการทำความสะอาด แปลงรูปแบบ และจัดโครงสร้างให้อยู่ในสคีมาที่มีการกำหนดไว้อย่างชัดเจนและถูกปรับให้เหมาะสำหรับการวิเคราะห์ แนวคิดนี้เรียกว่า Schema-on-write (กำหนดสคีมาก่อนเก็บข้อมูลลงระบบ): ซึ่งจะมีการกำหนดโครงสร้างและคำจำกัดความก่อนที่จะจัดเก็บข้อมูล ผลลัพธ์ที่ได้คือสภาพแวดล้อมที่รวบรวมข้อมูลไว้ ซึ่งนักวิเคราะห์จะสามารถเรียกใช้คำขอ สร้างแดชบอร์ด และคำนวณเมตริกได้โดยไม่ต้องกังวลว่ารูปแบบจะไม่สอดคล้องกันหรือจะมีบริบทที่ขาดหายไป

Data Lake จะให้ความสำคัญกับความยืดหยุ่น ส่วนคลังข้อมูลก็จะให้ความสำคัญกับความน่าเชื่อถือและประสิทธิภาพสำหรับการวิเคราะห์เป็นหลัก

ข้อแตกต่างที่สำคัญระหว่าง Data Lake กับคลังข้อมูลคืออะไรบ้าง

ความแตกต่างในทางปฏิบัติระหว่าง Data Lake และคลังข้อมูลมีมากกว่าแค่เรื่องของจุดที่จัดเก็บ เพราะรูปแบบโครงสร้าง ผู้ที่นำไปใช้ และค่าใช้จ่ายของคำขอก็เป็นข้อแตกต่างที่สำคัญเช่นกัน

โครงสร้าง

Data Lake จะเก็บข้อมูลดิบไว้และจะกำหนดโครงสร้างเมื่อเรียกใช้คำขอเท่านั้น การมีความยืดหยุ่นนี้ช่วยให้สามารถตีความชุดข้อมูลเดียวกันออกมาได้หลายแบบ ส่วนคลังข้อมูลจะบังคับใช้โครงสร้างเมื่อมีการเขียนข้อมูล ดังนั้นทุกคนที่ส่งคำสั่งขอข้อมูลจะเห็นสคีมาและคำจำกัดความเดียวกันทั้งหมด

ประสิทธิภาพของคำขอ

คลังข้อมูลสร้างขึ้นเพื่อการวิเคราะห์แบบโต้ตอบได้ คำขอข้อมูลตารางขนาดใหญ่ในระบบอย่าง Snowflake หรือ BigQuery จะสามารถส่งกลับมาได้ในไม่กี่วินาที การส่งคำขอไฟล์ดิบในพื้นที่จัดเก็บแบบ Data Lake อาจช้ากว่าและมีค่าใช้จ่ายสูงกว่า แต่ว่าคุณสามารถลงทุนในเรื่องการเพิ่มประสิทธิภาพได้ เช่น การจัดเก็บแบบคอลัมน์ การแบ่งพาร์ติชัน และการบีบอัดข้อมูล

ประเภทข้อมูล

Data Warehouse มีความโดดเด่นด้านข้อมูลเชิงสัมพันธ์ที่มีโครงสร้างซึ่งใช้ในการรายงานและแดชบอร์ด ส่วน Data Lake จะรองรับได้มากกว่า โดยสามารถจัดเก็บข้อมูลในรูปแบบบันทึกดิบ, JSON ที่ซ้อนกัน, ชุดข้อมูลแมชชีนเลิร์นนิง, รูปภาพ และรูปแบบที่ไม่ใช่เชิงสัมพันธ์อื่นๆ ได้

การกำกับดูแลและความน่าเชื่อถือ

ข้อมูลในคลังข้อมูลมักจะผ่านไปป์ไลน์การตรวจสอบความถูกต้องและการแปลงข้อมูล ซึ่งเหมาะสำหรับการจัดทำรายงานธุรกิจ ส่วนข้อมูลใน Data Lake มักจะเป็นข้อมูลดิบและมีไว้เพื่อการสำรวจ จึงมักจะต้องผ่านการประมวลผลเพิ่มเติมก่อนที่จะรองรับเมตริกการทำงานจริงได้

โครงสร้างค่าใช้จ่าย

Data Lake มีค่าใช้จ่ายน้อยกว่าสำหรับการจัดเก็บข้อมูลดิบปริมาณมากหรือข้อมูลที่ไม่ค่อยได้เข้าถึง คลังข้อมูลมีค่าใช้จ่ายแบบคิดตามเทราไบต์สูงกว่า แต่ให้ประสิทธิภาพด้านคำขอที่เร็วกว่าและการสนับสนุนที่ดีกว่าสำหรับเวิร์กโหลดการวิเคราะห์ที่ทำงานพร้อมกันสูง

องค์กรต่างๆ ใช้ Data Lake และคลังข้อมูลร่วมกันอย่างไร

แพลตฟอร์มที่มีประสบการณ์มักจะใช้ทั้ง 2 ระบบ โดยให้แต่ละระบบจัดการส่วนของไปป์ไลน์ที่เหมาะสมที่สุดกับระบบ โดยทั่วไปแล้ว Data Lake จะทำหน้าที่เป็นโซนรวบรวมข้อมูลสำหรับข้อมูลดิบ และใช้คลังข้อมูลเพื่อส่งชุดข้อมูลที่รวบรวมไว้และพร้อมสำหรับการวิเคราะห์ให้แก่นักวิเคราะห์และเครื่องมือทางธุรกิจ

รูปแบบที่พบบ่อยก็คือ Medallion Architecture (สถาปัตยกรรมแบบเหรียญรางวัล) ซึ่งได้แก่

ทองแดง: ข้อมูลดิบที่นำเข้ามาแล้ว
เงิน: ชุดข้อมูลที่ถูกทำความสะอาดและลบข้อมูลที่ซ้ำกันออกแล้ว
ทอง: ตารางสรุปข้อมูลที่พร้อมสำหรับธุรกิจซึ่งใช้สำหรับการจัดทำรายงาน

ในการนำไปใช้งานส่วนใหญ่ ข้อมูลระดับทองแดงและระดับเงินจะอยู่ในที่จัดเก็บของ Lake และชุดข้อมูลระดับทองจะถูกนำเสนอจากคลังข้อมูล

ข้อเสียของสถาปัตยกรรมแบบเป็นชั้นนี้ก็คือความยาก โดยข้อมูลจะถูกนำไปทำซ้ำในระบบต่างๆ จากนั้นไปป์ไลน์จะย้ายและแปลงข้อมูลเหล่านั้น แล้วทีมต่างๆ ก็จะต้องจัดการการกำกับดูแลรวมทั้งการควบคุมการเข้าถึงในหลายๆ ที่ องค์กรต่างๆ จึงลดความซับซ้อนตรงนี้โดยทดลองใช้สถาปัตยกรรม Lakehouse ที่สร้างขึ้นโดยใช้เทคโนโลยีต่างๆ เช่น Delta Lake, Apache Iceberg หรือ Hudi ระบบเหล่านี้จะเพิ่มฟีเจอร์ที่เกี่ยวข้องกับคลังข้อมูลมาตั้งแต่ต้น เช่น ธุรกรรมความเป็นหนึ่งเดียว ความสอดคล้อง การแยกการทำงาน ความคงทน (Atomicity, Consistency, Isolation และ Durability หรือที่เรียกว่า ACID) และการบังคับใช้สคีมา ซึ่งจะส่งไปยังที่จัดเก็บของ Lake โดยตรง

ทำให้ทีมสามารถใช้เพียง 1 แพลตฟอร์มแทนที่จะใช้ 2 แพลตฟอร์มได้ วิธีนี้จะใช้ได้ผลดีเพียงใดนั้นจะขึ้นอยู่กับความซับซ้อนของคำขอและประสบการณ์ของทีมที่เป็นผู้ดำเนินการ

คุณจะเลือกใช้ระหว่าง Data Lake กับคลังข้อมูลอย่างไร

คำตอบที่ถูกต้องจะขึ้นอยู่กับว่าผู้ใช้ข้อมูลดังกล่าวเป็นใคร และพวกเขาต้องการอะไรจากข้อมูลนั้น โดยปกติแล้ว องค์กรต่างๆ จะมีหลายทีมที่มีข้อกำหนดแตกต่างกัน

สิ่งที่ควรพิจารณามีดังนี้

ทีมข้อมูลธุรกิจ (BI) และทีมรายงาน

หากผู้บริโภคหลักของคุณคือนักวิเคราะห์ที่สร้างแดชบอร์ดในเครื่องมือต่างๆ เช่น Looker, Tableau หรือ Metabase คลังข้อมูลมักจะเป็นโครงสร้างพื้นฐานที่ดีที่สุด เครื่องมือเหล่านี้จะต้องใช้สคีมาที่สอดคล้องกัน เมตริกที่เชื่อถือได้ และต้องมีการตอบสนองต่อคำขอที่รวดเร็ว

ทีมวิทยาศาสตร์ข้อมูลและทีมแมชชีนเลิร์นนิง

การฝึกโมเดลต่างๆ มักจะต้องใช้ชุดข้อมูลปริมาณมากที่ยังไม่ผ่านกระบวนการจัดการ เช่น สตรีมเหตุการณ์ ข้อความ บันทึกพฤติกรรม หรือรูปแบบที่ซับซ้อนอื่นๆ โดย Data Lake จะให้ความยืดหยุ่นในการจัดเก็บและสำรวจข้อมูลดังกล่าวก่อนที่จะมีการจัดโครงสร้างข้อมูลให้อยู่ในรูปแบบของตาราง

ทีมวิศวกรรมที่นำเข้าข้อมูลปริมาณมาก

เมื่อระบบสร้างเหตุการณ์หลายพันล้านรายการในแต่ละวัน Data Lakeมักจะเป็นตัวเลือกที่เป็นประโยชน์ที่สุดอันดับแรก เพราะมีราคาถูกกว่า รองรับสคีมาที่มีการเปลี่ยนแปลงตลอดเวลาได้อย่างดี และไม่จำเป็นต้องให้ระบบของต้นทางนั้นสอดคล้องกับโมเดลข้อมูลที่มีการกำหนดไว้ล่วงหน้าก็ได้

เวิร์กโหลดแบบผสม

องค์กรต่างๆ มักใช้ 2 รวมร่วมกัน คือ Data Lakeสำหรับการนำเข้าและการจัดเก็บข้อมูลดิบ คลังข้อมูลสำหรับรองรับชุดข้อมูลที่รวบรวมไว้ และมีชั้นการแปลงข้อมูลที่จะเชื่อมทั้ง 2 ระบบเข้าด้วยกัน การใช้ระบบในรูปแบบนี้ จะมีคำถามคือแต่ละระบบควรใช้กับไปป์ไลน์ข้อมูลโดยรวมได้ที่จุดใด

ผู้ให้บริการชำระเงินมีบทบาทอย่างไรในสถาปัตยกรรม Data Lake หรือคลังข้อมูลของคุณ

วิธีการแบบเดิมสำหรับข้อมูลการชำระเงินคือการสร้างไปป์ไลน์ของคุณเองโดยใช้อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน (API) เพื่อจัดการการแบ่งหน้าและข้อจำกัดของอัตรา เขียนผลลัพธ์ไปยังที่จัดเก็บ และดูแลรักษาการผสานการทำงานต่อไปเรื่อยๆ

แนวทางดังกล่าวใช้ได้ผล แต่ก็เปราะบาง หากเปลี่ยนแปลงสคีมาของ API อาจทำให้ไปป์ไลน์ล้มเหลว การย้อนประมวลผลข้อมูลย้อนหลังจำเป็นต้องมีการใช้ตรรกะเพิ่มเติม และข้อมูลการชำระเงินก็ครอบคลุมถึงข้อมูลทางการเงินที่ละเอียดอ่อน นั่นหมายความว่าการกำหนดเส้นทางข้อมูลผ่านผู้ให้บริการการแยก การแปลง และการโหลด (ETL) ภายนอกรายอื่นๆ จะสร้างช่องโหว่ด้านความปลอดภัยซึ่งทีมการเงินและทีมการปฏิบัติตามข้อกำหนดอาจไม่เต็มใจที่จะใช้

Stripe Data Pipeline จะจัดการกับความท้าทายเหล่านี้โดยตรง เครื่องมือนี้เป็นตัวเชื่อมต่อดั้งเดิมที่สร้างขึ้นและดูแลรักษาโดย Stripe จึงพร้อมให้ผู้ใช้ Stripe ปัจจุบันสามารถใช้งานและทำงานโดยการซิงค์ข้อมูล Stripe (ธุรกรรม ลูกค้า การสมัครใช้บริการ การเบิกจ่ายเงิน) ไปยังคลังข้อมูลหรือปลายทางของที่จัดเก็บในระบบคลาวด์โดยตรงได้

เมื่อเทียบกับตัวเชื่อมต่อของบุคคลที่สามแล้ว แนวทางของตัวเชื่อมต่อดั้งเดิมก็มีข้อได้เปรียบอยู่หลายประการ ได้แก่

ความครบถ้วนสมบูรณ์ของข้อมูล: Stripe Data Pipeline มีข้อมูลในอดีตจากบัญชีของคุณ รายงานทางการเงินที่สร้างไว้ล่วงหน้า และชุดข้อมูลที่มีการจัดการซึ่งตัวเชื่อมต่อของบุคคลที่สามมักจะไม่แสดงหรือจำเป็นต้องกำหนดค่าการแสดงเอง
ความน่าเชื่อถือตามขนาดธุรกิจ: เนื่องจากไปป์ไลน์ได้รับการดูแลรักษาโดย Stripe เอง จึงสามารถติดตามการเปลี่ยนแปลงของ API จัดการวิวัฒนาการของสคีมา และคิดบัญชีสำหรับเคสการใช้งานพิเศษได้ในโมเดลข้อมูลของ Stripe ที่ตัวเชื่อมต่อภายนอกมักจะพลาดไปได้โดยอัตโนมัติ
ความเสี่ยงด้านความปลอดภัยที่ลดลง: ข้อมูลธุรกรรมทางการเงินจะเคลื่อนย้ายไปมาระหว่าง Stripe กับปลายทางของที่จัดเก็บของคุณโดยไม่ผ่านโครงสร้างพื้นฐานของผู้ให้บริการระดับกลาง ซึ่งจะช่วยลดความซับซ้อนของการจัดการความปลอดภัยของข้อมูลได้

Stripe Data Pipeline ช่วยอะไรได้บ้าง

Stripe Data Pipeline จะช่วยให้คุณวิเคราะห์ข้อมูลในคลังข้อมูลของคุณได้เช่นเดียวกันด้วยการรวมข้อมูล Stripe ของคุณเข้ากับข้อมูลธุรกิจอื่นๆ ทั้ง Stripe Data Pipeline และ Stripe Sigma ล้วนทำงานโดยอาศัยข้อมูล Stripe พื้นฐานเดียวกัน แต่ Data Pipeline จะช่วยให้ดูข้อมูลดังกล่าวร่วมกับชุดข้อมูลอื่นๆ ได้อย่างง่ายดาย

Stripe Data Pipeline ช่วยคุณได้ดังนี้

ซิงค์ไปยังคลังข้อมูลของคุณโดยตรง
ข้อมูลจะย้ายไปยัง Amazon Redshift, Snowflake หรือ Amazon S3 โดยไม่ต้องกำหนดเส้นทางผ่านตัวเชื่อมต่อของบุคคลที่สาม ซึ่งจะเก็บข้อมูลทางการเงินที่ละเอียดอ่อนไว้ไม่ให้เข้าสู่โครงสร้างพื้นฐานของผู้ให้บริการรายอื่น
สร้างแหล่งข้อมูลที่เชื่อถือได้เพียงหนึ่งเดียว
รวบรวมข้อมูล Stripe ของคุณไว้ในที่เดียวเพื่อเร่งการชำระเงินให้เร็วขึ้น ระบุวิธีการชำระเงินยอดนิยม ปรับปรุงโมเดล AI และอื่นๆ อีกมากมาย
ตั้งค่าได้โดยไม่ต้องเขียนโค้ด
การเชื่อมต่อจะกำหนดค่าในแดชบอร์ด Stripe โดยไม่ต้องเขียนโค้ด ตั้งค่า Stripe Data Pipeline ได้ภายในไม่กี่นาที พร้อมรับข้อมูล Stripe และรายงานในปลายทางที่เก็บข้อมูลของคุณโดยอัตโนมัติอย่างต่อเนื่อง

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่ Stripe Data Pipeline จะช่วยคุณปลดล็อกศักยภาพข้อมูลธุรกิจ

เนื้อหาในบทความนี้มีไว้เพื่อให้ข้อมูลทั่วไปและมีจุดประสงค์เพื่อการศึกษาเท่านั้น ไม่ควรใช้เป็นคําแนะนําทางกฎหมายหรือภาษี Stripe ไม่รับประกันหรือรับประกันความถูกต้อง ความสมบูรณ์ ความไม่เพียงพอ หรือความเป็นปัจจุบันของข้อมูลในบทความ คุณควรขอคําแนะนําจากทนายความที่มีอํานาจหรือนักบัญชีที่ได้รับใบอนุญาตให้ประกอบกิจการในเขตอํานาจศาลเพื่อรับคําแนะนําที่ตรงกับสถานการณ์ของคุณ

การชำระเงิน

รายรับ

การจัดการเงิน

แพลตฟอร์มและมาร์เก็ตเพลส