รู้จัก Data Pipeline และ Data Architecture ฉบับผู้เริ่มต้น

หลังจากที่เราทราบถึงประโยชน์ของการทำ Data Analytics กันแล้ว (Data Analytics 101 – “ก้าวแรกสู่การทำ Data Analytics” ปรับมุมมองทางการคิด เพื่อช่วยให้คุณคิดแบบ Analytics ให้มากขึ้น) ในบทความนี้จะพาทุกท่านไปเห็นรวมว่า Data มาจากไหน เก็บไว้ที่ไหน และภาพรวมโครงสร้างของการเก็บ Data เป็นอย่างไร ผ่านสิ่งที่เรียกว่า Data Pipeline หรือกระบวนการและทิศทางของข้อมูลว่ากระบวนการจากต้นจนจบของ Data เป็นอย่างไร

“เข้าใจ Data Pipeline”

Data pipeline คือขั้นตอนหรือการกล่าวถึงการเคลื่อนที่ของข้อมูลจากแหล่งข้อมูล (Data Source) ไปยังจุดหมายปลายทาง โดยประกอบไปด้วย 4 ขั้นตอน คือ

  • การนำเข้าข้อมูล (Ingestion)
  • การแปลงข้อมูล (Transformation)
  • การเก็บข้อมูล (Storage)
  • และปลายทางคือ การวิเคราะห์ หรือนำข้อมูลไปใช้ประโยชน์ (Analysis)

ต่อไปมาทำความรู้จักถึงคำศัพท์แต่ละคำที่ใช้ในการทำความเข้าใจ Data Pipeline กัน 😄

“Data Architecture คืออะไร?”

Data Architecture คือระเบียบวิธีการที่แต่ละองค์กรได้มีการวางแผนไว้เพื่อจัดการกับข้อมูลในองค์กร โดยเป็นการอธิบาย Flow ของข้อมูล เพื่อกำหนดแนวทางและเพื่อให้แน่ใจว่าสุดท้ายแล้วข้อมูลที่เลือกเก็บ จะตรงกับความต้องการขององค์กรและจะเกิดประโยชน์ต่อองค์กรอย่างแท้จริง ดังนั้นบางองค์กรอาจจะมี Data Architecture ที่ซับซ้อนกว่ารูปข้างต้น หรืออาจจะมี Data Architecture ที่เรียบง่ายกว่านี้เพื่อตอบรับกับความต้องการขององค์กรนั่นเอง

Ingestion

“Data Sources” : แหล่งที่มาของข้อมูล

Data Source หรือแหล่งที่มาของข้อมูล สามารถมาได้จากหลายแหล่งด้วยกันไม่ว่าจะมาจาก On-premises (จากระบบ Sever ภายในองค์กร) หรือบน Cloud ซึ่งข้อมูลที่นำเข้ามาอาจอยู่ในรูปแบบที่หลากหลายดังตารางข้างล่างนี้ ดังนั้นเพื่อให้ข้อมูลจัดเก็บไปในทิศทางเดียวกัน ก่อนการนำไปเก็บไว้ใน Data Warehouse หรือคลังข้อมูลนั้น ข้อมูลจึงจำเป็นต้องผ่านกระบวนการทำความสะอาดที่เรียกว่า ETL ก่อน (ซึ่งจะกล่าวถึงในลำดับถัดไป)

Structured Data Unstructured Data
= การเก็บข้อมูลในรูปของตาราง
สามารถแสดงผลเป็น Row และ Column
= ข้อมูลที่ไม่สามารถแสดงผลเป็นตารางได้
หรือยังไม่ได้แปลงให้สามารถแสดงผลเป็นตารางได้
CRM/ERP Systems, Excel (.csv), Operational Systems (Finance Sales)Chat, Voice, Email, Video, Surveys, Social Media, Notes, Image
“Database หรือฐานข้อมูลสามารถเก็บข้อมูลทั้งแบบ Structured และ Unstructured ได้ แต่เราควรต้องเลือกฐานข้อมูลให้ตรงกับประเภทและลักษณะของข้อมูลที่เราต้องการเก็บอีกที เช่นข้อมูลจากระบบ ERP ขององค์กรที่ผ่านมาควรต้องเก็บใน Data Warehouse แต่ข้อมูลที่เป็นเสียง รูปภาพ หรือ Transection ต่างๆ ที่มีการเคลื่อนไหวแบบวิต่อวิอาจไม่ควรเก็บไว้ใน Data Warehouse เนื่องจากข้อจำกัดด้านความเร็วและค่าใช้จ่ายที่มากกว่าการเก็บไว้ใน Database ประเภทอื่น”

Transformation

“ETL : Extract-Transform-Load

กระบวนการ “ETL” หรือการสกัด-เปลี่ยนรูป-และโหลดข้อมูล ขั้นตอนนี้เปรียบเสมือนการปัดกวาดเช็ดถูข้อมูลของเราให้อยู่ในรูปที่พร้อมใช้งานมากยิ่งขึ้น นำข้อมูลที่ไม่จำเป็นออกไปและนำข้อมูลเหล่านั้นไปเก็บไว้ใน Data Warehouse หรือคลังข้อมูลของเราอย่างเป็นระเบียบอีกทีหนึ่ง

“ELT : Extract-Load-Transform” – ปกติแล้วเราจะทำความสะอาดข้อมูลก่อนที่จะเก็บไว้ในคลังข้อมูลของเรา แต่หากเราต้องจัดการกับข้อมูลที่มีการหลั่งไหลเข้ามาอยู่ตลอดเวลา คงเป็นไปไม่ได้ที่เราจะจัดระเบียบข้อมูลเหล่านั้นได้อย่างทันท่วงที เราจึงต้องโหลดข้อมูลเก็บไว้ก่อน แล้วจึงค่อยนำข้อมูลในฐานข้อมูลของเราออกมาทำความสะอาด (Transform) เมื่อจำเป็นต้องใช้  ELT จึงเป็นกระบวนการที่เหมาะสำหรับจัดการกับฐานข้อมูลขนาดใหญ่หรือ Data Lake

Storage

“Data Warehouse” : คลังข้อมูล

Data Warehouse ก็ไม่ต่างอะไรกับโกดังเก็บสินค้าที่พร้อมนำไปจำหน่ายหรือพร้อมส่งมอบให้ผู้ที่ต้องการได้ทันที ดังนั้นโดยปกติแล้ว Data Warehouse จึงใช้เพื่อเก็บเฉพาะข้อมูลที่ผ่านการคัดกรองและแปลงสภาพให้อยู่ในลักษณะที่พร้อมใช้งานแล้วเพื่อประโยชน์ทางด้านธุรกิจ เช่น การทำรายงานการบริหารงานขององค์กร (Report) การเก็บข้อมูลการดำเนินงานของบริษัท หรือการนำข้อมูลไปวิเคราะห์เพื่อหาช่องทางทางธุรกิจต่อไป

เมื่อเทคโนโลยีถูกพัฒนาขึ้น ความต้องการทางด้านข้อมูลก็มากขึ้น จึงได้เกิดเป็นคำว่า Big Data ที่หลายๆ คนคุ้นหู หากข้อมูลยังจำเป็นต้องเก็บใน Warehouse นอกจากค่าใช้จ่ายในการดูแลที่มากแล้ว ยังไม่ตอบโจทย์ด้านความเร็วและความมากของข้อมูลที่หลั่งไหลเข้ามาในทุกๆ วินาที ในปัจจุบันจึงเกิดฐานข้อมูลที่เรียกว่า “Data Lake” หรือทะเลสาปข้อมูลขึ้น เพื่อเก็บข้อมูลทุกๆ รูปแบบไม่ว่าจะเป็นข้อมูลแบบ structured หรือ Unstructured ก็ตาม

“Data Lake” : ทะเลสาบข้อมูล

Data Lake คือแหล่งเก็บข้อมูลขนาดใหญ่ ที่จะเก็บข้อมูลที่อาจมีโครงสร้าง (structured) หรือไม่มีโครงสร้าง (Unstructured) หรือข้อมูลที่ยังไม่ได้ผ่านกระบวนการ Transformation ใดๆ กล่าวคือเป็นที่ไว้เก็บ “ข้อมูลดิบ” (Raw Data) นั่นเอง

Warehouse & Lake

Analysis

เมื่อข้อมูลเดินทางมาสู่ปลายทางของ Data Pipeline คือเมื่อข้อมูลที่เรารวบรวมมาถูกแปลงสภาพให้พร้อมใช้งานและเก็บไว้ในพื้นที่ที่เหมาะสมแล้ว คราวนี้ก็ง่ายที่เราจะหยิบข้อมูลเหล่านั้นมาใช้งานได้อย่างสะดวกรวดเร็วมากยิ่งขึ้น

“Analytics/Report/BI” : การวิเคราะห์และรายงานผล

เป็นการนำนำข้อมูลจากคลังข้อมูลมาวิเคราะห์เพื่อหา Insight ของธุรกิจ หรือหาต้นตอของปัญหา รวมถึงคาดการณ์ความเป็นไปของธุรกิจ และเพื่อค้นหาโอกาสใหม่ๆ ให้กับธุรกิจผ่านการใช้ข้อมูลเป็นเครื่องมือสำคัญที่จะช่วยในการตัดสินใจ

“Data Science” : วิทยาศาสตร์ข้อมูล

การใช้ข้อมูลเพื่อนำไปสร้าง Model เพื่อตอบโจทย์แก่ธุรกิจ เหล่า Data Scientist และ Data Engineer จะใช้การวิเคราะห์ขั้นสูงเพื่อสกัดข้อมูลอันมีค่าจากข้อมูลทั่วๆไปอีกทีหนึ่ง และนำข้อมูลเหล่านั้นไปพัฒนาเป็น Model หรือ Algorithms เพื่อตรวจหาข้อมูลที่ผิดสังเกตหรือน่าสนใจต่อไป

“Machine Learning” : การเรียนรู้ของเครื่อง

การสอนโปรแกรมหรือปัญญาประดิษฐ์ก็ไม่ต่างอะไรกับการสอนเด็กๆ ให้พูดได้ ให้คิดเป็น ยิ่งเราสอน ยิ่งเราเขี้ยวเข็ญมากเท่าไหร่ก็ยิ่งฉลาด ซึ่ง Machine Learning หรือ AI เหนือกว่ามนุษย์ในด้านพลังในการจดจำและคำนวณที่รวดเร็ว ยิ่งเราป้อนข้อมูลเข้าไปมากเท่าไหร่ นอกจากจะไม่มีวันลืมแล้ว ยังยิ่งฉลาดขึ้นเรื่อยๆ อีกด้วย


หวังว่าบทความนี้จะช่วยให้ผู้ที่เริ่มต้นศึกษาเรื่องราวเกี่ยวกับ Data และการทำ Data Analytics เข้าใจคอนเซป กระบวนการและขั้นตอน รวมถึงความหมายของคำศัพท์ต่างๆ ที่จะช่วยต่อยอดการเรียนรู้และเข้าใจการทำ Data Analytics มากยิ่งขึ้น

บทความที่น่าสนใจจาก Davoy

Data Analytics 101 – “ก้าวแรกสู่การทำ Data Analytics” ปรับมุมมองทางการคิด เพื่อช่วยให้คุณคิดแบบ Analytics ให้มากขึ้น

Dashboard คืออะไร และมีประโยชน์อย่างไร?

เริ่มทำ AI ยังไงดี?

Facebook
Twitter
Pinterest
LinkedIn
Latest Post

What is Data Governance?

In the age of shifting to digital transformation, data has become the value asset among various organizations throughout the world. In the data-driven world, managing

Read More »

What is Data Architecture?

Nowadays, the set of data has been increasing together with its value. In order to systematically manage and utilize large amount of stored data, the

Read More »

Dashboard Canvas

To make the dashboards impactful for business, we need to start analyzing the needs of business and technical availability before designing the suitable dashboard. We can do so by using Dashboard Canvas proposed by Davoy.tech.

Read More »

Best Free SEO Tools for 2022

You don’t need to purchase high-tier tools for everything. Depend on your circumstances, may you need an SEO tool for your backlink checker, link building, a page optimization, content marketing, on-page SEO, Keyword ideas etc. Have fun exploring the wide choices of SEO tools and you may find something that suits you!

Read More »