รู้จัก Data Pipeline และ Data Architecture ฉบับผู้เริ่มต้น

หลังจากที่เราทราบถึงประโยชน์ของการทำ Data Analytics กันแล้ว (Data Analytics 101 – “ก้าวแรกสู่การทำ Data Analytics” ปรับมุมมองทางการคิด เพื่อช่วยให้คุณคิดแบบ Analytics ให้มากขึ้น) ในบทความนี้จะพาทุกท่านไปเห็นรวมว่า Data มาจากไหน เก็บไว้ที่ไหน และภาพรวมโครงสร้างของการเก็บ Data เป็นอย่างไร ผ่านสิ่งที่เรียกว่า Data Pipeline หรือกระบวนการและทิศทางของข้อมูลว่ากระบวนการจากต้นจนจบของ Data เป็นอย่างไร

“เข้าใจ Data Pipeline”

Data pipeline คือขั้นตอนหรือการกล่าวถึงการเคลื่อนที่ของข้อมูลจากแหล่งข้อมูล (Data Source) ไปยังจุดหมายปลายทาง โดยประกอบไปด้วย 4 ขั้นตอน คือ

  • การนำเข้าข้อมูล (Ingestion)
  • การแปลงข้อมูล (Transformation)
  • การเก็บข้อมูล (Storage)
  • และปลายทางคือ การวิเคราะห์ หรือนำข้อมูลไปใช้ประโยชน์ (Analysis)

ต่อไปมาทำความรู้จักถึงคำศัพท์แต่ละคำที่ใช้ในการทำความเข้าใจ Data Pipeline กัน 😄

“Data Architecture คืออะไร?”

Data Architecture คือระเบียบวิธีการที่แต่ละองค์กรได้มีการวางแผนไว้เพื่อจัดการกับข้อมูลในองค์กร โดยเป็นการอธิบาย Flow ของข้อมูล เพื่อกำหนดแนวทางและเพื่อให้แน่ใจว่าสุดท้ายแล้วข้อมูลที่เลือกเก็บ จะตรงกับความต้องการขององค์กรและจะเกิดประโยชน์ต่อองค์กรอย่างแท้จริง ดังนั้นบางองค์กรอาจจะมี Data Architecture ที่ซับซ้อนกว่ารูปข้างต้น หรืออาจจะมี Data Architecture ที่เรียบง่ายกว่านี้เพื่อตอบรับกับความต้องการขององค์กรนั่นเอง

Ingestion

“Data Sources” : แหล่งที่มาของข้อมูล

Data Source หรือแหล่งที่มาของข้อมูล สามารถมาได้จากหลายแหล่งด้วยกันไม่ว่าจะมาจาก On-premises (จากระบบ Sever ภายในองค์กร) หรือบน Cloud ซึ่งข้อมูลที่นำเข้ามาอาจอยู่ในรูปแบบที่หลากหลายดังตารางข้างล่างนี้ ดังนั้นเพื่อให้ข้อมูลจัดเก็บไปในทิศทางเดียวกัน ก่อนการนำไปเก็บไว้ใน Data Warehouse หรือคลังข้อมูลนั้น ข้อมูลจึงจำเป็นต้องผ่านกระบวนการทำความสะอาดที่เรียกว่า ETL ก่อน (ซึ่งจะกล่าวถึงในลำดับถัดไป)

Structured Data Unstructured Data
= การเก็บข้อมูลในรูปของตาราง
สามารถแสดงผลเป็น Row และ Column
= ข้อมูลที่ไม่สามารถแสดงผลเป็นตารางได้
หรือยังไม่ได้แปลงให้สามารถแสดงผลเป็นตารางได้
CRM/ERP Systems, Excel (.csv), Operational Systems (Finance Sales)Chat, Voice, Email, Video, Surveys, Social Media, Notes, Image
“Database หรือฐานข้อมูลสามารถเก็บข้อมูลทั้งแบบ Structured และ Unstructured ได้ แต่เราควรต้องเลือกฐานข้อมูลให้ตรงกับประเภทและลักษณะของข้อมูลที่เราต้องการเก็บอีกที เช่นข้อมูลจากระบบ ERP ขององค์กรที่ผ่านมาควรต้องเก็บใน Data Warehouse แต่ข้อมูลที่เป็นเสียง รูปภาพ หรือ Transection ต่างๆ ที่มีการเคลื่อนไหวแบบวิต่อวิอาจไม่ควรเก็บไว้ใน Data Warehouse เนื่องจากข้อจำกัดด้านความเร็วและค่าใช้จ่ายที่มากกว่าการเก็บไว้ใน Database ประเภทอื่น”

Transformation

“ETL : Extract-Transform-Load

กระบวนการ “ETL” หรือการสกัด-เปลี่ยนรูป-และโหลดข้อมูล ขั้นตอนนี้เปรียบเสมือนการปัดกวาดเช็ดถูข้อมูลของเราให้อยู่ในรูปที่พร้อมใช้งานมากยิ่งขึ้น นำข้อมูลที่ไม่จำเป็นออกไปและนำข้อมูลเหล่านั้นไปเก็บไว้ใน Data Warehouse หรือคลังข้อมูลของเราอย่างเป็นระเบียบอีกทีหนึ่ง

“ELT : Extract-Load-Transform” – ปกติแล้วเราจะทำความสะอาดข้อมูลก่อนที่จะเก็บไว้ในคลังข้อมูลของเรา แต่หากเราต้องจัดการกับข้อมูลที่มีการหลั่งไหลเข้ามาอยู่ตลอดเวลา คงเป็นไปไม่ได้ที่เราจะจัดระเบียบข้อมูลเหล่านั้นได้อย่างทันท่วงที เราจึงต้องโหลดข้อมูลเก็บไว้ก่อน แล้วจึงค่อยนำข้อมูลในฐานข้อมูลของเราออกมาทำความสะอาด (Transform) เมื่อจำเป็นต้องใช้  ELT จึงเป็นกระบวนการที่เหมาะสำหรับจัดการกับฐานข้อมูลขนาดใหญ่หรือ Data Lake

Storage

“Data Warehouse” : คลังข้อมูล

Data Warehouse ก็ไม่ต่างอะไรกับโกดังเก็บสินค้าที่พร้อมนำไปจำหน่ายหรือพร้อมส่งมอบให้ผู้ที่ต้องการได้ทันที ดังนั้นโดยปกติแล้ว Data Warehouse จึงใช้เพื่อเก็บเฉพาะข้อมูลที่ผ่านการคัดกรองและแปลงสภาพให้อยู่ในลักษณะที่พร้อมใช้งานแล้วเพื่อประโยชน์ทางด้านธุรกิจ เช่น การทำรายงานการบริหารงานขององค์กร (Report) การเก็บข้อมูลการดำเนินงานของบริษัท หรือการนำข้อมูลไปวิเคราะห์เพื่อหาช่องทางทางธุรกิจต่อไป

เมื่อเทคโนโลยีถูกพัฒนาขึ้น ความต้องการทางด้านข้อมูลก็มากขึ้น จึงได้เกิดเป็นคำว่า Big Data ที่หลายๆ คนคุ้นหู หากข้อมูลยังจำเป็นต้องเก็บใน Warehouse นอกจากค่าใช้จ่ายในการดูแลที่มากแล้ว ยังไม่ตอบโจทย์ด้านความเร็วและความมากของข้อมูลที่หลั่งไหลเข้ามาในทุกๆ วินาที ในปัจจุบันจึงเกิดฐานข้อมูลที่เรียกว่า “Data Lake” หรือทะเลสาปข้อมูลขึ้น เพื่อเก็บข้อมูลทุกๆ รูปแบบไม่ว่าจะเป็นข้อมูลแบบ structured หรือ Unstructured ก็ตาม

“Data Lake” : ทะเลสาบข้อมูล

Data Lake คือแหล่งเก็บข้อมูลขนาดใหญ่ ที่จะเก็บข้อมูลที่อาจมีโครงสร้าง (structured) หรือไม่มีโครงสร้าง (Unstructured) หรือข้อมูลที่ยังไม่ได้ผ่านกระบวนการ Transformation ใดๆ กล่าวคือเป็นที่ไว้เก็บ “ข้อมูลดิบ” (Raw Data) นั่นเอง

Warehouse & Lake

Analysis

เมื่อข้อมูลเดินทางมาสู่ปลายทางของ Data Pipeline คือเมื่อข้อมูลที่เรารวบรวมมาถูกแปลงสภาพให้พร้อมใช้งานและเก็บไว้ในพื้นที่ที่เหมาะสมแล้ว คราวนี้ก็ง่ายที่เราจะหยิบข้อมูลเหล่านั้นมาใช้งานได้อย่างสะดวกรวดเร็วมากยิ่งขึ้น

“Analytics/Report/BI” : การวิเคราะห์และรายงานผล

เป็นการนำนำข้อมูลจากคลังข้อมูลมาวิเคราะห์เพื่อหา Insight ของธุรกิจ หรือหาต้นตอของปัญหา รวมถึงคาดการณ์ความเป็นไปของธุรกิจ และเพื่อค้นหาโอกาสใหม่ๆ ให้กับธุรกิจผ่านการใช้ข้อมูลเป็นเครื่องมือสำคัญที่จะช่วยในการตัดสินใจ

“Data Science” : วิทยาศาสตร์ข้อมูล

การใช้ข้อมูลเพื่อนำไปสร้าง Model เพื่อตอบโจทย์แก่ธุรกิจ เหล่า Data Scientist และ Data Engineer จะใช้การวิเคราะห์ขั้นสูงเพื่อสกัดข้อมูลอันมีค่าจากข้อมูลทั่วๆไปอีกทีหนึ่ง และนำข้อมูลเหล่านั้นไปพัฒนาเป็น Model หรือ Algorithms เพื่อตรวจหาข้อมูลที่ผิดสังเกตหรือน่าสนใจต่อไป

“Machine Learning” : การเรียนรู้ของเครื่อง

การสอนโปรแกรมหรือปัญญาประดิษฐ์ก็ไม่ต่างอะไรกับการสอนเด็กๆ ให้พูดได้ ให้คิดเป็น ยิ่งเราสอน ยิ่งเราเขี้ยวเข็ญมากเท่าไหร่ก็ยิ่งฉลาด ซึ่ง Machine Learning หรือ AI เหนือกว่ามนุษย์ในด้านพลังในการจดจำและคำนวณที่รวดเร็ว ยิ่งเราป้อนข้อมูลเข้าไปมากเท่าไหร่ นอกจากจะไม่มีวันลืมแล้ว ยังยิ่งฉลาดขึ้นเรื่อยๆ อีกด้วย


หวังว่าบทความนี้จะช่วยให้ผู้ที่เริ่มต้นศึกษาเรื่องราวเกี่ยวกับ Data และการทำ Data Analytics เข้าใจคอนเซป กระบวนการและขั้นตอน รวมถึงความหมายของคำศัพท์ต่างๆ ที่จะช่วยต่อยอดการเรียนรู้และเข้าใจการทำ Data Analytics มากยิ่งขึ้น

บทความที่น่าสนใจจาก Davoy

Data Analytics 101 – “ก้าวแรกสู่การทำ Data Analytics” ปรับมุมมองทางการคิด เพื่อช่วยให้คุณคิดแบบ Analytics ให้มากขึ้น

Dashboard คืออะไร และมีประโยชน์อย่างไร?

เริ่มทำ AI ยังไงดี?

Facebook
Twitter
Pinterest
LinkedIn
Latest Post