หลังจากที่เราทราบถึงประโยชน์ของการทำ Data Analytics กันแล้ว (Data Analytics 101 – “ก้าวแรกสู่การทำ Data Analytics” ปรับมุมมองทางการคิด เพื่อช่วยให้คุณคิดแบบ Analytics ให้มากขึ้น) ในบทความนี้จะพาทุกท่านไปเห็นรวมว่า Data มาจากไหน เก็บไว้ที่ไหน และภาพรวมโครงสร้างของการเก็บ Data เป็นอย่างไร ผ่านสิ่งที่เรียกว่า Data Pipeline หรือกระบวนการและทิศทางของข้อมูลว่ากระบวนการจากต้นจนจบของ Data เป็นอย่างไร
“เข้าใจ Data Pipeline”
Data pipeline คือขั้นตอนหรือการกล่าวถึงการเคลื่อนที่ของข้อมูลจากแหล่งข้อมูล (Data Source) ไปยังจุดหมายปลายทาง โดยประกอบไปด้วย 4 ขั้นตอน คือ
- การนำเข้าข้อมูล (Ingestion)
- การแปลงข้อมูล (Transformation)
- การเก็บข้อมูล (Storage)
- และปลายทางคือ การวิเคราะห์ หรือนำข้อมูลไปใช้ประโยชน์ (Analysis)
ต่อไปมาทำความรู้จักถึงคำศัพท์แต่ละคำที่ใช้ในการทำความเข้าใจ Data Pipeline กัน 😄
“Data Architecture คืออะไร?”
Data Architecture คือระเบียบวิธีการที่แต่ละองค์กรได้มีการวางแผนไว้เพื่อจัดการกับข้อมูลในองค์กร โดยเป็นการอธิบาย Flow ของข้อมูล เพื่อกำหนดแนวทางและเพื่อให้แน่ใจว่าสุดท้ายแล้วข้อมูลที่เลือกเก็บ จะตรงกับความต้องการขององค์กรและจะเกิดประโยชน์ต่อองค์กรอย่างแท้จริง ดังนั้นบางองค์กรอาจจะมี Data Architecture ที่ซับซ้อนกว่ารูปข้างต้น หรืออาจจะมี Data Architecture ที่เรียบง่ายกว่านี้เพื่อตอบรับกับความต้องการขององค์กรนั่นเอง
Ingestion
“Data Sources” : แหล่งที่มาของข้อมูล
Data Source หรือแหล่งที่มาของข้อมูล สามารถมาได้จากหลายแหล่งด้วยกันไม่ว่าจะมาจาก On-premises (จากระบบ Sever ภายในองค์กร) หรือบน Cloud ซึ่งข้อมูลที่นำเข้ามาอาจอยู่ในรูปแบบที่หลากหลายดังตารางข้างล่างนี้ ดังนั้นเพื่อให้ข้อมูลจัดเก็บไปในทิศทางเดียวกัน ก่อนการนำไปเก็บไว้ใน Data Warehouse หรือคลังข้อมูลนั้น ข้อมูลจึงจำเป็นต้องผ่านกระบวนการทำความสะอาดที่เรียกว่า ETL ก่อน (ซึ่งจะกล่าวถึงในลำดับถัดไป)
Structured Data | Unstructured Data |
= การเก็บข้อมูลในรูปของตาราง สามารถแสดงผลเป็น Row และ Column | = ข้อมูลที่ไม่สามารถแสดงผลเป็นตารางได้ หรือยังไม่ได้แปลงให้สามารถแสดงผลเป็นตารางได้ |
CRM/ERP Systems, Excel (.csv), Operational Systems (Finance Sales) | Chat, Voice, Email, Video, Surveys, Social Media, Notes, Image |
Transformation
“ETL : Extract-Transform-Load“
กระบวนการ “ETL” หรือการสกัด-เปลี่ยนรูป-และโหลดข้อมูล ขั้นตอนนี้เปรียบเสมือนการปัดกวาดเช็ดถูข้อมูลของเราให้อยู่ในรูปที่พร้อมใช้งานมากยิ่งขึ้น นำข้อมูลที่ไม่จำเป็นออกไปและนำข้อมูลเหล่านั้นไปเก็บไว้ใน Data Warehouse หรือคลังข้อมูลของเราอย่างเป็นระเบียบอีกทีหนึ่ง
“ELT : Extract-Load-Transform” – ปกติแล้วเราจะทำความสะอาดข้อมูลก่อนที่จะเก็บไว้ในคลังข้อมูลของเรา แต่หากเราต้องจัดการกับข้อมูลที่มีการหลั่งไหลเข้ามาอยู่ตลอดเวลา คงเป็นไปไม่ได้ที่เราจะจัดระเบียบข้อมูลเหล่านั้นได้อย่างทันท่วงที เราจึงต้องโหลดข้อมูลเก็บไว้ก่อน แล้วจึงค่อยนำข้อมูลในฐานข้อมูลของเราออกมาทำความสะอาด (Transform) เมื่อจำเป็นต้องใช้ ELT จึงเป็นกระบวนการที่เหมาะสำหรับจัดการกับฐานข้อมูลขนาดใหญ่หรือ Data Lake
Storage
“Data Warehouse” : คลังข้อมูล
Data Warehouse ก็ไม่ต่างอะไรกับโกดังเก็บสินค้าที่พร้อมนำไปจำหน่ายหรือพร้อมส่งมอบให้ผู้ที่ต้องการได้ทันที ดังนั้นโดยปกติแล้ว Data Warehouse จึงใช้เพื่อเก็บเฉพาะข้อมูลที่ผ่านการคัดกรองและแปลงสภาพให้อยู่ในลักษณะที่พร้อมใช้งานแล้วเพื่อประโยชน์ทางด้านธุรกิจ เช่น การทำรายงานการบริหารงานขององค์กร (Report) การเก็บข้อมูลการดำเนินงานของบริษัท หรือการนำข้อมูลไปวิเคราะห์เพื่อหาช่องทางทางธุรกิจต่อไป
เมื่อเทคโนโลยีถูกพัฒนาขึ้น ความต้องการทางด้านข้อมูลก็มากขึ้น จึงได้เกิดเป็นคำว่า Big Data ที่หลายๆ คนคุ้นหู หากข้อมูลยังจำเป็นต้องเก็บใน Warehouse นอกจากค่าใช้จ่ายในการดูแลที่มากแล้ว ยังไม่ตอบโจทย์ด้านความเร็วและความมากของข้อมูลที่หลั่งไหลเข้ามาในทุกๆ วินาที ในปัจจุบันจึงเกิดฐานข้อมูลที่เรียกว่า “Data Lake” หรือทะเลสาปข้อมูลขึ้น เพื่อเก็บข้อมูลทุกๆ รูปแบบไม่ว่าจะเป็นข้อมูลแบบ structured หรือ Unstructured ก็ตาม
“Data Lake” : ทะเลสาบข้อมูล
Data Lake คือแหล่งเก็บข้อมูลขนาดใหญ่ ที่จะเก็บข้อมูลที่อาจมีโครงสร้าง (structured) หรือไม่มีโครงสร้าง (Unstructured) หรือข้อมูลที่ยังไม่ได้ผ่านกระบวนการ Transformation ใดๆ กล่าวคือเป็นที่ไว้เก็บ “ข้อมูลดิบ” (Raw Data) นั่นเอง
Analysis
เมื่อข้อมูลเดินทางมาสู่ปลายทางของ Data Pipeline คือเมื่อข้อมูลที่เรารวบรวมมาถูกแปลงสภาพให้พร้อมใช้งานและเก็บไว้ในพื้นที่ที่เหมาะสมแล้ว คราวนี้ก็ง่ายที่เราจะหยิบข้อมูลเหล่านั้นมาใช้งานได้อย่างสะดวกรวดเร็วมากยิ่งขึ้น
“Analytics/Report/BI” : การวิเคราะห์และรายงานผล
เป็นการนำนำข้อมูลจากคลังข้อมูลมาวิเคราะห์เพื่อหา Insight ของธุรกิจ หรือหาต้นตอของปัญหา รวมถึงคาดการณ์ความเป็นไปของธุรกิจ และเพื่อค้นหาโอกาสใหม่ๆ ให้กับธุรกิจผ่านการใช้ข้อมูลเป็นเครื่องมือสำคัญที่จะช่วยในการตัดสินใจ
“Data Science” : วิทยาศาสตร์ข้อมูล
การใช้ข้อมูลเพื่อนำไปสร้าง Model เพื่อตอบโจทย์แก่ธุรกิจ เหล่า Data Scientist และ Data Engineer จะใช้การวิเคราะห์ขั้นสูงเพื่อสกัดข้อมูลอันมีค่าจากข้อมูลทั่วๆไปอีกทีหนึ่ง และนำข้อมูลเหล่านั้นไปพัฒนาเป็น Model หรือ Algorithms เพื่อตรวจหาข้อมูลที่ผิดสังเกตหรือน่าสนใจต่อไป
“Machine Learning” : การเรียนรู้ของเครื่อง
การสอนโปรแกรมหรือปัญญาประดิษฐ์ก็ไม่ต่างอะไรกับการสอนเด็กๆ ให้พูดได้ ให้คิดเป็น ยิ่งเราสอน ยิ่งเราเขี้ยวเข็ญมากเท่าไหร่ก็ยิ่งฉลาด ซึ่ง Machine Learning หรือ AI เหนือกว่ามนุษย์ในด้านพลังในการจดจำและคำนวณที่รวดเร็ว ยิ่งเราป้อนข้อมูลเข้าไปมากเท่าไหร่ นอกจากจะไม่มีวันลืมแล้ว ยังยิ่งฉลาดขึ้นเรื่อยๆ อีกด้วย
หวังว่าบทความนี้จะช่วยให้ผู้ที่เริ่มต้นศึกษาเรื่องราวเกี่ยวกับ Data และการทำ Data Analytics เข้าใจคอนเซป กระบวนการและขั้นตอน รวมถึงความหมายของคำศัพท์ต่างๆ ที่จะช่วยต่อยอดการเรียนรู้และเข้าใจการทำ Data Analytics มากยิ่งขึ้น
บทความที่น่าสนใจจาก Davoy