ปลดล็อค ! ข้อจำกัดการสร้าง Data Catalog ด้วยแพลตฟอร์มจัดการข้อมูลบริบทไทย

Facebook
Twitter
data-catalog-platform

 

สัมภาษณ์ | คุณปฏิพัทธ์ ตุ้มสังข์ทอง
ทีมวิจัยการวิเคราะห์ยุทธศาสตร์ด้วยปัญญาประดิษฐ์ (SAI) เนคเทค-สวทช.
เรื่อง| วลัยลักษณ์ คงพระจันทร์ และ ศศิวิภา หาสุข
วิดีโอสัมภาษณ์| ตุลลาวัฒน์ หอมสินธ์
 

แม้จะเป็นที่ยอมรับว่า “ข้อมูล” ในโลกดิจิทัลทวีความล้ำค่ามากขึ้นทุกขณะ แต่ทว่าการนำข้อมูลไปใช้ประโยชน์ได้อย่างแท้จริงและยั่งยืนนั้น จำเป็นต้องมีกระบวนการจัดการกับข้อมูลอีกมาก โดยเฉพาะอย่างยิ่ง “ข้อมูลภาครัฐ” แหล่งข้อมูลขนาดใหญ่และสำคัญของประเทศ

Data Governance หรือ ธรรมาภิบาลข้อมูล จึงถูกกำหนดขึ้นเพื่อเป็นกลไกในการกำกับและดูแลข้อมูล ตั้งแต่กระบวนการสร้าง การจัดเก็บ การวิเคราะห์ การเข้าถึง ไปจนถึงการทำลายข้อมูล เพื่อนำไปสู่เป้าหมายเดียวกัน คือ การใช้ประโยชน์จากข้อมูลอย่างมีประสิทธิภาพ ปลอดภัย รองรับการแลกเปลี่ยนข้อมูลอย่างยั่งยืน

ว่าด้วยเรื่องราวของการจัดทำ Data Governance นี้ เนคเทค-สวทช. ชวนคุณปฏิพัทธ์ ตุ้มสังข์ทอง จากทีมวิจัยการวิเคราะห์ยุทธศาสตร์ด้วยปัญญาประดิษฐ์ (SAI) เนคเทค-สวทช. ร่วมพูดคุยเกี่ยวกับเครื่องมือที่ตอบโจทย์การทำ Data Catalog ส่วนสำคัญที่จะต้องจัดทำภายใต้กรอบ Data Governance ที่ล่าสุดได้ใช้งานจริงในหลากหลายองค์กรของรัฐ

Interview | Data Catalog Platform ในบริบทไทย คุยกับ คุณปฏิพัทธ์ ตุ้มสังข์ทอง

สารพัดปัญหาจากข้อมูลที่ไม่ได้รับการดูแล

ในโลกดิจิทัล “ข้อมูล” เป็นปัจจัยสำคัญที่ช่วยในการตัดสินใจ แก้ปัญหา สร้างมูลค่า และศักยภาพในการแข่งขันให้กับองค์กร แต่. . . ไม่ใช่ทุกข้อมูลที่จะมีคุณสมบัติอันดีเหล่านี้ หากไม่ได้รับการบริหารจัดการและดูแลอย่างมีประสิทธิภาพ ข้อมูลมหาศาลที่แต่ละองค์กรมีนั้นอาจสร้างปัญหา ภาระ และเป็นอุปสรรคต่อการนำข้อมูลไปใช้ประโยชน์ได้ แม้จะเป็นข้อมูลภายในหน่วยงานเองก็ตาม

คุณปฏิพัทธ์ เล่าว่า ปัจจุบันการทำงานไม่ว่าองค์กรรัฐหรือเอกชน สิ่งสำคัญที่จะทำให้การทำงานขับเคลื่อนไปได้อย่างมีประสิทธิภาพ ต้องอาศัย “ข้อมูล” เพื่อช่วยให้ตัดสินใจได้อย่างถูกต้องแม่นยำ การค้นหาข้อมูล จึงกลายเป็นจุดเริ่มต้นของกระบวนการทำงานหลาย ๆ อย่างในองค์กร

data-catalog-platform

 

“แม้ข้อมูลที่ค้นหาและเข้าถึงได้ง่ายที่สุด คือ ข้อมูลของหน่วยงานเราเอง แต่บางครั้งอาจเกิดคำถามตามมามากมายว่า ข้อมูลที่ต้องการเก็บอยู่ที่ไหน ถ้าข้อมูลทุกอย่างถูกเก็บรวมกันเต็มไปหมด แล้วเราจะนำมาใช้ประโยชน์ได้อย่างไร

หรือถ้าข้อมูลเราไม่เพียงพอ… ต้องการข้อมูลจากหน่วยงานอื่น ในทางกลับกันหน่วยงานอื่นก็อาจจะต้องการข้อมูลจากเราเช่นกัน แล้วข้อมูลของเรามีอะไรเปิดเผยได้ อะไรเปิดเผยไม่ได้ ถ้าเปิดเผยไปแล้วจะมีความผิดหรือไม่ ใครเข้าถึงข้อมูลได้บ้าง

สิ่งเหล่านี้เป็นปัญหาที่เกิดขึ้นในยุคที่แต่ละวินาทีมีข้อมูลเกิดขึ้นอย่างมากมายมหาศาล เราจึงต้องมีการบริหารจัดการข้อมูลที่ดีและมีประสิทธิภาพ เพื่อใช้ประโยชน์จากข้อมูลได้อย่างเต็มที่” คุณปฏิพัทธ์ กล่าวเสริม

3 ส่วนสำคัญเพื่อบริหารจัดการข้อมูลอย่างมีประสิทธิภาพ

การบริหารจัดการข้อมูลอย่างมีประสิทธิภาพเปรียบเสมือนการตอบคำถามเกี่ยวกับข้อมูลในหน่วยงาน ที่ในอดีตอาจตอบได้ยาก โดยเฉพาะอย่างยิ่งหน่วยงานภาครัฐที่ถือครองข้อมูลมหาศาล เช่น หน่วยงานมีข้อมูลอะไรอยู่บ้าง ข้อมูลเหล่านั้นจัดเก็บอยู่ที่ไหน มีชั้นความลับเป็นอย่างไร ใครเป็นผู้รับผิดชอบ เป็นต้น โดยคุณปฏิพัทธ์ ได้เล่าถึง 3 ส่วนสำคัญในการบริหารจัดการข้อมูลอย่างมีประสิทธิภาพ ดังนี้

● Data Governance
คือ การกำกับดูแลข้อมูลในหน่วยงาน ตลอดวงจรชีวิตของข้อมูล ตั้งแต่การสร้าง จัดเก็บ เข้าถึง ใช้ประโยชน์ และการทำลาย โดยเน้นให้ข้อมูลมีความถูกต้อง สมบูรณ์ ทันสมัย ปลอดภัย มีความเป็นส่วนตัว สามารถเชื่อมโยงได้ และคุ้มค่ากับการจัดเก็บ
● Data Catalog
Data Catalog เปรียบเสมือนสมุดหน้าเหลืองที่อธิบายว่าในหน่วยงานมีรายการชุดข้อมูลอะไรอยู่บ้าง ด้วยหลักการ 5W1H
• What: คำอธิบายรายละเอียดชุดข้อมูล
• Where: แหล่งที่มาของข้อมูลและรูปแบบการจัดเก็บ
• When: ระยะเวลาในการจัดเก็บและอัปเดตข้อมูล
• Why: วัตถุประสงค์ในการเก็บข้อมูลและการนำไปใช้ประโยชน์
• Who: หน่วยงานผู้ถือครอง / เจ้าของข้อมูล
• How: วิธีการใช้และเข้าถึงข้อมูล รวมถึงระดับในการเปิดเผยข้อมูล
● Data Service / Data Exchange
เป็นส่วนให้บริการข้อมูลจาก Data Catalog ในรูปแบบ API ที่เป็นมาตรฐานตามความปลอดภัยและ ชั้นความลับ หรืออาจมีการกำหนด Data Standards ที่ใช้สำหรับการแลกเปลี่ยนข้อมูล
“ถ้าหน่วยงานจัดทำ 3 ส่วนนี้ จะเกิดประโยชน์มหาศาลต่อข้อมูลที่จัดเก็บ คุ้มค่ากับการลงทุนทั้งทรัพยากร คน และระบบสารสนเทศ อีกทั้งจะช่วยลดความซ้ำซ้อนในการจัดเก็บข้อมูล นำข้อมูลไปใช้ประโยชน์ได้มากขึ้น และสร้างบริการที่ดีกับประชาชนและหน่วยงานอื่นได้” คุณปฏิพัทธ์ กล่าว
data-catalog-platform

 

Open-D ผนวก CKAN สู่ Data Catalog Platform ในบริบทของไทย

การบริหารจัดการข้อมูลอย่างมีประสิทธิภาพจำเป็นต้องอาศัยเครื่องมือที่สามารถตอบโจทย์ทั้ง Data Governance, Data Catalog และ Data Service โดยเนคเทค-สวทช. มีการวิจัยและพัฒนาเทคโนโลยีเกี่ยวกับ Open Data ชื่อว่า Open-D Platform

คุณปฏิพัทธ์ เล่าว่า “Open-D Platform ใช้สำหรับให้บริการข้อมูลเปิดในรูปแบบ API และ Visualization ที่พร้อมใช้ ผนวกกับว่าในยุคนี้แต่ละหน่วยงานมีความต้องการที่จะเปิดเผยข้อมูลในหน่วยงานของตัวเองเพื่อแลกเปลี่ยนกับหน่วยงานอื่นมากขึ้น ทำให้เกิดการพัฒนา Open-D เพื่อตอบโจทย์แต่ละหน่วยงาน”

data-catalog-platform

 

โดยเนคเทค-สวทช.ได้ใช้ซอฟต์แวร์ CKAN หรือ Comprehensive Knowledge Archive Network เป็นฐานในการพัฒนาร่วมกับงานวิจัย Open-D Platform สู่ Data Catalog Platform ในบริบทของไทย

รู้จัก CKAN

CKAN เป็นซอฟต์แวร์ Open Source ที่พัฒนาโดย Open Knowledge Foundation (okfn.org) ซึ่งสนับสนุนให้รัฐบาลแต่ละประเทศนำไปพัฒนาเป็น Open Data Portal ปัจจุบันได้รับความนิยมในหลายประเทศทั่วโลก เช่น สหรัฐอเมริกา สหราชอาณาจักร สหภาพยุโรป ญี่ปุ่น สิงคโปร์ รวมถึงประเทศไทย

นอกจากการเป็น Open Source ที่ใช้งานอย่างแพร่หลายในระดับสากลแล้ว คุณปฏิพัทธ์ยังเล่าถึงจุดเด่นของ CKAN ว่าสามารถให้บริการไฟล์ข้อมูลเชิงโครงสร้างในรูปแบบ API ได้อย่างอัตโนมัติ และมี Plugin ที่พร้อมให้นักพัฒนานำไปใช้เพื่อเสริมความสามารถ และตอบโจทย์การพัฒนา Open Data Portal ของแต่ละหน่วยงานได้ นอกจากนี้ CKAN ยังสนับสนุนการใช้งานทั้งผู้ให้และผู้รับข้อมูล โดยผู้ให้ข้อมูลสามารถอัปโหลดไฟล์ข้อมูล สร้างชุดข้อมูล กำหนด Metadata ได้จากระบบ และผู้รับข้อมูลสามารถดู Data Catalog พร้อมเรียกใช้ข้อมูลนั้นผ่าน API ได้

ภายใต้ข้อดียังมีข้อจำกัด

ภายใต้ข้อดีของ CKAN ยังมีข้อจำกัด… ด้วย CKAN เป็น Open Source ที่ไม่ได้จำกัดบริบทการใช้งาน (General Software) โดยธรรมชาติของแต่ละหน่วยงานจะมีบริบทของข้อมูลที่ต่างกัน จึงจำเป็นต้องมีการปรับ (customize) CKAN ให้เข้ากับบริบทข้อมูลและ Data Catalog ของหน่วยงานนั้น ๆ

ด้วยข้อจำกัดนี้ ทีมวิจัยฯ ได้นำ Open-D และ CKAN มาเสริมความสามารถซึ่งกันและกันใน 4 ส่วน ดังนี้
• Data Cleansing
การตรวจสอบคุณภาพข้อมูล และแปลงชุดข้อมูล (transform) ให้อยู่ในรูปแบบพร้อมใช้
• Data Analytics and Visualization
เครื่องมือสนับสนุนให้ผู้ใช้สามารถดึงข้อมูลเพื่อวิเคราะห์ จัดทำรายงานเชิงสรุปในรูปแบบของ Dashboard ได้
• Data API Management
การให้บริการ API อย่างปลอดภัยตามชั้นความลับ หรือกระบวนการที่หน่วยงานกำหนด
• Data Harvester and Exchange
การรวบรวม Data Catalog และชุดข้อมูลที่แต่ละหน่วยงานจัดทำขึ้นรวมไว้ในจุดเดียว เพื่อเพิ่มความสะดวกในการเข้าถึงและบูรณาการข้อมูล (Data Integration) ระหว่างหน่วยงาน
data-catalog-platform

 

 ลงสนามใช้งานจริง | Data Catalog Platform กับการพัฒนาข้อมูลภาครัฐ

เนคเทค-สวทช.ได้นำ Data Catalog Platform ไปประยุกต์ใช้งานจริงในหน่วยงานภาครัฐอย่างหลากหลาย โดยมีรูปแบบหรือบริบทของข้อมูลที่แตกต่างกันในแต่ละหน่วยงาน เป็นความท้าทายที่ Data Catalog Platform จะต้องปรับให้เข้ากับบริบทข้อมูลนั้น ๆ

โครงการแรกของ Data Catalog Platform คือ การปรับปรุงเว็บไซต์ Open Data Portal ของประเทศ หรือ data.go.th โดยร่วมกับสำนักงานพัฒนารัฐบาลดิจิทัล (องค์การมหาชน) หรือ สพร. คุณปฏิพัทธ์เล่าว่า เวอร์ชันแรกของเว็บไซต์ฯ ที่พัฒนาตั้งแต่ปี 2558 นั้นมีปัญหาหลัก คือ ไม่สามารถให้บริการข้อมูลในรูปแบบ API ได้ รวมถึงรายการ Metadata ยังไม่เป็นไปตามมาตรฐาน

data-catalog-platform

 

เนคเทค-สวทช. จึงนำ Data Catalog Platform ไปปรับใช้ (customize) ให้เข้ากับกระบวนการเผยแพร่ชุดข้อมูลเปิด (Open Data) ของเว็บไซต์ฯ โดยมีการปรับปรุงและพัฒนาเสร็จสิ้นก่อนการแพร่ระบาดของ COVID-19 จึงทำให้กระทรวงสาธารณสุขสามารถนำข้อมูลเกี่ยวกับ COVID-19 มาขึ้นที่เว็บไซต์ดังกล่าวได้ ซึ่งเป็นชุดข้อมูลหนึ่งที่ได้รับความนิยม

“จากการพัฒนาดังกล่าว เกิดการเปลี่ยนแปลงอย่างหนึ่ง คือ นักพัฒนาสามารถนำข้อมูลไปใช้ประโยชน์ผ่าน API ได้มากขึ้น ง่ายและสะดวกในการพัฒนาแอปพลิเคชัน ผู้ใช้ทั่วไปสามารถดึงข้อมูลที่มีการอัปเดตสร้างรายงานในรูปแบบกราฟ และแผนที่ได้” คุณปฏิพัทธ์ กล่าวเสริม

นอกจากนี้มีการนำ Data Catalog Platform ไปปรับใช้ในการพัฒนาเว็บไซต์ศูนย์กลางข้อมูลเปิดภาครัฐโดยร่วมกับสำนักงานสภาพัฒนาการเศรษฐกิจและสังคมแห่งชาติ ในบริบทของการติดตามและประเมินผลการดำเนินงานตามยุทธศาสตร์ชาติ หรือระบบ eMENSCR เพื่อให้ประชาชนสามารถเข้าถึงและติดตามการดำเนินงานของภาครัฐได้

data-catalog-platform

 

“เราหวังว่า Data Catalog Platform ที่ทางเนคเทค-สวทช. พัฒนาขึ้น จะเป็นกลไกสำคัญที่จะช่วยผลักดันให้เกิดการใช้ประโยชน์จากข้อมูล สร้างนวัตกรรมพัฒนาประเทศต่อไปในอนาคต” คุณปฏิพัทธ์ กล่าวทิ้งท้าย

โดยอนาคตอันใกล้นี้ . . . Data Catalog Platform จะเป็นหนึ่งในเครื่องมือเพื่อพัฒนา Government Data Catalog หรือ “ระบบบัญชีข้อมูลกลางภาครัฐ” ร่วมกับสำนักงานสถิติแห่งชาติ พร้อมด้วยแผนในการผนวกรวมงานวิจัยอื่นของเนคเทค – สวทช. ที่เกี่ยวกับข้อมูล ทั้งส่วนของโครงสร้างพื้นฐาน (Infrastructure) การบูรณาการข้อมูล (Data Integration) รวมถึงการสร้างบัญชีข้อมูล (Data Catalog) สู่แพลตฟอร์มที่สนับสนุนการใช้ประโยชน์จากข้อมูลในบริบทของไทย หรือ Data for Thai ติดตามพร้อมกันเร็ว ๆ นี้ . . .

data-catalog-platform