การทำเหมืองข้อมูล (Data Mining)


15 มี.ค. 2019    รัตนทัต    33

การทำเหมืองข้อมูล (Data Mining)

          จากบทความใน Forum ฉบับที่แล้ว ได้พูดถึงโลกของข้อมูลและทิศทางการเติบโตของโลกจากการใช้ข้อมูล “Big Data” โดยแสดงให้เห็นว่าบริษัทที่ดำเนินกิจการเกี่ยวกับข้อมูลสารสนเทศ ไม่ว่าจะเป็นส่วน Hardware, Software, Network, Information หรือ Data Managements ล้วนประสบความสำเร็จติดอันดับต้นๆ แต่อย่างไรก็ดีการก้าวเข้าไปสู่ยุค “Big Data” หากจะให้เกิดประโยชน์ได้จริงผู้ใช้จะต้องมีความรู้ความเข้าใจและมีความสามารถทำการวิเคราะห์ข้อมูลที่มีอยู่มากมายนั้น ให้มาเป็นข้อมูลสารสนเทศที่ดีมีประโยชน์ เทคนิคที่ได้รับความนิยมในปัจจุบันคือการทำเหมืองข้อมูล (Data Mining) ซึ่งจะเน้นการจัดการข้อมูลที่ถูกต้อง จัดกลุ่มค้นหาความสัมพันธ์ของกลุ่มข้อมูล และนำมาสร้างแบบจำลองเพื่อทำนายสิ่งที่จะเกิดขึ้นในอนาคต

          การทำเหมืองข้อมูล (Data Mining) คือ การค้นหาข้อมูลที่มีประโยชน์จากแหล่งข้อมูลที่มีเป็นจำนวนมากมายมหาศาล เพื่อดึงข้อมูลที่มีประโยชน์มาทำการวิเคราะห์ค้นหารูปแบบหรือความสัมพันธ์ที่เกิดในฐานข้อมูล และจัดทำเป็นสารสนเทศเพื่อใช้ในการวางแผนบริหารจัดการธุรกิจ โดยการแยกข้อมูลที่มีประโยชน์ออกมาใช้งานเปรียบเทียบคล้ายกับการทำเหมืองแร่ ที่จะต้องทำการแยกเศษหินดินทรายที่ไม่มีค่าและมีปริมาณมากออกจากแร่ที่มีมูลค่ามากและมักจะมีปริมาณน้อย

          ขั้นตอนการทำเหมืองข้อมูลที่นิยมใช้ในปัจจุบันมีหลายแบบ แต่ที่จะนำมากล่าวคือวิธี Cross-Industry Standard Process for Data Mining (CRISP-DM) ที่มีการพัฒนาเป็น Workflow มาตรฐานสำหรับการทำเหมืองข้อมูล ประกอบด้วย 6 ขั้นตอนคือ                                                                         

          1. Business Understanding เน้นไปที่การทำความเข้าใจในงาน ระบุโอกาส และหาปัญหาที่จะเกิดขึ้นกับธุรกิจ กำหนดขอบเขตของข้อมูลที่จะนำวิเคราะห์หาความได้เปรียบทางการตลาดและแก้ไขปัญหาองค์กร ซึ่งต้องสามารถระบุผลลัพธ์ที่มีได้

          2. Data Understanding ทำความเข้าใจข้อมูลโดยการรวบรวมข้อมูลที่เกี่ยวข้อง คัดเลือกให้เหลือเพียงข้อมูลที่มีความถูกต้องและสำคัญต่องานมาทำการวิเคราะห์

          3. Data Preparation ทำการแปลงข้อมูล (Raw Data) ให้กลายเป็นข้อมูลที่สามารถนำมาช่วยในการวิเคราะห์ต่อไปได้ ขั้นตอนนี้จะใช้เวลามากที่สุดในทุกขั้นตอน เพราะคุณภาพของงานที่ได้จะดีเพียงใดขึ้นอยู่กับคุณภาพข้อมูลที่จัดเตรียมในขั้นนี้ การเตรียมข้อมูลประกอบด้วย การคัดเลือกข้อมูล การกลั่นกรองข้อมูล และแปลงรูปแบบของข้อมูล

          4. Modeling การสร้างแบบจำลองเพื่อวิเคราะห์ข้อมูลที่ได้จากขั้นตอนที่ 3 พร้อมทดสอบผลลัพธ์แบบจำลองเพื่อให้ได้คำตอบที่ดีที่สุด บางครั้งอาจมีการย้อนกลับไปปรับการเตรียมข้อมูลเพื่อให้ได้แบบจำลองที่เหมาะสมที่สุด

          5. Evaluation การประเมินผลลัพธ์ที่ได้ก่อนที่จะนำไปใช้จริง ว่าตรงกับวัตถุประสงค์หรือเป้าหมายที่ได้ตั้งไว้หรือมีความน่าเชื่อถือมากน้อยเพียงใด หากไม่ได้ผลลัพธ์ตามวัตถุประสงค์ต้องย้อนกลับไปปรับปรุงแก้ไขการดำเนินงานในขั้นตอนก่อนหน้า

          6. Deployment การนำเอาข้อมูลที่เป็นผลลัพธ์จากทั้งหมด มาลองปฏิบัติจริงกับธุรกิจในองค์กร โดยแปลงแนวคิดที่มีให้เกิดเป็นสารสนเทศเพื่อให้ผู้บริหารหรือนักการตลาดเข้าใจสามารถนำไปใช้ประโยชน์ในทางธุรกิจได้จริง และติดตามประเมินผลที่ได้เพื่อนำกลับไปปรับปรุง Data Mining ต่อเนื่องต่อไป ซึ่งการประเมินผลสามารถทำได้หลายทางเช่น วัดจากส่วนแบ่งของตลาด วัดจากปริมาณลูกค้า หรือ วัดจากกำไรสุทธิ เป็นต้น

          จากขั้นตอนที่กล่าวมาคือการทำเหมืองข้อมูลในงานระบบทางธุรกิจ เป็นกระบวนการทางสถิติที่เน้นการจัดการข้อมูลที่มีจำนวนมากในหลากหลายรูปแบบ คัดเลือกเฉพาะข้อมูลที่สำคัญและจำเป็นต้องนำมาใช้งาน ทำการกำหนดรูปแบบจัดแบ่งกลุ่มลำดับความสำคัญ จากนั้นจึงจะเริ่มค้นหารูปแบบแนวทางและความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้นโดยแต่ละขั้นตอนจะอาศัยผลลัพธ์จากอีกขั้นตอนหนึ่งกลายเป็นข้อมูลให้ขั้นตอนต่อไป การทำเหมืองข้อมูลจะช่วยเปลี่ยนข้อมูลดิบให้เป็นสารสนเทศที่มีประโยชน์ การระบุแหล่งข้อมูลที่ถูกต้องจึงเป็นสิ่งที่สำคัญต่อผลลัพธ์ที่ได้จากการวิเคราะห์

          การทำเหมืองข้อมูลจำเป็นต้องอาศัยบุคลากรจากหลายฝ่ายและต้องอาศัยความรู้จำนวนมากถึงจะได้รับประโยชน์อย่างแท้จริง เพราะสิ่งที่ได้เป็นเพียงตัวเลขและข้อมูล ที่อาจจะนำไปใช้ประโยชน์ได้หรือใช้ประโยชน์อะไรไม่ได้เลยก็เป็นได้ ผู้ที่ศึกษาการทำเหมืองข้อมูลจึงควรมีความรู้รอบด้านและต้องติดต่อกับทุก ๆ ฝ่าย เพื่อให้เข้าใจถึงขอบเขตของปัญหาโดยแท้จริงก่อน เพื่อให้การทำเหมืองข้อมูลเกิดประโยชน์อย่างแท้จริง