วันพุธที่ 15 มีนาคม พ.ศ. 2560

WEKA คืออะไร

WEKA คืออะไร

โปรแกรม Weka (Waikato Environment for Knowledge Analysis) เริ่มพัฒนามาตั้งแต่ปี  1997 โดยมหาวิทยาลัย Waikato ประเทศนิวซีแลนด์ เป็นซอฟต์แวร์สำเร็จรูป   อยู่ภายใต้การควบคุมของ GPL License โปรแกรม Weka ได้ถูกพัฒนามาจากภาษาจาวาทั้งหมด  ซึ่งเขียนมาโดยเน้นกับงานทางด้านการเรียนรู้ด้วยเครื่อง  (Machine Learning) และ  การทำเหมืองข้อมูล  (Data Mining) โปรแกรมจะประกอบไปด้วยโมดูลย่อยๆ สำหรับใช้ในการจัดการข้อมูล  และเป็นโปรแกรมที่สามารถใช้ Graphic User Interface (GUI) และ ใช้ค่าส่งในการให้ซอฟต์แวร์ประมวลผล  และ สามารถรัน  (run) ได้หลายระบบปฏับติการ และสามารถพัฒนาต่อยอดโปรแกรมได้ เป็นเครื่องมือที่ใช้ทางานในด้านการทาดาตาไมนนิ่งท์รวบรวมแนวคิดอัลกอริทึมมากมาย ซึ่งอัลกอรทึมสามารถเลือกใช้งานโดยตรงได้จาก  2 ทางคอจากชุดเครื่องมือที่มีอัลกอริทึมมาให้ หรือเลือกใช้จากอัลกอริทึมที่ไดเขียนเป็นโปรแกรมลงไปเป็นชุดเครื่องมือเพี่มเติม และชุดเครื่องมือมีฟังก์ชั้นสำหรับการทำงานร่วมกับข้อมูล ได้แก่  Pre-Processing, Classification,Regression, Clustering, Association rules,  Selection และ Visualization 

ข้อดีโปรแกรม Weka
• เป็นซอฟต์แวร์ที่เป็นฟรีแวร์
• สามารถทางานได้ทุก OS
• เชื่อมต่อ SQL Database โดยใช้ Java Database Connectivity
• มีลักษณะที่ง่ายต่อการใช้งานเนื่องจากใช้
• สนับสนุนเกี่ยวกับการทาเหมืองข้อมูล (Data Mining)  

ข้อเสียโปรแกรม Weka
• หาโหลดใช้งานได้ยาก
• ฟังค์ชั้นอาจจะยังไม่ทันสมัย

การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์
ความรู้ที่ได้จากการทำเหมืองข้อมูลมีหลายรูปแบบ ได้แก่
กฎความสัมพันธ์(Association rule) 
แสดงความสัมพันธ์ของเหตุการณ์หรือวัตถุ ที่เกิดขึ้นพร้อมกัน ตัวอย่างของการประยุกต์ใช้กฎเชื่อมโยง เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจากระบบ ณ จุดขาย(POS) หรือร้านค้าออนไลน์ แล้วพิจารณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น ถ้าพบว่าคนที่ซื้อเทปวิดีโอมักจะซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้สินค้าสองอย่างอยู่ใกล้กัน เพื่อเพิ่มยอดขาย หรืออาจจะพบว่าหลังจากคนซื้อหนังสือ ก แล้ว มักจะซื้อหนังสือ ข ด้วย ก็สามารถนำความรู้นี้ไปแนะนำผู้ที่กำลังจะซื้อหนังสือ ก ได้
การจำแนกประเภทข้อมูล (Data classification) 
หากฏเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่าง ๆ กับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้ เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์ ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย เพื่อประกอบการพิจารณาการอนุมัติเงินกู้
การแบ่งกลุ่มข้อมูล (Data clustering) 
แบ่งข้อมูลที่มีลักษณะคล้ายกันออกเป็นกลุ่ม แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจารณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน
จินตทัศน์(Visualization)
สร้างภาพคอมพิวเตอร์กราฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ขัอความนำเสนอข้อมูลที่มากมาย เราอาจพบข้อมูลที่ซ้อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจินตทัศน์
ขั้นตอนการทำเหมืองข้อมูล
1.ทำความเข้าใจปัญหา
2.ทำความเข้าใจข้อมูล
3.เตรียมข้อมูล
4.สร้างแบบจำลอง
5.ประเมิน
6.นำไปใช้งาน
ประโยชน์จากการทำเหมืองข้อมูล
การทำเหมืองข้อมูล จำเป็นต้องอาศัยบุคลากรจากหลายฝ่าย และต้องอาศัยความรู้จำนวนมาก ถึงจะได้รับประโยชน์อย่างแท้จริง เพราะสิ่งที่ได้จากขั้นตอนวิธีเป็นเพียงตัวเลข และข้อมูล ที่อาจจะนำไปใช้ประโยชน์ได้หรือใช้ประโยชน์อะไรไม่ได้เลยก็เป็นได้ ผู้ที่ศึกษาการทำเหมืองข้อมูลจึงควรมีความรู้รอบด้านและต้องติดต่อกับทุก ๆ ฝ่าย เพื่อให้เข้าใจถึงขอบเขตของปัญหาโดยแท้จริงก่อน เพื่อให้การทำเหมืองข้อมูลเกิดประโยชน์อย่างแท้จริง



อ้างอิงจาก
https://nutty789.wordpress.com/2012/04/03/data-mining-การทำเหมืองข้อมูลและ/

ไม่มีความคิดเห็น:

แสดงความคิดเห็น