การจำแนกความน่าเชื่อถือของเว็บไซต์แหล่งข่าวภาษาไทย โดยใช้เทคนิคการทำเหมืองข้อมูล
คำสำคัญ:
เหมืองข้อมูล, การจัดกลุ่มข้อมูล, การจำแนกประเภท, ความน่าเชื่อถือ, ข่าวออนไลน์บทคัดย่อ
การเพิ่มขึ้นของแหล่งข่าวที่ไม่น่าเชื่อถือในสื่อออนไลน์ที่เข้าถึงได้ในทุกวัน เช่น สื่อสังคมออนไลน์ บล็อกข่าว และเว็บไซต์หนังสือพิมพ์ออนไลน์ สร้างความเข้าใจผิดให้กับผู้ได้รับข่าวสารนั้น ซึ่งทำให้การระบุแหล่งข่าวที่น่าเชื่อถือเป็นเรื่องที่ท้าทาย เป้าหมายของการวิจัยนี้คือการสร้างโมเดลการจำแนกความน่าเชื่อถือของเว็บไซต์แหล่งข่าวภาษาไทย มีวัตถุประสงค์เพื่อศึกษาข้อมูลปัจจัยที่เกี่ยวข้องกับความน่าเชื่อถือของเว็บไซต์ และเปรียบเทียบประสิทธิภาพของโมเดลที่ใช้ในการจำแนกประเภท โดยการรวบรวมข้อมูลปัจจัยทางเทคนิคของเว็บไซต์แหล่งข่าวและสื่อสังคมออนไลน์ของแหล่งข่าวแล้วทำการจัดกลุ่มข้อมูลเว็บไซต์แหล่งข่าวเพื่อกำหนดป้ายกำกับกลุ่มของแหล่งข่าว โดยจัดกลุ่มที่มีประสิทธิภาพดีที่สุดแบ่งออกเป็น 5 กลุ่ม จากนั้นทำการวิเคราะห์ข้อมูลด้วยเทคนิคการจำแนกประเภทประกอบด้วย 5 เทคนิค ดังนี้ Decision Tree--C4.5, Naïve Bayes, K-Nearest Neighbor--K-NN, Multilayer Perceptron และ Support Vector Machine--SVM แล้วเปรียบเทียบค่าประสิทธิภาพพบว่าเทคนิค K-Nearest Neighbor--K-NN ที่มีค่า K เท่ากับ 5 6 และ 7 มีค่าประสิทธิภาพมากที่สุดเท่ากัน (Accuracy=96.03%, Precision=0.962, Recall=0.960, F-measure=0.959) ซึ่งผู้วิจัยเลือกใช้เทคนิค K-Nearest Neighbor--K-NN เมื่อ K เท่ากับ 6 เนื่องจากทำให้มีอำนาจจำแนกได้ดีกับจำนวน 5 กลุ่ม
References
Chumwatana, T. (2013). A survey of Automatic Indexing Techniques for Thai Text documents. Information Technology Journal, 9(1), 81-91. (in Thai)
Dumais, S., Platt, J., & Heckerman, D. (1998). Inductive learning algorithm and representation for text categorization. In Conference of Information and Knowledge Management (CIKM) (pp. 148-155). Maryland, USA.: CIKM. doi: 10.1145/288627.288651.
Fairbanks, J., Fitch, N., Knauf, N., & Briscoe, E., (2018). Credibility assessment in the News: Do we need to read?. In Misinformation and Misbehavior Mining on the Web (pp. 1-8). CA., USA.: James P. Fairbanks. http://jpfairbanks.net/publication/mis2-2018/.
Kokkeadtikul, C., & Danphaibun, T., (2018). Fake news: Fake news problems, challenge and policy action. NBTC Journal, 3, 173-192. (in Thai)
Krishnamoorthy, A., Patil, A. K., Vasudevan, N., & Pathari, V. (2018). News article classification with clustering using Semi-Supervised Learning. In International Conference on Advances in Computing, Communications and Informatics (ICACCI) (pp. 86-91). Bangalore, India: ICACCI
Li, J., Fong, S., Zhuang, Y., & Khoury, R. (2016). Hierarchical classification in text mining for sentiment analysis of online news. Soft Computing, 20(9), 3411–3420.
National Statistical Office. (2018). The 2018 household survey on the use of Information and Communication Technology. Bangkok: Economic and Social Statistics Bureau. (in Thai)
Shahi, T., & Pant, A. (2018). Nepali news classification using Naïve Bayes, support vector machines and neural networks. In International Conference on Communication information and Computing Technology (ICCICT) (pp. 1-5). Mumbai, India: ICCICT.
Toommanon, T., & Whattananarong, K. (2012). Creditability and innovation adoption of Online Newspapers. Technical Education Journal King Mongkut’s University of Technology North Bangkok, 3(2), 25-33. (in Thai)