การใช้การเรียนรู้ของเครื่องสำหรับตรวจจับข้อความโฆษณาอาหารที่ผิดกฎหมาย

Main Article Content

วรรณกัญญ์ นิธิโรจน์ศุภภัค
วีรยุทธ์ เลิศนที

บทคัดย่อ

วัตถุประสงค์: เพื่อหาแบบจำลองที่เหมาะสมจากเทคนิคการเรียนรู้ของเครื่องสำหรับจำแนกข้อความโฆษณาอาหาร เป็นข้อความที่ถูกกฎหมายและผิดกฎหมาย วิธีการ: ผู้วิจัยเตรียมชุดข้อความโฆษณาอาหาร จำนวน 200 ตัวอย่าง แบ่งเป็นข้อความถูกกฎหมาย 100 ตัวอย่างและผิดกฎหมาย 100 ตัวอย่าง ในขั้นตอนการเตรียมข้อมูล ข้อมูลที่ไม่เกี่ยวข้องที่สามารถเชื่อมโยงไปยังเจ้าของผลิตภัณฑ์ เช่น เลขที่ใบอนุญาตโฆษณา ชื่อการค้า และชื่อบริษัท ถูกลบออกไป หลังจากนั้นตัดคำภาษาไทยด้วยอัลกอรึทึมที่เลือกคำยาวที่สุด เพื่อใช้แบ่งคำในประโยค/วลี ขั้นต่อไป นำรายการคำหยุดภาษาไทยมาใช้เพื่อลบคำที่ไม่สำคัญออก จากนั้นใช้ชุดคำแบบยูนิแกรม และแบบไบแกรมมาจัดทำคุณลักษณะในเวกเตอร์เอกสาร คุณลักษณะทั้งหมดและบางส่วนถูกนำมาใช้สร้างและทดสอบแบบจำลอง คุณลักษณะบางส่วนถูกเลือกโดยวิธีเคที่ดีที่สุด โปรแกรมภาษา PHP และชุดไลบรารี PHP-ML สำหรับการเรียนรู้ด้วยเครื่องถูกใช้เพื่อสร้างชุดโปรแกรม เทคนิคการเรียนรู้แบบมีผู้สอน 3 ชนิดถูกนำมาใช้ในการจัดทำแบบจำลอง ได้แก่ ซัพพอร์ทเวกเตอร์แมชชีน เคเนียเรสเนเบอร์ และนาอีฟเบย์ส ทำโดยใช้การสุ่มตัวอย่างแบบแบ่งชั้นร้อยละ 80 ของข้อมูลด้วยสัดส่วนที่เท่ากันของกลุ่มข้อความที่ถูกและผิดกฎหมายเพื่อนำมาใช้สร้างแบบจำลอง และร้อยละ 20 ที่เหลือใช้ทดสอบแบบจำลอง แต่ละการทดสอบทำ 10 ครั้ง ใช้ค่าเฉลี่ยของคะแนน F1 ในการบอกประสิทธิภาพของแบบจำลอง จากนั้นนำแบบจำลองที่มีคะแนน F1 เฉลี่ยมากที่สุดของแต่ละเทคนิคของการเรียนรู้ มาสร้างโปรแกรมตรวจจับข้อความโฆษณาที่ผิดกฎหมาย และทดสอบด้วยข้อความโฆษณา 40 ข้อความ ผลการวิจัย: ซัพพอร์ทเวกเตอร์แมชชีนเป็นตัวจำแนกข้อความโฆษณาอาหารที่มีประสิทธิภาพมากที่สุด ด้วยคะแนน F1  คือ 0.987 เมื่อใช้คุณลักษณะทั้งหมดแบบยูนิแกรม หลังตัดคำหยุดออก สรุป: เทคนิคเรียนรู้ของเครื่องสามารถใช้สำหรับจำแนกข้อความโฆษณาอาหารที่ถูกหรือผิดกฎหมายได้อย่างมีประสิทธิภาพ

Article Details

บท
บทความวิจัย

References

Food Act, B.E. 2522 Royal Gazette No.96, Part 79A special (May 13, 1979).

Announcement of the Food and Drug Administration Re: criteria for food advertisement B.E. 2561. Royal Gazette No.135, Part 322D special (December 17, 2018).

Story M, French S. Food advertising and marketing directed at children and adolescents in the US. Int J Behav Nutr Phys Act 2004; 1: 3.

Chapman K, Nicholas P, Supramaniam R. How much food advertising is there on Australian television?. Health Promot Int 2006; 21: 172-80.

Harris JL, Bargh JA, Brownell KD. Priming effects of television food advertising on eating behavior. Health Psychol 2009; 28: 404-13.

Shalev-Shwartz S, Ben-David S. Introduction. Understanding machine learning: From theory to algorithms. New York: Cambridge university press; 2014. p. 19-23.

Jindal R, Malhotra R, Jain A. Techniques for text classification: Literature review and current trends. Webology 2015; 12: 1-28.

Chirawichitchai N, Sa-nguansat P, Meesad P. Developing and effective automatic Thai document categorization. NIDA Development Journal 2011; 51: 187-205.

Chatcharaporn K, Angskun T, Angskun J. Tourist attraction categorization models using machine learning techniques. Suranaree Journal of Science and Technology 2012; 6: 35-58.

Tipsena R, Jareanpon C, Somprasertsri G. Automatic question classification on webboard using text mining techniques. Journal of Science and Technology Mahasarakham University. 2014; 33: 493-502.

Foundation for Consumers. Foundation for Consumers reveals the situation of consumers in 2018, found number 1 exaggerated ads [online]. 2019 [cited Sep 26, 2019]. Available from: www.consumerthai.org/news-consumerthai/ffc-news/4302-620124comsumerstat.html.

Havrlant L, Kreinovich V. A simple probabilistic explanation of term frequency-inverse document frequency (tf-idf) heuristic (and variations motivated by this explanation). Int J Gen Syst 2017; 46: 27-36.

Mohammad AH, Alwada'n T, Al-Momani O. Arabic text categorization using support vector machine, Naïve Bayes and neural network. GSTF Int J Comput 2016; 5: 108.

Khamar K. Short text classification using kNN based on distance function. Int J Adv Res Comput Commun Eng 2013; 2: 1916-9.

Al-Khurayji R, Sameh A. An effective arabic text classification approach based on kernel naive bayes classifier. Int J Artif Intell Appl 2017; 8: 1-10.