การทำนายผลผลิตข้าวหอมมะลิ ภาคตะวันออกเฉียงเหนือ กรณีที่มีการสูญหายของข้อมูลโดยการประมาณค่าสูญหายจากการปรับแก้วิธีเคเนียร์เรสเนเบอร์โดยใช้ค่าเฉลี่ยเดไซล์

ผู้แต่ง

  • พัชนา สุวรรณแสน วิทยาลัยวิทยาการวิจัยและวิทยาการปัญญา มหาวิทยาลัยบูรพา
  • ภัทราวดี มากมี วิทยาลัยวิทยาการวิจัยและวิทยาการปัญญา มหาวิทยาลัยบูรพา
  • อาฟีฟี ลาเต๊ะ คณะศึกษาศาสตร์ มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตปัตตานี

คำสำคัญ:

ข้อมูลสูญหาย, ผลผลิตข้าวหอมมะลิ, การปรับแก้วิธีเคเนียร์เรสเนเบอร์

บทคัดย่อ

การวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ Decile Mean K Nearest Neighbor Bhattacharyya Imputation--DKNN-BH และเพื่อเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH กับวิธีการประมาณค่าข้อมูลสูญหายค่าเฉลี่ยเลขคณิต วิธีการประมาณค่าข้อมูลสูญหาย K Nearest Neighbor Imputation--KNN และวิธีการประมาณค่าข้อมูลสูญหาย Decile Mean K Nearest Neighbor Imputation--DKNN จากข้อมูลผลผลิตข้าวหอมมะลิและข้อมูลที่เกี่ยวข้อง ทำการทดลองซ้ำจำนวน 500 ครั้ง และทำนายผลผลิตข้าวหอมมะลิ ภาคตะวันออกเฉียงเหนือ เมื่อกำหนดให้มีข้อมูลสูญหาย โดยใช้วิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH ที่พัฒนาขึ้น ผลการวิจัยสรุปได้ดังนี้ การพัฒนาวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH เกิดจากการปรับแก้วิธีการประมาณค่าข้อมูลสูญหายด้วยวิธี KNN โดยปรับแก้ด้วยการใช้ค่าเฉลี่ยเดไซล์และการหาระยะทางแบบ Bhattacharyya เมื่อนำมาใช้กับข้อมูลการทำนายผลผลิตข้าวหอมมะลิ ภาคตะวันออกเฉียงเหนือ ซึ่งกำหนดให้มีข้อมูลสูญหาย โดยเปรียบเทียบวิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH ที่พัฒนาขึ้นกับ 3 วิธีข้างต้น พบว่า ข้อมูลผลผลิตข้าวหอมมะลิ ภาคตะวันออกเฉียงเหนือที่ใช้วิธีการประมาณค่าข้อมูลสูญหายแบบใหม่ DKNN-BH มีค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเฉลี่ยต่ำที่สุดในทุกกรณี โดยมีค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเฉลี่ยต่ำที่สุด ที่ระดับการสูญหายร้อยละ 5 และค่า k เท่ากับ 11 และเมื่อนำไปทำนายผลผลิตข้าวหอมมะลิ ภาคตะวันออกเฉียงเหนือ ด้วยวิธีการวิเคราะห์ถดถอยพหุ โดยใช้วิธี Stepwise ในการคัดเลือกตัวแปร และเปรียบเทียบกับข้อมูลจริงจะมีค่าความคลาดเคลื่อนร้อยละสัมบูรณ์เฉลี่ย เท่ากับ 3.155

References

Beretta, L., & Santaniello, A. (2016). Nearest neighbor imputation algorithms: A critical evaluation. BMC Medical Informatics and Decision Making, 16(S3), 74. https://doi.org/10.1186/s12911-016-0318-z

Bhattacharyya, A. (1943). On a measure of divergence between two statistical populations defined by their probability distributions. Bulletin of the Calcutta Mathematical Society, 35, 99-109.

Bishop, C. M. (1995). Neural networks for pattern recognition. London: Oxford university press.

Cartwright, M. H., Shepperd, M. J., & Song, Q. (2003). Dealing with missing software project data. In Proceedings of the 9th IEEE International Software Metrics Symposium (METRICS'03) (pp. 1-12). Sydney: IEEE Computer Society.

Jerez, J. M., Molina, I., García-Laencina, P. J., Alba, E., Ribelles, N., Martín, M., & Franco, L. (2010). Missing data imputation using statistical and machine learning methods in a real breast cancer problem. Artificial Intelligence in Medicine, 50(2), 105–115. https://doi.org/10.1016/j.artmed.2010.05.002

Kaiser, J. (2014). Dealing with missing values in data. Journal of Systems Integration, 5(1), 42-51. doi: 10.20470/JSI.V5I1.178

Kim, J. O., & Curry, J. (1977). The treatment of missing data in multivariate analysis. Sociological Methods & Research, 6(2), 215–240. https://doi.org/10.1177/004912417700600206

Kulnawin, K., Longpradit, P., Chareanporn, C., & Bhattarakosol, P. (2014). A comparative study of data mining techniques to predict agricultural production: A case study in Thai rice. KKU Research Journal, 19(1), 31-43. (in Thai)

Ladha, L., & Deepa, T. (2011). Feature selection methods and algorithms. International Journal on Computer Science and Engineering (IJCSE), 3(5), 1787-1797. Retrieved from http://www.enggjournals.com/ijcse/doc/IJCSE11-03-05-051.pdf

Little, R. J. A. (1992). Regression with Missing X's: A review. Journal of the American Statistical Association, 87(420), 1227-1237, doi: 10.1080/01621459.1992.10476282

Little, R. J. A., & Rubin, D. B. (1987). Statistical analysis with missing data. Hoboken, NJ: Wiley.

Malarvizhi, M. R., & Thanamani, A. S. (2012). K-Nearest Neighbor in missing data imputation. International Journal of Engineering Research and Development, 5(1), 5-7. Retrieved from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.375.925&rep=rep1&type=pdf

Meesad, P., & Hengpraprohm, K. (2008). Combination of KNN-Based feature selection and KNN-Based missing-value imputation of microarray data. 2008 3rd International Conference on Innovative Computing Information and Control, Dalian, Liaoning (pp. 341-341). Dalian, Liaoning, China: IEEE. doi: 10.1109/ICICIC.2008.635.

Office of Agricultural Economics. (2019). Agricultural statistics of Thailand 2018. Retrieved from http://www.oae.go.th (in Thai)

Pasunon, P., & Nilakorn, P. (2007). Outliers detection in regression analysis by Bhattacharyya statistics. The Proceeding of 45th Kasetsart University Annual Conference (pp. 11-18). Bangkok: Kasetsart University. (in Thai)

Rana, S., Siraj-Ud-Doulah, M., Midi, H., & Imon, A. H. M. R. (2012). Decile mean: A new robust measure of central tendency. Chiang Mai journal of science, 39(3), 478-485. Retrieved from http://www.thaiscience.info/journals/Article/CMJS/10905266.pdf. (in Thai)

Stevens, J. (1992). Applied multivariate statistics for the social sciences. (2nd ed.) Hillsdale, NJ: Erlbaum.

Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D., & Altman, R. B. (2001). Missing value estimation methods for DNA microarrays. Bioinformatics (Oxford, England), 17(6), 520–525. https://doi.org/10.1093/bioinformatics/17.6.520

Downloads

เผยแพร่แล้ว

2020-12-10

ฉบับ

บท

บทความวิจัย