การสกัดข้อมูลจากภาพเพื่อพัฒนาประสิทธิภาพของระบบสารสนเทศโดยการประยุกต์ใช้เทคโนโลยีรู้จำอักขระด้วยแสง
คำสำคัญ:
การสกัดข้อมูล, การรู้จำอักขระด้วยแสง, โมเดลภาษาขนาดใหญ่, การจัดเก็บข้อมูลดิจิทัลบทคัดย่อ
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อพัฒนาระบบสารสนเทศสำหรับจัดเก็บข้อมูลใบเสร็จค่าน้ำมันภายในองค์กร โดยใช้เทคโนโลยีการรู้จำอักขระด้วยแสง (Optical Character Recognition: OCR) ร่วมกับโมเดลภาษาขนาดใหญ่ (Large Language Model: LLM) เพื่อยกระดับความถูกต้องและลดภาระการประมวลผลด้วยแรงงานคน OCR ทำหน้าที่สกัดข้อความจากเอกสาร ขณะที่ LLM ทำหน้าที่แก้ไขข้อผิดพลาดของข้อมูล เช่น การสะกดผิดเพื่อสร้างฐานข้อมูลที่มีโครงสร้าง และพร้อมใช้งาน กระบวนการพัฒนาประกอบด้วย 3 ขั้นตอน คือ (1) ศึกษาข้อมูล ความสำคัญ และวิเคราะห์ปัญหา (2) พัฒนาและออกแบบระบบสารสนเทศ (3) ทดลองใช้งานระบบสารสนเทศในสถานการณ์จริง โดยทดลองตรวจสอบความถูกต้องของการแปลผลข้อมูลจากภาพถ่ายที่มีรูปแบบแตกต่างกัน การทดลองนี้แบ่งกลุ่มตัวอย่างเป็น 2 กลุ่ม พบว่า ทั้ง 2 กลุ่มตัวอย่างระบบสามารถสกัดข้อมูลสำคัญ เช่น วันที่ ปริมาณน้ำมัน หมายเลขทะเบียนรถ และจำนวนเงินได้ถูกต้องแม่นยำไม่แตกต่างกัน โดยมีอัตราความถูกต้องเฉลี่ยรวมคิดเป็น 95.98% นอกจากนี้ระบบยังช่วยลดระยะเวลารวบรวมใบเสร็จค่าน้ำมันจาก 3 วัน ลดเหลือ 1 วัน รวมถึงลดต้นทุนการดำเนินงานเฉลี่ยต่อเดือนคิดเป็น 50.35% เปรียบเทียบกับการดำเนินงานในรูปแบบเดิมจึงแสดงให้เห็นว่า การพัฒนาระบบสารสนเทศนั้นมีประโยชน์สำคัญต่อความถูกต้อง ความแม่นยำ ของข้อมูล ตลอดจนความรวดเร็วในการดำเนินงาน มีต้นทุนประสิทธิผลที่คุ้มค่าต่อการนำระบบไปใช้ในการดำเนินงานจริง ในระดับองค์กร หรือ เชิงพาณิชย์ อีกทั้งยังสนับสนุนการเปลี่ยนผ่านการจัดเก็บข้อมูลแบบดั้งเดิมสู่การจัดการข้อมูลดิจิทัลอย่างมีประสิทธิภาพและยั่งยืน
เอกสารอ้างอิง
Aayush, N., Aayush, L., Ankit, P., & Amam S. (2025). Structured information extraction from Nepali scanned documents using layout transformer and LLMs. In K. Sarveswaran, A. Vaidya, B. Bal, S. Shams & S. Thapa (Eds.), Proceedings of the First Workshop on Challenges in Processing South Asian Languages (CHIPSAL 2025) (pp. 100–110). International Committee on Computational Linguistics.
Abdalla, M., Kasem, M. S., Mahmoud, M., Yagoub, B., Senussi, M. F., Abdallah, A., Kang, S. H., & Kang, H. S. (2025). ReceiptQA: A question-answering dataset for receipt understanding. Mathematics, 13(11), 1760. https://doi.org/10.3390/math13111760.
Anakpluek, N., Pasanta, W., Chantharasukha, L., Chokratansombat, P., Kanjanakaew, P., & Siriborvornratanakul, T. (2025). Improved tesseract optical character recognition performance on Thai document datasets. Big Data Research, 39, 100508. https://doi.org/10.1016/j.bdr.2025.100508
Bharadwaj, A., El Sawy, O. A., Pavlou, P. A., & Venkatraman, N. (2013). Digital business strategy: Toward a next generation of insights. MIS Quarterly, 37(2), 471–482.https://ssrn.com/abstract=2742300
Chompunut, A., & Rajalida, L. (2024). Menu item extraction from Thai receipt images using deep learning and template-based information extraction. In H. Shen, S. C. Tan, X. Jiang, X. Li & R. Latip (Eds.), Proceedings of the 6th International Conference on Information Technology and Computer Communications (ITCC 2024) (pp. 107-113). ACM.
Do, T., Tran, D. P., Vo, A., & Kim, D. (2025). Reference-Based post-OCR processing with LLM for precise diacritic text in historical document recognition. Proceedings of the AAAI Conference on Artificial Intelligence, 39(27), 27951-27959. https://doi.org/10.1609/aaai.v39i27.35012
Google Cloud. (2025). Vision AI: Image and visual AI tools. https://cloud.google.com/vision
Kumar, S. (2024). Autonomous document processing in the business sector using artificial intelligence. International Journal of Technoinformatics Engineering, 1(2), 33-40. https://aimbell.com/wp-content/uploads/2025/08/6-IJTE.pdf
Lefferts, S., & Kozenieski, D. (2025). Preprocessing images to improve OCR & DarkShield results. IRI. https://www.iri.com/blog/data-protection/preprocessing-images-for-ocr-darkshield/
Mankiw, N. G. (2016). Principles of economics (8th ed.). Cengage Learning.
Marangon, J. D. (2025). Google Cloud Vision API for image handling and OCR. Medium. https://medium.com/@johnidouglasmarangon/google-cloud-vision-api-for-image-handling-and-ocr-a6763969a2e6
Martinez, J. (2025). OCR preprocessing: How to improve your OCR extraction outcome. https://www.docuclipper.com/blog/ocr-preprocessing/
Patil, S., & Yadav, S. (2025). Automated expense tracking with OCR. International Advanced Research Journal in Science, Engineering and Technology (IARJSET), 12(1), 209–212. https://iarjset.com/wp-content/uploads/2025/02/IARJSET.2025.12142.pdf
Ramsey, S. (2025). Improving document content extraction with multi-modal LLM. Storytell. https://web.storytell.ai/blog/improving-document-content-extraction-with-multi-modal-llm
Smith, R. (2007). An overview of the Tesseract OCR engine. In F. Bortolozzi and R. Sabourin (Eds.), Ninth International Conference on Document Analysis and Recognition (ICDAR) (pp. 629–633). The Institute of Electrical and Electronics Engineers.
Thammarak, K., Kongkla, P., Sirisathitkul, Y., & Intakosum, S. (2022). Comparative analysis of Tesseract and Google Cloud Vision for Thai vehicle registration certificate. International Journal of Electrical and Computer Engineering (IJECE), 12(2), 1849–1858. https://doi.org/10.11591/ijece.v12i2.pp1849-1858
Westerman, G., Bonnet, D., & McAfee, A. (2014). Leading digital: Turning technology into business transformation. Harvard Business Review Press.
Yang, Y., Wu, Z., Yang, Y., Lian, S., Guo, F., & Wang, Z. (2022). A survey of information extraction based on deep learning. Applied Sciences, 12(19), 9691. http://doi.org/10.3390/app12199691
