เครื่องจักรสร้างประโยคภาษาไทยอัตโนมัติด้วยตัวดำเนินการครอสโปรดัก ในฐานข้อมูลเชิงสัมพันธ์

ผู้แต่ง

  • สุพรัตรา แดงเจริญ สาขาวิชาเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏราชนครินทร์
  • ขณิดา จรุงจิตต์ สาขาวิชาเทคโนโลยีสารสนเทศ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏราชนครินทร์
  • เชาวลิต ขันคำ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยรามคำแหง

คำสำคัญ:

การสร้างประโยคภาษาไทย, คลังประโยคภาษาไทย, เครื่องจักรสร้างคำไทย, ครอสโปรดักรีเลชัน

บทคัดย่อ

การประมวลผลภาษาธรรมชาติเป็นหลักการที่ทำให้คอมพิวเตอร์สามารถเข้าใจ ตีความ และใช้ภาษามนุษย์เพื่อการสื่อสารได้ โดยเฉพาะอย่างยิ่งการสร้างเท็กซ์เพื่อนำไปสู่สตอรีเจนเนอเรชันอันเป็นหลักการทำให้คอมพิวเตอร์สร้างเรื่องราวอัตโนมัติ มีประโยชน์ในการสร้างเนื้อหาเท็กซ์ที่มีความซับซ้อนและเป็นเรื่องราวอย่างใดอย่างหนึ่งโดยเฉพาะ กลไกหลัก คือ การสร้างประโยคด้วยการนำคำชนิดต่าง ๆ วลีหรือกลุ่มคำมาประกอบกันเป็นประโยคก่อนนำประโยคมาสร้างเนื้อความเชิงความหมายที่มนุษย์สามารถเข้าใจได้ งานวิจัยนี้พัฒนาและออกแบบเครื่องจักรซอฟต์แวร์สร้างประโยคภาษาไทยเพื่อเก็บไว้ในคลังประโยคภาษาไทยสำหรับนำไปใช้ในงานวิจัยสตอรีเจนเนอเรชัน ออกแบบทั้งส่วนสถาปัตยกรรมเครื่องจักรและขั้นตอนวิธี แบ่งออกเป็นสองส่วนหลัก คือ ส่วนการสร้างพจนานุกรมชนิดของคำในภาษาไทยและส่วนการสร้างประโยคโดยใช้กลไกตัวดำเนินการครอสโปรดักของพีชคณิตเชิงสัมพันธ์ในฐานข้อมูลเป็นกฎควบคุมการสร้างประโยคตามรูปแบบไวยากรณ์ภาษาไทย ทดลองโดยสร้างเครื่องจักรซอฟต์แวร์ นำเข้าคำจากพจนานุกรมเล็กซิตรอนจำนวน 3x104 คำ สร้างประโยคภาษาไทยจำนวน 21 รูปแบบ ผลการทดลองพบว่า เครื่องจักรสามารถสร้างประโยคได้ปริมาณมากถึง 7.63926x1016 ประโยค วัดผลเชิงคุณภาพด้วยการพิจารณาว่า ประโยคที่สร้างขึ้นสามารถอ่านได้ความหมายถูกต้องหรือไม่ พบว่า ได้ประโยคที่สามารถอ่านได้ความหมายถูกต้องเฉลี่ยร้อยละ 36.70 น้อยที่สุดอยู่ที่ร้อยละ 13.33 มากที่สุดอยู่ที่ร้อยละ 64 พิจารณาจำนวนคำที่นำมาสร้างประโยค ประโยคที่ประกอบด้วยคำ 2 คำ ประโยคที่สามารถอ่านได้ความหมายถูกต้องอยู่ระหว่างร้อยละ 44.00-64.00 คิดเป็นร้อยละเฉลี่ย 53.05 ประโยคที่ประกอบด้วยคำ 3 คำ ประโยคที่อ่านได้ความหมายถูกต้องระหว่างร้อยละ 22.33-57.67 คิดเป็นร้อยละเฉลี่ยที่ 34.57 และประโยคที่ประกอบด้วย 4 คำ ได้ประโยคที่อ่านได้ความหมายถูกต้องระหว่างร้อยละ 13.33-21.00 คิดเป็นร้อยละเฉลี่ยที่ 18.00

 

References

Bui, V., Abbbass, H. S., & Bender, A. (2010). Evolving stories: Grammar evolution for automatic plot generation. IEEE Congress on Evolutionary Computation 2010 (pp. 1-8). Barcelona, Spain: IEEE doi: 10.1109/CEC.2010.5585934

Daengcharoen, D., Charungchit, K., & Khancome, C. (2020). Thai sentence generation engine for Thai sentences corpus. Proceedings of the 3rd Conference on Innovation Engineering and Technology for Economy and Society 2020 (pp. 199-204). Bangkok: Kasem Bundit University (in Thai)

Dekpituksirikul, K. (2008). A comparative study of phrases, sentences and discourses of normal and tistic children (Master’s thesis). Silpakorn University. Nakhon Pathom (in Thai)

Elmasri, R., & Navathe, S. (2010). Fundamentals of database system (4th ed.). USA.: Pearson Education Inc.

Grandi, F., Mandreoli, F., martoglia, R., & Penzo, W. (2017). A relational algebra for streaming tables living in a temporal database world. 24th International Symposium on Temporal Representation and Reasoning (TIME 2007) (pp. 1-15). Wadern: Schloss Dagstuhl - Leibniz-Zentrum für Informatik GmbH, Wadern

Hamburg University. (2021). Story generator algorithms. Retrieved from http://wikis.sub.uni-hamburg.de/lhn/index.php/Story_Generator_Algorithms.

Jampaibool, T., & Arunmanakul, V. (2016). The complexity of the index noun phrase indicates the complexity of the text: A case study of textbooks for Thai subjects Grade 1-3. Humanities Journal, 23(2), 148-177. (in Thai)

Khancome, C., Daengcharoen, D., & Charungchit, K. (2022). The machine creates Thai sentences according to the purpose of communication. The 14th NPRU National Academic Conference (pp. 612-623). Nakhon Pathom Nakhon: Pathom Rajabhat University (in Thai)

Krukaset, W., Krukaset, N., & Khancome, C. (2017). Thai sentence generation machine employing fixed patterns”. 2017 IEEE International Conference on High Performance Computing and Communications Workshops (pp. 70-73). Bangkok: IEEE. (in Thai)

Kybartas, B., & Bidarra, R. (2010). A survey on story generation techinques for authoring computational narratives. IEEE Trans. on Computational Intelligence and AI in Games, 3(5), 776-786. doi:10.1109/TCIAIG.2016.2546063

LEXiTRON Data. (2018). Lecitron data is an ideal database for people to develop or study. Retrieved from https://lexitron.nectec.or.th/2009_1/index.php?q=common_manager/download#latest_version.

Li, C., Chen-Chuan Chang, K., Ilyas, I. F., & Song, S. (2005). RankSQL: Query algebra and optimization for relational top-k queries. USA: SIGMOD 2005 Bultimore Maryland

Limpanadudadee, W., Punyabukkanna, P., & Poobrasert, O. (2014). Text corpus for natural language story-telling sentence generation: A design and evaluation. 11th International Joint Conference on Computer Science and Software Engineering (JCSSE) (pp. 80-85). Bangkok: IEEE. (in Thai)

Meehan, J. R. (1976). The metanovel: Write stories by computer (Doctoral dissertation). Yale University. USA.

Meehan, J. R. (1977). Tale-Spin, an interactive program that writes stories. Proceedings of the 5th International Joint Conference on Artificial Intelligence (pp. 91-98). USA: Morgan Kaufmann Publishers Inc.

Ontanon, S., & Zhu, J. (2011). The SAM algorithm for analogy-based story generation. Proceedings of the 9th AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment (pp. 67-72). USA: AIIDE

Thongkaol, S. (2007). Artificial Intelligence. Songkhla: Faculty of Science and Technology Songkhla Rajabhat University. (in Thai)

Downloads

เผยแพร่แล้ว

2024-04-26