Yapay Zekâ ve Derin Öğrenme Yöntemleriyle Türkçe Metin Özetleme: Önceden Eğitilmiş Büyük Dil Modellerinin Vektörel Kosinüs Benzerlik Tabanlı İçerik Seçimi ile Türkçe Özelinde Performanslarının İyileştirilmesi

Authors

DOI:

https://doi.org/10.5281/zenodo.15775633

Keywords:

Yapay Zekâ, Derin Öğrenme, Önceden Eğitilmiş Dil Modelleri, ROUGE Skoru

Abstract

Bu makale, Türkçe metin özetleme sürecinde yapay zekâ ve derin öğrenme tabanlı büyük dil modellerinin kullanılmasına odaklanarak mevcut önceden eğitilmiş dil modelleri ile yenilikçi bir çözüm sunmayı amaçlamaktadır. Bu bağlamda, makalenin temel amacı, önceden eğitilmiş modellerin Türkçe metin özetleme görevine uyarlanarak, eğitim maliyetlerinden kaçınan ve aynı zamanda verimlilik ile performans odaklı bir yaklaşım sunan bir yöntem geliştirmektir. Bu araştırmanın kuramsal dayanağı dilin dağılımsal düzenliliklerinin sayısal temsillerle ifadesini kullanarak, bu düzenliliklerin benzerlik oranına göre üretken dil modellerinin daha düzenli çıktı üretmesi üzerinedir. Bu bağlamda her kelimenin bir vektör olarak ifade edildiği uzayda, cümlelerin oluşturduğu bağlamsal vektörler arasındaki benzerlik (düzenlilik) kullanılarak, büyük dil modellerinin daha düzenli üretken çıktı üretmesi beklenmektedir. Bu diktonomi yaklaşımı, giriş vektörler arasındaki benzerliklerin başka bir süreçte hesaplanarak giriş vektöründeki düzenliliklerin artırımı ile üretken çıktının daha düzenli olmasını hedeflemektedir. Bu çalışmada, Türkçe metin özetleme için büyük dil modellerinde cümle vektörlerinin kosinüs benzerliğine dayalı içerik seçimi stratejisi önerilmektedir. Amaç, en anlamlı cümleleri seçerek modele daha hedefli bir giriş sağlamak ve böylece hem özetleme performansını artırmak hem de hesaplama maliyetlerini düşürmektir. T5 modelinin, en yüksek vektörel benzerliğe sahip cümlelerle beslenerek performansının iyileştirilmesi incelenmiş ve ROUGE metrikleriyle değerlendirilmiştir. Sonuçlar, bu yöntemin özetleme kalitesini artırdığını ve t-testi ile yapılan analizlerin bazı örneklerde anlamlı iyileşmeler gösterdiğini ortaya koymuştur.

References

Anonim, 2024a. Tensorflow Kelime Projeksiyonları.

Anonim, 2020b. Schematic Diagram of Cosine Similarity and Euclidean Distance.

Avrupa Komisyonu, 2019. Avrupa Yeşil Mutabakatı. Avrupa Birliği Yayın Ofisi. (https://eur-lex.europa.eu/legal-content/TR/TXT/?uri=CELEX%3A52019DC0640), (Erişim tarihi: 29.02.2025).

Bakan, C.T., Yakut, S., 2024. Graf teorisi ve malatya merkezilik algoritmasına dayalı haber metinlerinin özetlemesi. Bilişim Teknolojileri Dergisi, 17(3): 189-198.

Gopalakrishnan, S., Garbayo, L., Zadrozny, W., 2025. Causality extraction from medical text using large language models (LLMs). Information, 16(1): 13.

Güngör, M., 2023. Wikipedia TR Summarization Dataset [Veri kümesi]. Hugging Face.

Harris, Z.S., 1954. Distributional Structure. WORD, 10(2–3): 146–162.

Johnson, S.J., Murty, M.R., Navakanth, I., 2024. A detailed review on word embedding techniques with emphasis on word2vec. Multimedia Tools and Applications, 83(13): 37979-38007.

Karakoç, E., Yılmaz, B., 2019. Deep learning based abstractive Turkish news summarization. In 2019 27th Signal Processing and Communications Applications Conference (SIU), pp. 1-4, IEEE.

Kartal, Y.S., Kutlu, M., 2020. Türkçe haber metinleri için makine öğrenmesi temelli özetleme. In 2020 28th Signal Processing and Communications Applications Conference, SIU 2020-Proceedings. Institute of Electrical and Electronics Engineers Inc.

Khurana, D., Koli, A., Khatter, K., Singh, S., 2023. Natural language processing: State of the art, current trends and challenges. Multimedia Tools and Applications, 82(3): 3713-3744.

Mana, S.C., Sasipraba, T., 2021. Research on cosine similarity and Pearson correlation based recommendation models. In Journal of Physics: Conference Series 1: 012014.

McDonald, S., Ramscar, M., 2001. Testing the distributional hypothesis: The influence of context on judgements of semantic similarity. Proceedings of the Annual Meeting of the Cognitive Science Society, 23: 23.

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ...Liu, P.J., 2020. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140): 1-67.

Rahutomo, F., Kitasuka, T., Aritsugi, M., 2012. Semantic cosine similarity. The 7th International Student Conference on Advanced Science and Technology ICAST, p. 1, South Korea: University of Seoul.

Reimers, N., 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. arXiv preprint arXiv:1908.10084.

Şakar, T., Emekci, H., 2025. Maximizing RAG efficiency: A comparative analysis of RAG methods. Natural Language Processing, 31(1): 1-25.

Salton, G., Buckley, C., 1988. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24(5): 513−523.

TeraGron, 2021. Wikisum: A dataset for summarization of Wikipedia articles. Hugging Face. (https://huggingface.co/datasets/teragron/wikisum), (Erişim Tarihi: 25.02.2024)

Xia, P., Zhang, L., Li, F., 2015. Learning similarity with cosine similarity ensemble. Information Sciences, 307: 39-52.

Published

2025-06-30

How to Cite

KOBANOĞLU, B., & YILDIRIM, F. (2025). Yapay Zekâ ve Derin Öğrenme Yöntemleriyle Türkçe Metin Özetleme: Önceden Eğitilmiş Büyük Dil Modellerinin Vektörel Kosinüs Benzerlik Tabanlı İçerik Seçimi ile Türkçe Özelinde Performanslarının İyileştirilmesi. ISPEC JOURNAL OF SCIENCE INSTITUTE, 4(1), 1–11. https://doi.org/10.5281/zenodo.15775633

Issue

Section

Articles