Konvolusyonel Sinir Ağları Kullanarak Türkçe Metinler için Cümle Sınıflandırması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Üniversitesi-Cerrahpaşa, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Türkiye

Tezin Onay Tarihi: 2020

Tezin Dili: Türkçe

Öğrenci: Gurur Pirana

Danışman: Ahmet Sertbaş

Özet:

Bu çalışmada derin öğrenme ve makine öğrenmesi yöntemleri kullanılarak cümle sınıflandırma problemi ele alınmıştır. Çalışmanın amacı, Konvolüsyonel Sinir Ağları (CNN-Convolutional Neural Networks), Bölge Konvolüsyonel Sinir Ağları (RCNN Region Convolutional Neural Networks),Uzun-Kısa Süreli Hafıza (LSTM-Long Short Term Memory) , Naive Bayes Multinomial , Lojistik Regresyon , Destek Vektör Makineleri gibi farklı derin öğrenme ve makine öğrenmesi metotlarının veri kümesi üzerinde başarımlarını incelemektir. Bu yöntemler ile elde edilen modellerin eğitim parametrelerinin değişiminin başarıma olan etkisi araştırılmıştır. Her bir model için başarımı en yüksek olan parametreler tespit edilmiş ve kullanılmıştır. Bu çalışmanın amacı, cümle sınıflandırılması için geliştirilen modelin, giriş verisini, yani cümleyi uygun olan sınıf ile eşleştirilip bu sınıfın karşılığındaki cevabın üretilmesidir. Çıktı değerleri değişken olup metin, dosya, resim veya bir url çıktısı olabilir. Girdi cümlesinin karşılığında çıktı aracılığıyla işlem yönlendirmesi de yapılabilmektedir. Bu işlem sanal asistan gibi uygulamaların geliştirilmesinde ve kullanılmasında kolaylık sağlamaktadır. Gözlemlediğimiz önemli bir konu da veri kümesinde bulunan örnek sayısının model üzerindeki başarım etkisidir. Örnek sayısının artışı model başarımının artışını doğrudan etkilemektedir. Aynı zamanda derin öğrenme ve makine öğrenmesi yöntemlerinin eğitim sürelerinin arasındaki fark gözlemlenmiş ve aralarında karşılaştırma yapılmıştır. Sonuç olarak, oluşturduğumuz Türkçe veri kümesi ile en iyi başarımı Konvolüsyonel Sinir Ağları (CNN)' yöntemi ile elde etmiş bulunmaktayız.