Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, cilt.27, sa.1, ss.191-204, 2022 (TRDizin)
Günümüzde bilgiye erişmek için internet ağı üzerinde milyonlarca web sitesi yaygın olarak
kullanılmaktadır. Sayıları her geçen gün artan web sayfalarının daha etkin kullanılabilmesi için iyi bir
şekilde kategorize edilmeleri önem kazanmıştır. Bu çalışmada, web sayfalarını yüksek doğrulukta
sınıflandırabilen ikili ve çok sınıflı sınıflandırma modelleri oluşturulmuştur. Bu çalışmada, Açık Dizin
Projesindeki (ODP) İngilizce web sayfalarının URL'leri ve kategorileri kullanıldı. Web sayfası metinleri
URL bilgilerinden çekilerek eğitim veri kümesi oluşturuldu. Bildiğimiz kadarıyla bu, Türkçe için ilk
kapsamlı web sayfası sınıflandırma veri setidir. Bu çalışmada, metin sınıflandırmada etkili olan
Evrişimsel Sinir Ağı (CNN), Uzun Kısa Süreli Bellek (LSTM) ve Geçitli Tekrarlayan Birim (GRU) derin
öğrenme yöntemleri kullanılmıştır. Metin sınıflandırma çalışmalarında özellik çıkarımı için yaygın olarak
kullanılan n-gram yaklaşımları yerine kelime temsilleri kullanılmıştır. Bu çalışmada derin öğrenme
modelleri için hiperparametre optimizasyonu yapılmıştır. En iyi parametrelerle ikili ve çok sınıflı
sınıflandırma modelleri oluşturulmuştur. İkili sınıflandırma modelleri başka bir çalışmanın sonuçlarıyla
ve çok sınıflı sınıflandırma modelleri kendi aralarında karşılaştırılmıştır. Tüm modellerin performansları
eğitim süreleri ve f1 puanları dikkate alınarak incelenmiştir.
Today, millions of websites on the Internet are widely used to access information. For effective
use of web pages with increasing numbers every day, they need to be well classified. In this study, binary
and multi-class classification models have been created which can classify web pages with high accuracy.
In our experiments, URLs and categories of English web pages in the Open Directory Project (ODP) were
used. Training dataset was created by pulling web page texts from URL information. To our knowledge,
this is the first comprehensive web page classification dataset for Turkish. In this study, Convolutional
Neural Network (CNN), Long Short Term Memory (LSTM) and Gated Recurrent Unit (GRU) deep
learning methods which are effective in text classification are used. Word embedding was used instead of
n-gram approaches commonly used for feature extraction in text classification studies. In this study,
hyper-parameter optimization was performed for deep learning models. Binary and multi-class
classification models were created with the best parameters. Binary classification models were compared
with the results of another study, and multi-class classification models were compared with each other.
The performances of all models were examined by considering their training time and f1 scores.