Movie Genre Prediction from Subtitle Using Deep Learning
Abstract
Günümüzde, büyük veri çağında, makina öğrenmesi farklı verileri kullanarak doğru tahminler yapmada önemli bir rol oynamaktadır. İnsanların ilgili verileri kullanarak diğer veri kaynakları ile doğru veri ilişkilerini bulması gerekir. Altyazıları kullanarak film türlerini tahmin etme ve kategorilere ayırma bu alanlardan biridir. Diğer film tahmin yaklaşımları sorunu çözmek için farklı veri modelleri kullanır. Bu tez, derin öğrenme yöntemlerini kullanarak altyazı dosyalarından film türünü tahmin etmeyi amaçlamaktadır. Araştırmada kullanılan veri seti IMDb ve OpenSubtitle web sitelerinden elde edilmiştir. Bu veri kümesi, film/dizi ye ait XML biçimindeki altyazı dosyaları ve ilgili film/dizinin kategorilerini içerir. Altyazı dosyaları ön işleme tabi tutularak XML içerisindeki "alt yazılar" ayrıştırılarak basılamayan karakterler temizlendi. Dönüştürülen her bir alt yaz 100.000 boyutlu vektöre dönüştürüldü. İşlenen veri setine dayalı geliştirilen LSTM derin öğrenme modeli, 5 katlı çapraz doğrulama tekniği ile test edilmiş ve sonuçlar Area Under the ROC Curve (AUC) ve Hamming Loss gibi farklı yöntemlerle ölçülmüş ve sunulmuştur. Önerilen model % 93.97 acurracy, 0.2392 Exact Match Score ve 0.0602 Hamming Loss doğruluk oranları ile sonuçlandı. Bu çalışmada kullanılan model, derin öğrenme teknikleri kullanılarak, film türü için yüksek bir tahmin oranının elde edildiğini göstermektedir.
Collections
- Yüksek Lisans Tezleri [151]