Novel Merging Based Height-Balanced Histogram Computation for Big Data
Abstract
Üretilen ve bulut sistemlerde kaydedilen data miktarı her geçen gün katlanarak artmaktadır. Buna örnek olarak, kullanıcı tarafından üretilen veriler, makine tarafından üretilen veriler ve İnternet'ten crawl edilen veriler gösterilebilir. Petabyte boyutunda dataları depolamak ve işlemek için; Apache Hadoop ekosistem araçları ve bazı NoSQL frameworkleri gibi verimliliği kanıtlanmış frameworkler vardır. Bu araçlar endüstride geniş çaplı kullanılmaktadır ve bu sebepten çeşitli araştırmalara konu olmaktadır. Önerilen veri işleme teknikleri yukarıda saydığımız frameworklere pratik olması için uyumlu olmalıdır. Önermli veri operasyonlarından bir tanesi de, equi-depth(eş-derinlikli) histogram oluşturmaktır. Çünkü equi-depth histogramlar, sorgu optimizasyonu da gerektiren birçok uygulamada, datanın istatistiksel özelliğini anlamak için hayati öneme sahiptir. Bu tezde, büyük veriler için approximate equi-depth histogramının oluşturulması üzerine çalışılmıştır ve verilen zaman aralığının equi-depth histogramını oluşturan histogram birleştirme tabanlı yeni bir metod ve bu metodu kullanan bir framework geliştirilmiştir. Bu framework, parçalar halinde bulunan tam olarak hesaplanmış equi-depth histogramları birleştirmek kaydıyla yaklaşık bir equi-depth histogram oluşturmaktadır. Oluşturulan bu histogramın bir bucketında bulunan öğe sayısınında oluşabilecek maksimum hata sınırı garanti edilmektedir. Histogra- mın herhangi bir aralığında da maksimum hata sınırı garanti edilmektedir. Biz bu tezde önerdiğimiz metodun Apache Pig ve web uygulamalarını da sunmaktayız.
Collections
- Yüksek Lisans Tezleri [151]