Büyük Verinin Boyutları

tarihinde yayınlandıAkademik içinde yayınlandı
 • Büyük Veri son yıllarda duymaya alıştığımız oldukça popüler bir terim. İlk kez 1998 yılında John Mashey tarafından “Big Data and the NextWave of InfraStress” sunumunda kullanılan büyük veri terimi aslında çok “süslü” bir pazarlama deyimi. Bir teknoloji marketinde en son çıkan akıllı telefonlara bakıyorsunuz ve üzerlerinde “yeni” etiketi var. Biliyorsunuz ki o “yeni” etiketi bir süre sonra anlamını yitirecek. Büyük Veri’deki “büyük” de aynı anlamı taşımakta aslında. Bugün “büyük” olarak tanımladığımız çoğu veri bir iki yıl içerisinde normal veri sınıfında yerini alacak. 1950’li yıllarda “büyük veri” olarak sınıflandırılan veri boyutu 200 MB iken günümüzde kişisel veri depolama alanları bile bir kaç terabyte boyutuna ulaşmış durumda.Peki büyük veri sadece verinin boyutuyla mı alakalı?Cevabımız büyük bir hayır.Gelişen teknoloji ve internet ile depolayabildiğimiz veri boyutları sürekli artmakta. Ancak veri boyutu artarken veri yapısı da değişmekte, çeşitlenmekte. Son yıllarda elde edilen verinin çoğu, yapıları itibariyle yapılandırılmamış (unstructured) biçimde karşımıza çıkmakta. Yapılandırılmamış veri belirli bir kalıpta ve düzende saklanmamış verileri tanımlayan genel bir terim. Bu veri yapılarına örnek olarak sosyal medya paylaşımları, ses ve görüntü dosyaları, sensör verileri gösterilebilir ki günümüz dünyasında elde edilen verilerin yüzde sekseninin yapılandırılmamış veri olduğu tahmin edilmektedir. Yapılandırılmamış veri önişleme aşamaları zaman almakta, analizler için yeni algoritmaların geliştirilmesi gerekebilmekte olup yapılandırılmış veriyle çalışmaya (bir veri tabanında saklanmış veri, sayısal ölçümleri alınmış veri, vs.) göre daha zordur.

  Veri boyutu ve veri çeşitliliği büyük veriyi tanımlamakta yeterli mi? Yine bir hayır cevabıyla karşılaşmaktayız çünkü karşımıza bir soru daha çıkmakta. Büyük boyutlarda ve büyük çeşitlilikteki bu veri hangi hızda ve ne zaman işlenmeli? Bu sorunun cevabı işletmelerin faaliyet alanlarına göre değişse de büyük veriyle çalışıyorsanız anlık karar vermenize yardımcı olmasını beklemek en doğal hakkınız. Veritabanlarında tutulan verileri istediğiniz zaman analiz edilebilirsiniz ancak verinin “hemen” analiz edilmesi için kurum veri tabanları yetersiz kalacaktır. Bu gibi durumlarda da veri merkezlerinden yararlanarak anlık analizler gerçekleştirilebilmektedir.

  Verinin, Büyük olması için çok büyük, çok çeşitli ve çok hızlı olmak üzere üç boyuta sahip olması gerekir. Bu üç boyuta ilave olarak bir dördüncü boyut olarak doğruluktan da bahsedilebilmektedir. Veri istatistiksel hatalar ve yanlış yorumlamalar içerebilir. Bilginin niteliği için bu boyuta da dikkat edilmelidir.

  Resimde büyük verinin üç boyutu hakkında güzel bir özetleme yapılmıştır (resmin orijinali).

   

   NoT: Büyük verim yok diye üzülmeyin. Verinin büyüklüğü aslında önemli değil. Tukey’in dediği gibi “büyük ya da küçük, ihtiyacınız olan doğru veri!”