Big data (2)
Geçen hafta big-data ve analytics olarak adlandırılan iki kavramdan bahsederek “Sizler buna binlerce dolar yatırmadan bir değerlendireceğimizi” söylemiştim. Önce bu konuda yazar çizerlerin sık kullandıkları bazı kavramların tanımlarıyla başlayalım.
Big-data (büyük veri) o kadar karmaşık bir kavram değil. Adı üstünde big-data işletmenin içinden ve dışından geleneksel ve dijital kaynaklardan elde edilen veriler demektir. Günümüzde dijital kaynaklardan doğan verilerin çokluğu düşünülürse bu verilere neden büyük dendiği anlaşılacaktır.
Bazı yazarlar big-datayı web ve sosyal medyanın ürettiği verilere kısıtlama eğiliminde olsalar da işletmeciler satış muameleleri (nakit veya kredi kartları kullanılarak yapılan muameleler), mali kaynaklar ve kayıtlar, kanallar, satış noktaları, çağrı merkezleri gibi geleneksel kaynaklardan gelen verileri de big-data tanımı içinde sayıyorlar. Kanımca bu geniş kapsamlı tanım daha doğru.
Geçtiğimiz hafta ‘güneşin altında yeni bir şey yok’ demiş ve big-data/ analytics ile eskiden yapılanların bir farkı yok demiştim. Şimdi bu tezi biraz açmak istiyorum. Aslında işin özünde farklılık yok ama büyük farklar başka yerlerde.
Toplama ve depolama sürati
Bir kere çok büyük çapta veri büyük bir süratle üretiliyor ve yine büyük süratle işletmelere aktarılabiliyor. Eskiden, hani derler ya bir gram şeker için bir kilo keçiboynuzu yemek gerek diye, araştırmalardan alınacak üç beş bilgi parçası için bir sürü uğraş gerekirdi. Bu bilgileri toplaması, özetlemesi dünyanın vaktini alırdı. Şimdi öyle değil. Çok büyük çapta verinin önemli bir kısmı ‘real-time’ yani anında toplanabiliyor ve istenirse saniyeler içinde şirkete aktarılabiliyor. Doğal olarak bunun yapılabilmesi için bir sisteme bağlanması ve alt yapısının kurulması yeni bir uğraş alanı olarak ortaya çıktı.
Verilerin doğruluğu
Eskiden doğru verinin doğru toplanması en öncelikli işken şimdi verilerin doğruluğunun saptanması öncelikli iş. Bilgi bu kadar çok ve çeşitli olunca bilginin doğruluğunun değerlendirilmesi de bir mesele haline geliyor. Her ne bir kısmı bedava bir kısmı paralı, tabir-i amiyane ile istemediğin kadar veriyi depolamak artık işten değilse de bunların büyük bir kısmının nasıl toplandığının iyi bilinmemesi halinde doğruluklarını saptamak da kolay olmuyor.
Verilerin yararı
Bir diğer önemli farklılık eskiden ‘işimize yarayacak’ verileri topladığımız için “Bu veri ne işimize yarayacak?” sorusunu soran araştırmacıyı araştırmacı saymaz tefe koyardık. Ne işe yarayacağını bilmediğin veriyi niye topluyorsun diye kınardık. Şimdi öyle değil. Big-data verilerinin ne işe yaradıklarının veya yarayacaklarının kararını vermesi de bir başka sorun olarak ortaya çıkıyor. İngilizce ‘paralysis by analysis’ analiz nedeniyle felç olmak olarak çevrilebilecek bir kavram vardır. Yani, analiz yapmaktan neden analiz yaptığını unutmak ve bir sonuca varamamak. Şimdi o kadar çok ve çeşitli veri var ki bu tehlike eskisine oranla daha büyük.
Verilerin analize hazırlanmaları
Eskiden veriler neredeyse analize hazır toplanırdı. Başka bir deyişle daha veriler toplanmadan toplandıktan sonra ne yapılacakları bilinirdi. Ben doktora çalışmalarımı 2.5 yılda bitirdim. Kimine göre bu alışılagelmişin dışında hızda bir başarıydı. Bunun bir nedeni doktora tezimi gerçekten de çok hızlı sayılabilecek 5 aylık bir sürede bitirmemdi. Tezin çabuk bitmesi de yaptığım araştırmanın literatür taraması, kuramsal gerekçeleri, veri toplama yöntemi daha araştırmaya başlamadan yazmış hatta veriler toplandığında bunların derleneceği formlar, ne neyle çarpılıp neye bölünecek dahil hazırlanmıştı. Analiz yöntemleri de belliydi. Şimdi big-datayla işler biraz karışık. Bir kere bazı veriler geleneksel veri tabanı analiz yöntemleriyle kolayca çözümlenemeyecek türdeler. Söz gelimi metinlerden oluşan (kodlanmamış) veriler var. Bunların arasında twitter ve diğer sosyal medya iletileri ve meta veriler geliyor. Meta veriler tanımsal (başlık, özet, yazar, anahtar kelimeler gibi) sayfa-bölüm organizasyonunu anlatan yapısal veriler, veya verinin ne zaman ve nasıl yaratıldığını açıklayan veriler gibi yapılandırılmamış veriler var deniliyor. Bunların nasıl analiz edilecekleri öyle aşikar değil. Bir de çok yönlü yapılandırılmış veriler var. Bunlar insanların ve özellikle bilgisayarların etkileşiminden üretilen veriler. Bunun en önemli örnekleri Web uygulamaları ve sosyal medyadan üretilen veriler. İşte bu verileri çözümleyip işletmenin kararlarında kullanabilecekleri hale getirme işine analytics deniliyor. Bu işi yapacak bilgi, beceri ve deneyimle donanmış kişilere büyük talep olduğu ve bu talebin artarak devam edeceği de iddialar arasında.
Akademik hayatıma 1970 yılında pazarlama araştırmaları metotları dersleri vererek başladım. Akademik hayatı terk ettiğim 1989 yılına kadar aralıklarla bu dersleri çeşitli başlıklar altında aralıklarla verdim. O zamanlar veri dediğiniz zaman akla gelen şey yukarıda değindiğim geleneksel kaynaklardan gelen kısıtlı veriler dışında araştırmalar yoluyla elde edilen veriler anlaşılırdı. Özetle veriye ulaşım bayağı bir uğraş isterdi. Bu derslerde bir kaç noktayı öğrencilerimizin kafalarına iyice yerleştirmek için epeyi uğraşırdık. Veri toplamadan önce, veri toplarken ve veriler toplandıktan sonra yapılacak işler arasında belki de en önemlisi veri toplanmadan önce yapılacak şeylerdi. Bunun neden böyle olduğu, olması gerektiğini uzun uzun anlatır tartışırdık. Öyle anlaşılıyor ki şimdilerde bu önemli ders neredeyse göz ardı ediliyor. Eskiye oranla veri o kadar ucuz, hazır ve çok ki “Ver Şabana gitmez yabana” misali bir çok şirket “Bulunsun canım” diyerek tera-bites dolusu veri topluyor. Bununla Türkiye’deki işletmeleri falan kast ettiğimi sanmayın. Bu gözlemim ABD’de de bir sürü şirket için geçerli. Yani bizim bundan on-seneler önce sorduğumuz “Yumurta mı tavuktan çıkar tavuk mu yumurtadan” sorusu hala geçerli bir soru. Başka bir deyişle ‘kararlar mı bilgiden çıkacak, bilgi mi verilecek karara göre toplanacak?’ sorusu. Eğer “Yumurtadan civ civ çıkar. Onun için yumurta tavuktan çıkar” diyerek tartışmayı kapayanlardan değilseniz o konuyu da seneye konuşuruz.
Hepiniz ve özellikle ülkemiz için 2017’nin sağlık, saadet ve refah getirmesini diliyorum. Sağlıcakla kalın.