Büyük Veri
Bir kavram olarak
büyük veri (big data), kolayca işlenemeyecek ölçüde büyük veri anlamına gelir. Burada verinin çok büyük olması değil, özel süreçlere sokulmadıkça işlenemeyecek ölçüde büyük olması anlamı bulunmaktadır.
Dağıtık Sırtlı Düzeni (Distributed File System)
Verinin büyük olmasının en önemli sonuçlarından biri, verinin tek bir bilgisayar ya da teker (disk) biriminde saklanamasıdır. Bunun için
dağıtık sırtlı düzeni (distributed file system) adı verilen bir yapı kullanılır. Buna göre aynı ağda olmak koşuluyla, birden çok teker tek bir birim gibi gösterilir. Burada amaç verinin bulunduğu konumdan taşınmadan, olduğu yerde kullanılmasıdır.
Özkaynak Oylaşması (Resource Negotiation)
Bir başka büyük veri konusu da
özkaynak oylaşması (resource negotiation) konusudur. Verinin büyük olması, saklanması ve erişilmesi sorunu dışında işlenmesi için de büyük kaynakların gerektirmesi gibi bir durum ortaya çıkarır. O yüzden ayrı bilgisayarlar alınsa da veriden bir sonuç alma işlemi için yeterli donanım bulunamaz. O yüzden de var olan, bir biçimde çalışan bilgisayarların kullanılmayan güçleri ve zamanları kullanılır. Örneğin, olağan durumlarda bir veritabanı sunucusunun üzerinde çalıştığı bilgisayarın, daha çok gündüzleri çalışılan kurumlarda, geceleri çok kullanılmaması nedeniye büyük veri için kullanılması gerekir. Ancak bu kez de bir çok sunucunun kaynaklarının yönetilmesi gibi bir sorun ortaya çıkar. İşte bu nedenle özkaynak oylaşması (resource negotiation) yazılımları kullanılır. Bunlar hangi bilgisayarın ne ölçüde boş olduğunu, diri olarak gözlerler ve ilişkin olarak az işli olan donanıma belli görevler vererek onların büyük veri işleme için kullanılmasını sağlarlar.
Eşleme-İndirgeme (Map-Reduce)
Verinin büyüklüğü yanısıra türlülüğü de bir sorun olarak ortaya çıkar. Türlü veritabanı (database), sırtlı (file) ya da sunum (service) kaynağından veri gelebilir. Bu veriler birbiriyle uyumsuz olabilir; o yüzden dönüştürülemeleri gerekir. Verilerin gereksiz bilgileri olabilir, bunların ayıklanması gerekir. Verilerde eksiklikler olabilir. Veri kaynağında girilmese de belli olan bilgi, birleştirme durumunda belirsiz olabilir. Kaynaklardan gelen verinin kullanılacak duruma getirilmesine
eşleme (map) adı verilir. Bu adın verilmesinin nedeni kaynaktaki veri ile kullanılacak veri arasında bir eşleme yapılmasıdır. Eşleme sonrasında verilerin kullanılacak biçimde özetlenmesine de
indirgeme (reduce) adı verilir. Örneğin gelen çok sayıda satış bilgisinden toplam satışı bulmak indirgemedir. Genellikle eşleme (map) ve indirgeme (reduce) işlemi ayrı süreçlerde yapılır. Büyük veri yazılımları, önce eşlemeleri çalıştırır. Veri kullanılacak duruma geldikçe de indirgeme süreçlerini işletir. Veri işlemenin bu iki süreçi çoğunlukla
eşleme-indirgeme (map-reduce) olarak adlandırılır.
Veri Kazıma (Data Mining) ve Veri Bilimi (Data Science)
Verilerin belli kaynaklardan sökülme (extraction) işlemine
veri kazıma (data mining) adı verilir. Burada verinin kolay erişilir olmadığı durumlar söz konudur. Başka bir deyişle, veri gizlidir ya da ortada olsa da çok verinin içinde yitik durumdadır. Buradaki verinin kullanılır duruma getirilmesine veri kazıma (data mining) adı verilir. Öte yandan veri bilimi (data science) ise verileri işleme ve sonuçlar çıkarma işlemine verilen addır. Verileri işlemek için en çok kullanılan yöntemler
sayımlama (statistics) bilimi içerisinde yer alır. Ancak veri bilimi yalnızca bu sayımlama bilimini değil
bilgisayım bilimi (computing science) konularını da kullanır. Örneğin
yapay us (artificial intelligence), özellikle de bunun alt dalı olan
düzenek öğrenmesi (machine learning) yararlanılan konulardandır. Bunun dışında veri bilimi ile sayımlama (statistics) arasındaki temel ayrım da, sayımlamanın daha çok verini işlenmesiyle ilgili bir uzbilim (mathematics) alt dalı olmasına karşın veri biliminin verinin elde edilmesi ve işlenmesi ile ilgili de olmasıdır. Veri bilimi, verinin bilimi olmaktan çok veri üzerinde bilim uygulamak anlamı taşır. Başka bir deyişle veri üzerinde uzbilim (mathematics), sayımlama (statistics) ya da bilgisayım (computing) bilimlerindeki kavramların uygulanmasıdır.
Yapay Us (Artificial Intelligence), Düzenek Öğrenmesi (Machine Learning) ve İş Usu (Business Intelligence)
Bilgisayar biliminin bir al dalı olan
yapay us (artificial intelligence), bilgisayarların insan zekasına benzer bir biçimde çalışmasını sağlamaktır. Bir ölçüde tüm bilgisayar bilimi yapay us gibi algılanabilse de yapay us gerçekte insanın düşünme yönteminin bilgisayara aktarılmasıdır. Bilgisayarın bir çok alanı düşünmekten çok bilgi işleme görevi görür. Akılla yapılıyor gibi görünen bir çok işlem aslında verilerin işlenmesi ve değerlendirilmesi sonucunda ortaya çıkar. Bir çok kez bilgisayar anlamak ve düşünmek yerine, çok sayıda işlemi hızlı yapabilmesi gücüne güvenerek sonuç üretir. Öte yandan yapay us ise bilgisayarın insan gibi düşünme becerisi edinmesi çabasıdır.
Yapay usun bir alt alanı
düzenek öğrenmesi (machine learning) konusudur. Bu kavram, verinin içinden anlamlı bilgiler edinilmesi sürecidir. Insanların kolayca yapabildiği gibi, karmaşık olarak görünen görüntü ya da verilerden sonuçlar üretilmesidir. Yapay us çok genel bir konu durumundayken düzenek öğrenmesi bunun bölümlerinden birisidir. Ancak öteki dallar çok elle tutulur, günlük yaşamda kullanılabilir bir işlev kazanamasalar da düzenek öğrenmesi bir çok kurumda sürekli kullanılır durumdadır. Başka bir deyişle öteki yapay us konuları gelecekle ilgili bilimsel çalışmalar durumundayken düzenek öğrenmesi (machine learning) iş dünyasında bugün yoğun bir biçimde kullanılmaktadır. Düzenek öğrenmesindeki yöntemlerden birisinin adı
yapay sinir ağları (artificial neural networks) adını taşır. Düzenek öğrenmesi için kullanılan bu teknik, insanın sinir ağlarına benzediği düşünüldüğü için bu adı almıştır. Herhangi bir biyolojik benzerlik yoktur; tümüyle bilişimle ilgili bir konudur. Yapay us tekniklerin işletmelerde kullanılmasına
iş usu (business intelligence) adı verilir. Buradaki kavram, iş dünyasında karar vermek için bilgisayar biliminin kullanılmasıdır. Yapay us tekniklerinin bilinmesi yeterli olmaz, iş (business) kavramlarının da bilinmesi gereklidir. Öte yapay us, iş dünyasıyla doğrudan ilgili olmayan güdümbilim (cybernetic) ya da robotik (robotics) gibi alanlarda da kullanılır.
Bileşim, Kesişim, Ayrım
Yukarıda anlatılan kavramlar birbirlerinden tümüyle bağımsız değildir. Yaklaşık olarak aynı konu oldukları da söylenemez. Burada ayrımlar üzerinde durulmaktadır.
Veri Kazıma (Data Mining), Veri Bilimi (Data Science), Büyük Veri (Big Data)
Bir kaynakta veriler üzerinde özel bir işlem yapılmadan kullanılabilir durumdaysa
veri kazıma (data mining) gerekli değildir. Ancak temiz veri üzerinde veri bilimi (data science) doğrudan uygulanabilir. Öte yandan, veri kazıma ile sorunlu veriler düzeltildikten sonra üzerinde herhangi bir işlem yapılmayabilir. Bu durumda veri bilimi kullanılmıyor demektir. Üzerinde çalışılacak veri karmaşık ve sorunlu, ancak çok kaynak kullanımını gerektirecek düzeyde büyük olmayabilir. Örneğin tek bir kurumun verisi kullanılır durumda değilse veri kazıma yapılır ancak büyük veri işlemleri yapılmaz. Öte yandan büyük ölçüde veri son derece temiz durumda olabilir. Bu durumda veri kazıma olmaz ancak büyük veri kullanılır. Büyük veriden elde edilen veriler doğrudan bir yazanak (rapor) biçiminde kullanılıyorsa burada veri bilimine gerek yoktur. Öte yandan az bir veride bilimsel yöntemlerle sonuçlar alınabilir. Bu durumda veri bilimi var ama büyük veri yoktur. Çoğu durumda veri tek bilgisayarın kaldıramayacağı ölçüdedir ve büyük veri kullanılır. Çoğu durumda veri kullanılmaz durumdadır ve veri kazıma yapılır. Çoğu durumda bilisel yollarla sonuçlar çıkartılır ve veri bilimi kullanılır. Özetlenirse, çoğu durumda büyük veri, veri kazıma ve veri bilimi birlikte kullanılır.
Veri Bilimi (Data Science), Düzenek Öğrenmesi (Machine Learning) ve İş Usu (Business Intelligence)
Veri bilimi yaparken sayımlama (statistics) ve uzbilim (mathematics) tekniklerini kullandığı gibi düzenek öğrenmesi (machine learning) gibi yapay us (artificial intelligence) konularını da kullanılır. Öte yandan yapay us, veri bilimi dışında güdümbilim (cybernetic) ya da robotik (robotics) alanında da kullanılır. Veri bilimi bu anlamıyla sayımlama (statistics) ve uzbilim (mathmetics) ile bilgisayım biliminin kesişimi olarak işlev görür. İş dünyasında yapay usun kullanılmasına
iş usu (business intelligence) adı verilir. Öte yandan iş usu, iş çözümleme (business analysis) alanının bir alt dalı olarak işlev görür. Başka bir deyişle iş usu, yapay us ile iş çözümlemenin kesişim kümesindedir.
Biraz Daha Sözcük
Yukarıdaki ana konular dışında, bu tür konularla ilişkili olarak bilinmesi gereken bir çok kavram bulunmaktadır. Bunların çoğu yukarıdaki anlatılanların alt dalı ya da yan koludur. Bunlardan
veri çözümleme (data analysis), veri üzerinde yapılan her tür temizleme, dönüştürme ve modelleme işlemimin adıdır. Dolayısıyla veri kazıma, veri çözümlemenin bir dalı olarak düşünülebilir. Bir başka ilişkili kavram olarak
veri ambarı (data warehouse) sayılabilir. Verilerin tümünü ya da çoğunu içeren bütüne veri ambarı adı verilir. Çoğunlukla veri kazıma verileri türlü kaynaklardan veri ambarına taşır. Bir kurumdaki tüm veritabanı (database) ve sırtlık (file) birimlerinde bulunan veriler belli zaman aralıklarıyla toplu bir ortama aktarılırlar. Verilerden bir sonuç üretilmesine
yazanak (report) adı verilir. Ancak diri olarak olarak verilerin görülebildiği ortamlara
ön göğüs (dashboard) adı verilir.
Veri bilimiyle ilgili sözcükler arasında;
veriyle boğuşma (data mungling),
sınıflandırma (classification),
salkımlama (clustering),
gerileme (regression),
görselleştirme (visualization) gibi kavramlar bulunur. Bunlardan veriyle boğuşma (data mungling), bozuk ya da düzensiz verinin düzeltilmesidir. Birbirine yakın iki kavramdan birisi olan sınıflandırma (classification), verilerine önceden belli olan sınıflardan hangisine girdiğini bulmaktır. Öte yandan salkımlama (clustering) ise baştan herhangi bir sınıfın belli olmadığı durumlarda, sınıfların verilere bakılarak belirlenmesidir. Kavramlardan gerileme (regression), dağınık gibi görünen veriden belli doğru (line) ya da eğri (curve) biçiminde bir uzbilimsel bağıntı bulmaya denir. Veri bilimi açısından görselleştirme (visualization) verinin çizgeleme (graphics) ya da çizelgeler (charts) biçiminde gösterilmesidir.
Bu konularda ayrıntılı bilgi, kurs, özel ders, uzaktan eğitim, ödev ve proje destek, kitap ve video için tıklayın :
Python Business Intelligence, Data Science ve Machine Learning