9. Bölüm: Veri Aktarma Seçenekleri ve Yapılandırma
9.3 Veri Temizleme ve Yeniden Yapılandırma
Öğrenme Hedefleri
- Veri temizleme ve yeniden yapılandırmayı bilir.
Verilerimizle çalışmadan önce geçerli, doğru ve güvenilir olduklarından emin olmamız gerekir. Günümüzde şirketler, verilerini toplamak veya satın almak için yaptıkları harcama kadar verilerinin güvenliğini korumak ve verilerini temizlemek için harcamaktadırlar. Eksik veya yanlış değerler, kopyalar ve yazım hatalarından kaynaklanabilecek sorunları göz önünde bulundurun. Hesaplamalarınızın geçerliliği, doğruluğu ve güvenilirliği, verilerinizi güncel tutma becerinize bağlıdır. Tahminlere göre verilerinizin yaklaşık %30’u zaman içinde hatalı hâle gelebilir ve bırakın on ya da yüz binlerce kayıt içeren dosyaları, büyük ölçekli veri tabanları kullanıyorsanız çok daha fazlasını, küçük veri setlerini temizlemek bile maliyetli olabilir.
Çok çeşitli dosya formatları, veri hacimleri veya bütçeler için birçok veri temizleme çözümü bulunmaktadır. Bununla birlikte, verilerimizi hızlı ve etkili bir şekilde işleyebilmeniz için Excel işlevlerini ve özelliklerini kullanarak gerçekleştirebileceğimiz birçok şey vardır. Excel, sayfa başına bir milyonun altındaki kayıtlar için bir uygulama satın almak, bir çalışana veri temizleme görevi vermek veya verilerinizi temizlemesi için bir hizmet kiralamak yerine, çeşitli fonksiyon ve özellikleri kullanarak size büyük ölçüde zaman ve para tasarrufu sağlayabilir. Tablo 9.1’de verilerinizi temizlemenize yardımcı olabilecek bazı önemli işlevler gösterilmektedir.
Tablo 9.1 Excel’deki metin ve veri temizleme fonksiyonlarına birer örnek
Aşağıdaki bölümler, yukarıdaki fonksiyonları uygulamalı olarak göstermektedir.
“Unit 10 Veri” Excel dosyası, dört sayfa içerir ve “Dokümantasyon” sayfası verilerimizin kaynaklarını belirtmektedir. “Metin Fonksiyonu” sayfası, yanlış yerde satır sonları, sözcükler arasında fazladan boşluklar veya hiç boşluk olmaması, yazdırılmayan karakterler, yanlış büyük harf veya tümüyle büyük harf, tümüyle küçük harf metin, yanlış biçimlendirilmiş veri değerleri gibi bir veri kümesinde görebileceğiniz çeşitli yaygın hataları içerir.
“DataGen Şirketleri” sayfası, https://www.generatedata.com/ adresinde oluşturulan şirketler hakkında, bu bölümün yazarının “Bölüm Uygulaması” bölümünde Excel işlevlerini uygulamak amacıyla verileri açmak ve işlemek için verilerde görülen yaygın hataları “kasıtlı olarak enjekte ettiği bir dizi uydurma” (makul ancak gerçek olmayan) veriler içerir.
“Mockaroo_arabal https://www.generatedata.com/ar” sayfası, tüketiciler ve adresleri hakkında https://mockaroo.com/ adresinde oluşturulan “uydurma” bir veri kümesidir, bu veri kümesi Adres Mektup Birleştirme bölümü için kullanılacaktır. Bu “uydurma” veri setlerinin her ikisi de eğitim amaçlı olarak burada arşivlenmiştir.
YENİDEN YAPILANDIRMA
Aşağıdaki Şekil 9.16, diğer kaynaklardan içe aktardığınız verilerde görülen çeşitli yaygın hataları içeren “Metin Fonksiyonu” sayfasını göstermektedir. “BİRLEŞTİR ve KIRP” aralığı, iki Excel fonksiyonunu iç içe yerleştirerek üç satırın içeriğinden tek bir metin satırının nasıl oluşturulabileceğine bir örnektir. “BİRLEŞTİR” tek başına üç hücreyi tek bir hücrede birleştirir ancak tek başına metinde gördüğümüz fazladan boşluklarla ilgili hiçbir şey yapmaz. “KIRP” tüm boşlukları kaldıracaktır, bu da Excel’in kelimeler arasına gerekli boş hücreleri eklemesi için ” ” (çift tırnak) eklememiz gerektiği anlamına gelir.
A:C sütunlarındaki SOLDAN, SAĞDAN VE PARÇAAL aralığı, verileri işlemek için kullanılan bir başka yaygın fonksiyon kümesini göstermektedir. Çoğu zaman veriler bir araya getirilmiş büyük parçalar hâlinde gelir. Excel’e verilerimizin nereye bölünmesini istediğimizi söylemek için sınırlayıcılarla birlikte Veri menüsünden Metni Sütunlara Dönüştür özelliğini kullanabilirken, SOLDAN, SAĞDAN VE PARÇAAL işlevleri, ayıklamak istediğimiz metin veya sayının dizenin neresinde olduğuna bağlı olarak verileri belirli yönlerden işleyecektir. B9 ve B10, PARÇAAL işlevini kullanarak bölümlerini C9, C10’a çıkarabileceğimiz bir parça numarasını gösterir. B12 ve B13, SAĞDAN ve SOLDAN fonksiyonlarını kullanarak bölümlerini C12, C13’e çıkarabileceğimiz kurs numaralarını gösterir.
Şekil 9.17, metnimizin görünmesini istediğimiz şekilde çıktı almak için en iyi yapılandırmayı bulmak üzere çeşitli şekillerde iç içe geçmiş “BİRLEŞTİR ve KIRP” kombinasyonunu göstermek için A:C sütunlarındaki formülleri göstermektedir ve altında SOLDAN, SAĞDAN ve PARÇAAL söz dizimi gösterilmektedir.
Aşağıdaki Şekil 9.18, BUL ve MBUL arasındaki farkı göstermek için F:H sütunlarındaki formülleri ve bu aralıklardaki veriler için içerik üretmek amacıyla kullanılan BÜYÜKHARF, KÜÇÜKHARF, YAZIM DÜZENİ, SAYIYAÇEVİR ve METNEÇEVİR fonksiyonlarını göstermektedir.
Excel’deki yaygın metin işlevlerinin bir listesi için Resmi Microsoft sitesini ziyaret edin. Nispeten basit formüller ve iç içe geçmiş alternatifler kullanarak ne kadar çeşitli görevler gerçekleştirebileceğinizi gözlemleyin.
Verilerinizi temizlemek için bu fonksiyonların olası kullanımlarını düşünün. Bu fonksiyonları ve “Bölüm Uygulaması”nda sınırlayıcıların kullanımını tekrar gözden geçireceğiz.