ETL Çözümleri

ETL(Extract-Transform-Load; “çıkart-dönüştür-yükle”) temel olarak kullanılacak verinin dış kaynaklardan çıkarılması, verinin iş önceliklerine göre temizlenmesi, birleştirilmesi, kısıtlarının ve kalitesinin dönüştürülmesi ve son hedefe(veritabanı veya veri ambarı) yüklenmesi sürecidir. Yüksek boyutlu veriler operasyonel sistemlerden alınıp veri ambarı veya data mart’lara yüklenirken ETL sürecinde yapılması önerilir. Amaç hesaplanmış veya doğru veriyi eşleme ve monitör etmesinde fayda ve zeka sağlar, iş zekasında kullanılacak verinin en etkin kullanılabilecek hale getirilmesinde fayda,zaman ve maliyet tasarrufu sağlamaktadır.

Kuruluşların karşılaştığı yaygın bir sorun, birden fazla kaynaktan, birden çok biçimdeki verileri toplama ve bir veya daha fazla veri depolarına taşıma. Hedef, kaynak ile aynı türde veri deposu olmayabilir ve genellikle biçim farklıdır veya verilerin son hedefine yüklenmeden önce biçimlendirilmesi veya temizlenmesi gerekir.

Bu güçlükleri ele almak için yıllarda çeşitli araçlar, hizmetler ve süreçler geliştirilmiştir. İşlemin ne olduğuna bakılmaksızın, çalışmayı koordine etmeniz ve veri ardışık düzeninde bazı veri dönüştürme düzeylerini uygulamanız yaygın bir işlemdir. Aşağıdaki bölümlerde, bu görevleri gerçekleştirmek için kullanılan ortak Yöntemler vurgulanır.

Ayıklama, dönüştürme ve yükleme (ETL), çeşitli kaynaklardan veri toplamak, verileri iş kurallarına göre dönüştürmek ve hedef veri deposuna yüklemek için kullanılan bir veri işlem hattdır. ETL ‘deki dönüştürme çalışması özel bir altyapıda yer alır ve genellikle hazırlama tablolarının, dönüştürülürken verileri geçici olarak tutmak ve sonunda hedefine yüklenmesi gerekir.

Gerçekleştirilen veri dönüştürmesi genellikle filtreleme, sıralama, toplama, verileri birleştirme, verileri temizleme, yinelenenleri kaldırma ve verileri doğrulama gibi çeşitli işlemleri kapsar.

Genellikle, üç ETL aşamaları zaman kazanmak için paralel olarak çalıştırılır. Örneğin, veriler ayıklanırken, bir dönüştürme işlemi zaten alınmış veriler üzerinde çalışabilir ve yüklemeye hazırlar ve yükleme işlemi tüm ayıklama işleminin tamamlanmasını beklemek yerine hazırlanan veriler üzerinde çalışmaya başlayabilir.

İlgili Azure hizmeti:

Diğer araçlar:

Ayıklama, yükleme ve dönüştürme (ELT)

Ayıklama, yükleme ve dönüştürme (ELT) ETL ‘den yalnızca dönüştürmenin nerede gerçekleşdiğine göre farklılık gösterir. ELT ardışık düzeninde, dönüştürme hedef veri deposunda oluşur. Ayrı bir dönüştürme altyapısı kullanmak yerine, hedef veri deposunun işleme özellikleri verileri dönüştürmek için kullanılır. Bu, dönüştürme altyapısını ardışık düzen öğesinden kaldırarak mimariyi basitleştirir. Bu yaklaşıma yönelik başka bir avantaj de hedef veri deposunun ölçeklendirilmesi, ELT ardışık düzen performansını de ölçeklendirir.Ancak, ELT yalnızca hedef sistem verileri verimli bir şekilde dönüştürmek için yeterince güçlü olduğunda iyi bir şekilde çalışacaktır.

Büyük veri bölgesi içindeki ELT için tipik kullanım örnekleri. Örneğin, Hadoop Dağıtılmış dosya sistemi (IBU) veya Azure Data Lake Store gibi ölçeklenebilir depolamadaki tüm kaynak verileri düz dosyalara ayıklayarak başlayabilirsiniz. Spark, Hive veya PolyBase gibi teknolojiler daha sonra kaynak verileri sorgulamak için kullanılabilir. ELT ile anahtar noktası, dönüştürmeyi gerçekleştirmek için kullanılan veri deposunun, verilerin son kullanıldığı veri depolama alanı olmasını sağlar. Bu veri deposu, verileri kendi özel depolamasına yüklemek yerine doğrudan ölçeklenebilir depolamadan okur. Bu yaklaşım, ETL ‘de bulunan veri kopyalama adımını atlayarak büyük veri kümeleri için zaman alan bir işlem olabilir.

Veri deposu yalnızca verilerin şemasını yönetir ve şemayı okuma üzerine uygular. Örneğin, Hive kullanan bir Hadoop kümesi, veri kaynağının IBir dosya kümesinin bir yolu olan bir yığın tablosu olduğunu anlatmaktadır. Azure SYNAPSE ‘de, PolyBase, veritabanının kendisi dışarıdan depolanmış verilere yönelik bir tablo oluşturmak — aynı sonuca ulaşabilme. Kaynak veriler yüklendikten sonra, dış tablolarda bulunan veriler veri deposunun özellikleri kullanılarak işlenebilir. Büyük veri senaryolarında bu, veri deposunun yüksek düzeyde paralel işleme (MPP) özelliğine sahip olması gerektiği anlamına gelir. Bu, verileri daha küçük parçalara ayırır ve öbeklerin birden çok makineye paralel olarak işlenmesini dağıtır.

ELT işlem hattının son aşaması genellikle kaynak verileri, desteklenmesinin gerektiği sorgu türleri için daha verimli olan son bir biçime dönüştürmelidir. Örneğin, veriler bölümlenmiş olabilir. Ayrıca, ELT, satır odaklı verileri sütunlu biçimde depolayan ve iyileştirilmiş dizin oluşturma sağlayan Parquet gibi iyileştirilmiş depolama biçimleri kullanabilir.

İlgili Azure hizmeti:

Diğer araçlar:

Veri akışı ve denetim akışı

Veri işlem hatları bağlamında denetim akışı, bir görev kümesinin sıralı işlemesini sağlar. Bu görevlerin doğru işlem sırasını zorlamak için öncelik kısıtlamaları kullanılır. Aşağıdaki görüntüde gösterildiği gibi, bu kısıtlamaları bir iş akışı diyagramında bağlayıcılar olarak düşünebilirsiniz. Her görevin başarı, başarısızlık veya tamamlama gibi bir sonucu vardır. Sonraki tüm görevler, öncülü bu sonuçlardan biriyle tamamlanana kadar işlemeyi başlatmaz.

Denetim akışları, veri akışlarını görev olarak yürütür. Veri akışı görevinde, veriler bir kaynaktan ayıklanır, dönüştürülür veya bir veri deposuna yüklenir. Bir veri akışı görevinin çıktısı bir sonraki veri akışı görevinin girişi olabilir ve veri akışları paralel olarak çalıştırılabilir.Denetim akışlarının aksine, bir veri akışındaki görevler arasında kısıtlama ekleyemezsiniz. Bununla birlikte, verileri her bir görev tarafından işlendiği gibi gözlemlemek için bir veri Görüntüleyicisi ekleyebilirsiniz.