إدارة البيانات و هيكلتها مع AWS Glue

الكثير من الشركات و المنظمات تقوم بالإعتماد على البيانات و إدارتها في تطوير منتجاتها و تقديم خدماتها. و عند بناء البرمجيات و تحليل البيانات توجد الحاجة لإدارة البيانات بشكل أساسي و خاصة مع نمو نسبة التحول الرقمي في العالم في الآونة الأخيرة. لذلك سنقوم أولا بالتعرف على طريقة التعامل مع البيانات في إدارتها و هيكلتها بإستكشاف طريقة عمل مسار البيانات بإتباع طريقة (إستخراج-تحويل-تحميل) و من بعدها سوف نتطرق لخدمة تقدمها AWS Glue لإدارة البيانات بشكل ميسر و منظم مما يسمح بأتمتة العملية بنسبة عالية. و بذلك لنبدأ بالمفاهيم الأساسية:

مسار البيانات

ETL Pipeline

بناء مسار للبيانات هي عملية مهمة لإدارة و هيكلة البيانات الغير منتظمة في ثلاثة خطوات رئيسية (إستخراج-تحويل-تحميل) و هذه العملية تعمل في تحت إطار واحد لإنتاج بيانات منظمة تساعد على جمع البيانات الغير منظمة من مصادرها و تحويلها إلى بيانات تفي بالمتطلبات التحليلية للشركات.

إستخراج البيانات

أولا، إستخراج البيانات هي عملية تعنى بجمع و إستيراد أنواع مختلفة من البيانات من مصادر متعددة بأشكال و صيغ -في الغالب- غير متناسقة بهدف الإستفادة من منها في عملية تحليل البيانات و تعد هذه المرحلة أول المراحل في مسار تحليل البيانات.

تحويل البيانات

ثانيا، تحويل البيانات يعني تحويل صيغ متعددة للبيانات إلى صيغة موحدة و معتمدة للنظام الذي سيقوم بإدارة البيانات بشكل أساسي، هذه الخطوة تعتبر من أهم الخطوات في إدارة البيانات و تكاملها مع بعضها البعض لإنتاج النتائج المطلوبة من عملية إدارة البيانات.

تحميل البيانات

ثالثا، تحميل البيانات هو جزء أساسي من اكتمال عملية هيكلة البيانات لتصبح جاهزة للتحليل، لكن ماذا نعني بتحميل البيانات؟ تحميل البيانات بشكل مبسط تعني أنه بعد إكتمال عمليتي إستخراج و تحويل البيانات تصبح البيانات عالية الجودة و جاهزة للتحليل بنسبة كبيرة. لذلك يتم تحميلها لمكان واحد أو عدة أماكن لتخزن و تحلل لتعرض للجهة المستفيدة من الشكل النهائي للبيانات.

الهدف من بناء مسار البيانات

أخيرا، بعض الفوائد من بناء مسار للبيانات لإدارتها و هيكلتها:

  • القدرة على التعديل المرن على محتوى البيانات و الخوازميات المستخدمة معها

  • التأكد من جودة نماذج البيانات و تطابقها مع المواصفات المطلوبة للمنتج النهائي

  • القدرة على التحكم العالي بالمدخلات و المخرجات لعملية إدارة البيانات بشكل سلس

AWS Glue

AWS Glue

هي خدمة تقدم من منصة أمازون للخدمات السحابية للمساعدة في إدارة مسار البيانات و تقوم بشكل مبسط بإطلاق برنامج يقوم بتتبع البيانات بشكل آلي (Crawlers) بداخل قواعد البيانات، مستودعات البيانات، و غيرها لاستخراج البيانات و من ثم تحويلها بطريقة منتظمة إلى مخططات بيانية (Schema) بصيغ مدعومة بشكل كبير من المجتمعات البرمجية. ثم تقوم الخدمة بتحميل البيانات لقاعدة بيانات تدعى (Data Catalog) في السحابة بصيغة موحدة لتخزن و ربما لتحلل أو حتى لتعرض عن طريق إحدى خدمات عرض البيانات. ختاما، الخدمة تقدم فرصة التعديل و تتبع مسار البيانات خطوة بخطوة حتى يتسنى للمطورين تطوير حلول برمجية قابلة للنمو بشكل طبيعي و الإستخدام في حالات مختلفة بالإضافة للعديد من المميزات الأخرى.

الخاتمة

إدارة البيانات هي عملية مهمة و مؤثرة لبناء نماذج بيانية أكثر موثوقية و أقل عرضة للأخطاء للتسهيل من القدرة على الإستفادة من البيانات في نطاق المشاريع و متطلباتها و بالتالي تخفيض قيمة العمل في التركيز على البيانات المهمة في صناعة القرار و بطريقة مؤتمتة. و خدمة AWS Glue تقوم بإختصار تجربة بناء مسار البيانات بشكل أسرع و معياري مما يدعم المنظمات لإنتاج حلول رقمية فعالة و ذات جدوى مرتفعة.

شكرا لوقتكم و في حال تواجد أي أسئلة أو تعليقات لا تتردوا في التواصل معي.

المصادر

talend - What is Data Extraction? Definition and Examples - ترجمة بتصرف

(https://www.talend.com/resources/data-extraction-defined/)

AWS Glue

(https://aws.amazon.com/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc)

كُتب في 01/04/2021