تبلیغات
NiceSoft - تجمیع داده‌های بزرگ و انبارداده‌ها Integration of Big Data and Data Warehousing

تجمیع داده‌های بزرگ و انبارداده‌ها Integration of Big Data and Data Warehousing

تاریخ:دوشنبه 14 مهر 1393-01:54 ب.ظ

یك جمله حسابی از دكتر حسابی

حاصلضرب "توان" در "ادعا" مقداری ثابت است، هرچه "توان" کمتر باشد "ادعا" بیشتر است و هرچه "توان" بیشتر شود "ادعا" کمتر می‌گردد چنانکه هستند هر چند اندک که در عین بی‌سوادی ، نادانی و  فرومایگی ادعای "قهاری" دارند!  هر کس نداند ما که بهتر می‌دانیم.


Data Warehousing in the Age of Big Data


انبارداده‌های امروزی، در حالیکه هنوز بر اساس قواعد زیربنایی "نسخه حقیقت سازمانی"[1] و "انبار داده‌ای واحد"[2] بنا شده‌اند، باید پاسخگوی نیازهای جدید انواع داده‌ای ،حجم داده‌ها، سطوح کیفی مورد انتظار داده‌ها، نیازهای کارایی ، فراداده‌ها[3] و نیازمندیهای جدید کاربران باشند.

 مسائل مختلفی در محیط‌های کنونی انبارداده‌ها وجود دارند که می‌بایست مورد توجه قرار گیرند و مهم تر اینکه، زیر ساخت کنونی آنها که بر روی سکوی[4] یکسان قرار دارد، از نیازهای داده‌های جدید پشتیبانی نمی‌کند. ما همچنین در مورد ظهور فناوریهای جدیدی که بدون تردید می‌توانند کارایی مورد نیاز انبارداده‌های کنونی را افزایش داده و نیز ارائه یک سکوی جامع برای نیازهای گسترش یافته داده‌های جدید و نیازهای کاربران درگیر با آنها، بحث کردیم. سئوال مهم این است که ما چگونه می‌توانیم همه اینها را در یک انبارداده مجتمع کنیم؟ و مهم‌تر اینکه چگونه وجود انبار‌داده‌ها را برای آینده توجیه نمائیم؟

 بحث بر روی تجمیع داده‌های بزرگ و انبارداده‌ها می‌باشد، فناوریهای ممکن و مخاطرات، و اینکه در کجا باید از اهرم فناوری استفاده کرد. چگونه باید با پیچید‌گی و ناهمگونی فناوریها رفتار کرد؟  کارایی و قابلیت مقیاس‌پذیری هرکدام از فن‌آوریها چیست ؟ و اینکه چگونه می‌توانیم کارایی را برای محیط جدید تقویت کنیم؟

اگر در تاریخ سفری به گذشته داشته باشیم و نگاهی به عجایب معماری سازه‌های آن زمان بیافکنیم، اغلب از شکوه نقشه‌های عمارتهای ساخته شده توسط معماران آن زمان متعجب خواهیم گشت. اینکه چگونه آنها با استفاده از قوانین فیزیک و خواص ترکیبات شیمیایی مواد موفق شده‌اند سازه‌های بسازند که برای قرنها در مقابل حجم بالای بازدیدکنندگان و تغییرات شرایط آب و هوایی مقاومت کنند. در ساخت انبارداده‌های جدید ما نیازمند سازگاری با یک تفکر بنیادین نظیر معماران زمان گذشته هستیم[5]، در حالیکه ما باید تعریف پایه‌ای انبار‌داده‌ها را همانگونه که توسط پدر انبار‌داده‌ها آقای بیل اینمون[6] توضیح داده شده حفظ کنیم، می‌بایست به توسعه یک معماری فیزیکی که توسط شرایط محدوده‌های یک سکوی تنها[7] مانند مدیر بانک اطلاعاتی رابطه‌ای[8]محدود نشده باشد، بپردازیم.

[1] Enterprise version of truth

[2] Single data repository

[3] Metadata به آن دسته از داده‌ها گفته می‌شود که جزئیات یک داده‌ی دیگر را تشریح می‌کند

[4] Platform

[5] منظور نویسنده این است که همانند معماران زمان گذشته چیزی بسازیم که برای مدتها در شرایط مختلف کارایی و دوام داشته باشد

[6] Bill Inmon

[7] Single platform

[8] RDBMS



مجموعه‌ای از فناوریهای را که با قرار دادن لایه‌ای بر روی آنها بتوانند با ترکیب و یکپارچه شدن در یک معماری ناهمگون، معماری نسل بعدی انبار‌داده‌ها را ایجاد نمایند عبارتند از:

·         سیستم مدیریت بانک اطلاعاتی رابطه‌ای (RDBMS)

·         Hadoop

·         NoSQL

·         راه‌حلهای  MDM – Master data management

·         راه‌حلهای فراداده‌ای‌  Metadata solutions

·         فناوریهای معنایی Semantic technologies

·         موتورهای قواعد  Rules engines

·         الگوریتمهای داده‌کاوی  Data mining algorithms

·         الگوریتمهای متن‌کاوی  Text mining algorithms

·         فناوریهای کاوش داده‌ها  Data discovery technologies  

·         فناوریهای مجسم‌سازی داده‌ها  Data visualization technologies

·         فناوریهای گزارشگیری و تحلیل داده‌ها  Reporting and analytical technologies

این فناوریها یک چالش قابل توجه یکپارچه‌سازی در ساخت زیربنای معماری نسل بعدی معماری انبار‌داده‌ها از نقطه نظر راه‌حل معماری ارائه می‌نمایند. هر فناوری مطرح شده در اینجا نقاط قوت و محدودیتهای مخصوص به خود را در کارائی و مقیاس‌پذیری دارد و نیاز است که  درک مناسبی از ظرائف و جزئیات چگونگی ترکیب نقاط قوت این فناوریها جهت ایجاد یک سکوی پایدار وجود داشته باشد.

نکته کلیدی و حیاتی برای موفقیت در شیوه طراحی معماری یک انبارداده نسل جدید وجود یک مستند واضح و مختصر از نیازمندیهای کاربر می‌باشد. با مشخصات مناسب و کاملی که کاربر می‌تواند روی داده‌ها تعریف کند و همچنین خروجی و نیازمندیهای پردازش‌های مرتبط، یک برنامه می‌تواند در راستای پیاده‌سازی آن راه‌کارها توسعه پیدا کند.

موضوع مورد بحث در بخش بعدی در مورد استراتژی و معماری یکپارچه‌سازی است. دو بخش اولیه در معماری یکپارچه‌سازی وجود دارد ،  یکپارچه‌سازی و معماری داده‌ها و دیگری معماری پیاده سازی فیزیکی می‌باشد.


مجازی‌سازی[1] داده‌ها

فن‌آوری مجازی‌سازی داده‌ها می‌تواند برای ایجاد نسل بعدی انبارداده‌ها مورد استفاده قرار گیرد. بزرگترین مزیت این استقرار استفاده مجدد از زیرساخت موجود برای قسمت ساخت‌یافته انبارداده است. همچنین این رویکرد یک فرصت برای توزیع موثر بارکاری در سراسر سکو ارائه می‌نماید و بدین وسیله شرایط برای بهترین بهینه‌سازی اجرا در معماری فراهم می‌شود. مجازی‌سازی داده‌ها هنگامیکه که با یک معماری معنایی قوی همراه شود می‌تواند یک راه‌کار مقیاس‌پذیر را ایجاد نماید.

  • مزایا
    • معماری فوق العاده منعطف و مقیاس پذیر.
    • بار‌کاری بهینه شده.
    • سادگی نگهداری.
    • هزینه استقرار اولیه کمتر.
  • معایب
    • کمبود نظارت و کنترل می‌تواند باعث ایجاد تعداد زیادی محفظه کوچک[2] و کاهش کارایی شود.
    • کاهش پردازش پرس‌وجوهای پیچیده در گذر زمان.
    • کارایی لایه یکپارچه‌سازی ممکن است نیازمند نگهداری دوره‌ای باشد.

 

  • بارگذاری داده در سراسر لایه‌ها از یکدیگر مجزا می‌باشند. و این یک پایه و اساس برای ایجاد یک استراتژی قوی برای مدیریت داده‌ها فراهم می‌کند.
  • دسترس‌پذیری داده در هر لایه قابل کنترل است و قوانین امنیتی در هر لایه هر زمان که لازم باشد بدون ایجاد هیچگونه سرباری برای لایه‌های دیگر، قابل پیاده‌سازی است.
  • حجم داده‌ها در سراسر لایه‌های مجزا می‌تواند بر اساس نوع و نیازمندیهای چرخه‌ی حیات داده‌ها و هزینه‌‌ی ذخیره‌سازی مدیریت شود.
  • کارایی ذخیره‌سازی به دسته‌بندیهای داده‌ها ، نیازمندیهای کارایی و چگونگی پیکربندی لایه‌های ذخیره‌سازی بستگی دارد.


[1] Virtualization

[2] Silos سیلوی کوچک ، محفظه کوچک


خلاصه

 ناهمگونی، خصیصه‌ای پایدار و ماندگار در انبارداده‌های آینده خواهد بود در حالیکه اصول و مفاهیم، همانگونه که چهل سال پیش توسط بیل اینمون تعریف شدند، باقی خواهند ماند، اما بی‌تردید پیاده‌سازی فیزیکی از نسلهای قبلی انبارداده‌ها متفاوت خواهد بود.