ذخیره سازی و تجزیه و تحلیل کلان داده
دو نوع اساسی از تجزیه و تحلیل کلان داده ها وجود دارد – همزمان و ناهمزمان – اما هر دو نوع نیاز بسیار فوری به ذخیره سازی کلان داده و نیازهای تخصصی دارند.
اصطلاح تجزیه و تحلیل کلان داده از زبان عامیانه به فناوری اطلاعات رخنه کرده است. خود این نام گذاری اثبات فرض وجود داده هایی در حجم انبوه محسوب می شود و بر این باور که پاسخ همه سؤالات ما در انبوهی از داده ها مدفون است صحه می گذارد. این به نحوی است که اگر بتوانیم به اندازه کافی نقاط داده را مقایسه و ارجاع متقابل کنیم، بینشی رقابتی قویتری به دست خواهیم آورد و این بینش به ما کمک می کند که رقبا را شکست دهیم. در نتیجه همین بینش و قدرت ناشی از آنست که قادر خواهیم شد جلوی امور خلاف را بگیریم و با ایجاد امنیت در جهان آن را از رفتن به آستانه فاجعه نجات دهیم.
مشکل این است که همه این تجزیه و تحلیل ها که به نتایج ویژه از جمله نتایج امنیتی منجر می شوند به داده های زیادی نیاز دارند و چالش IT نیز در این سوال نهفته است که: چگونه داده های کافی را جمع آوری، ذخیره، دسترسی و تجزیه و تحلیل می کنید تا آن بینش های متعالی را برای تصمیم گیری و تصمیم سازی به دست آورید و منابعی را که به کار متعهد شده اند توجیه کنید؟ برنامه های کاربردی تجزیه و تحلیل کلان داده ها معمولاً از اطلاعاتی مانند ترافیک وب، تراکنش های مالی و داده های حسگر به جای اشکال سنتی محتوا استفاده می کنند. ارزش دادهها به مقایسه، مرتبط کردن یا ارجاع آن به سایر مجموعههای داده بستگی دارد. تجزیه و تحلیل کلان داده ها معمولاً با مقدار بسیار زیادی از اشیاء داده کوچک با تحمل کم برای تأخیر ذخیره سازی سروکار دارد. دو مورد استفاده اصلی برای تجزیه و تحلیل کلان داده ها وجود دارد، و آنها از طریق نحوه پردازش داده ها متمایز می شوند: همزمان و ناهمزمان، در حالت همزمان زمان واقعی یا تقریباً زمان واقعی مد نظر است. در حالت ناهمزمان، داده ها ابتدا جمع آوری می شوند، سپس ثبت می شوند و سپس با استفاده از یک فرآیند دسته ای پس از این واقعیت تجزیه و تحلیل می شوند.
چرا هادوپ اهمیت دارد
Hadoop به طور گسترده در برنامه های کاربردی کلان داده ها استفاده می شود که انعطاف پذیری آن باعث می شود قادره به پشتیبانی از ماهیت پویایی چرخه استخراج، تبدیل، بارگذاری (ETL) در یک محیط کلان داده بزرگ باشد. معماری توزیع شده Hadoop ، که موتور پردازش را به محل ذخیرهسازی نزدیک میکند، برای کارهای پردازش دستهای مانند ETL که خروجی مستقیماً به ذخیره سازی میرود، مناسب است. تابع MapReduce Hadoop اجازه می دهد تا یک کار ورودی بزرگ به قطعات کوچکتر شکسته شود و به چندین گره (Map) ارسال شود و سپس با ترکیب (Reduce) در مجموعه داده نهایی که در انبار داده بارگذاری می شود، شود.
تجزیه و تحلیل همزمان
یکی از اولین مثال های تجزیه و تحلیل کلان داده ها بدون شک این است که چگونه سوپرمارکتها رفتار خرید شما را محاسبه میکنند و از آن برای چاپ کوپن با رسید ثبت نام شما استفاده میکنند. در واقعیت، محاسبات رفتار خرید احتمالاً زودتر از موعد انجام شده است و فقط هنگام بررسی به آن اشاره شده است، اما مفهوم یکسان است. نمونههای دیگر عبارتند از نمایهسازی مداوم سایتهای رسانههای اجتماعی که با استفاده از اولویتها و فعالیت آنلاین شما انجام میدهند، که سپس به تبلیغکنندگان فروخته میشود تا تجربه پاپ آپی را که از همین سایتها به دست میآورید، ایجاد کنند .در خرده فروشی، برخی از فروشگاههای بزرگ شروع به استفاده از نرمافزار تشخیص چهره برای شناسایی خریداران در پارکینگ کردهاند تا بتوان به نمایههای خرید آنها دسترسی پیدا کرد و مواد تبلیغاتی تولید شده است که هنگام قدم زدن در فروشگاه برای آنها ایمیل یا پیامک ارسال میشود. در موارد استفاده سریع مانند اینها، سرعت یک عامل حیاتی است، بنابراین زیرساخت ذخیرهسازی کلان داده باید طوری طراحی شود که تأخیر را به حداقل برساند.
ذخیره سازی برای تجزیه و تحلیل همزمان
برنامه های کاربردی تجزیه و تحلیل سریع معمولاً بر روی پایگاه داده هایی مانند NoSQL اجرا می شوند که به طور گسترده مقیاس پذیر هستند و می توانند با سخت افزار کالا پشتیبانی شوند. از سوی دیگر، Hadoop برای پردازش دستهای مناسبتر است، این ابزار کاری که از تجزیه و تحلیل کلان داده های ناهمزمان انجام می شود را پشتیبانی میکند. از آنجایی که ذخیرهسازی منبع رایج تأخیر است، دستگاههای ذخیرهسازی حالت جامد گزینههای محبوبی برای تجزیه و تحلیل سریع هستند.
ذخیره سازی فلش را می توان به روش های مختلفی پیاده سازی کرد: به عنوان یک ردیف در یک آرایه دیسک سنتی، به عنوان یک سیستم ذخیره سازی متصل به شبکه (NAS) یا در خود سرور برنامه. از میان این روشها، پیاده سازی فلش سمت سرور محبوبیت پیدا کرده است زیرا کمترین تأخیر را دارد. (ذخیرهسازی نزدیکترین عنصر درگیر در سیستم بهبه CPU است( و راهی برای شروع با تنها چند صد گیگابایت ظرفیت ارائه میدهد. درایوهای حالت جامد SAS/SATA (SSD) یک گزینه هستند، اما حالت جامد مبتنی بر کارت PCI Express (PCIe) در حال تبدیل شدن به استانداردی برای برنامههای کاربردی مانند تجزیه و تحلیل سریع است زیرا این پیادهسازی کمترین تأخیر را ارائه میدهد.
در حال حاضر، تعدادی از شرکتها فضای ذخیرهسازی فلش PCIe را ارائه میکنند، از جمله Fusion-io، LSI، Micron Technology، SanDisk، sTec (اکنون بخشی از HGST، بخشی از Western Digital)، Violin Memory و Virident (که توسط Western Digital خریداری شد) همه فروشندگان اصلی سرور و ذخیرهسازی راه حلهای PCIe را نیز ارائه میدهند، که بسیاری از آنها از طریق توافقنامههای OEM با این شرکتهای حالت جامد هستند.
اگرچه کارتهای PCIe در حال حاضر با ظرفیت 10 ترابایت فلش در دسترس هستند، اما ممکن است هنوز به یک استخر ذخیرهسازی مشترک نیاز باشد. یک راه حل استفاده از فناوری مانند نرم افزار Virident’s FlashMAX Connect است که می تواند ظرفیت فلش را در کارت های PCIe و حتی در بین سرورها از طریق InfiniBand جمع کند. این می تواند برای افزایش ظرفیت فلش موجود، به ویژه در سرورهایی با در دسترس بودن اسلات PCIe محدود یا پشتیبانی از vSphere Storage vMotion VMware بسیار مفید باشد. با ادغام فلش در چندین سرور، این راه حل ها همچنین می توانند قابلیت Failover و دسترسی بالا را نیز ارائه دهند.
گزینه دیگر یک آرایه تمام فلش است که از طریق InfiniBand، کانال فیبر یا حتی PCIe متصل می شود. ظرفیت این سیستم ها از کمتر از 10 ترابایت تا بیش از 100 ترابایت برای آنهایی که دارای معماری های مدولار و مقیاس پذیر هستند متغیر است. این راه حل های سطح بالا عملکردی تا 1 میلیون IOPS و تأخیر اسمی تا چند صد میکروثانیه را دارند. بسیاری از پخشکنندههای بزرگ ذخیرهسازی چیزی در دسته تمام فلشها دارند، اما، به استثنای خرید حافظه تگزاس از IBM، شرکتهای کوچکتر محصولات بیشتری برای ارائه دارند و سوابق طولانیتری دارند. این شرکت ها عبارتند از: Kaminario، Nimbus Data Systems، Pure Storage، Tegile، Whiptail )که توسط Cisco Systems خریداری شد) و Violin Memory.
تجزیه و تحلیل کلان داده های ناهمزمان
تجزیه و تحلیل کلان داده ها که شامل پردازش ناهمزمان میشود، از یک گردش کار ضبط-ذخیره-تحلیل پیروی میکند که در آن دادهها (توسط حسگرها، سرورهای وب، پایانههای نقطهفروش، دستگاههای تلفن همراه و غیره) ثبت میشوند و سپس قبل از قرار گرفتن به یک سیستم ذخیرهسازی ارسال میشوند. تحلیل و بررسی. از آنجایی که این نوع تجزیه و تحلیل با استفاده از یک سیستم مدیریت پایگاه داده رابطهای سنتی (RDBMS) انجام میشود، دادهها باید تبدیل یا به ساختاری تبدیل شوند که RDBMS میتواند از آن استفاده کند، مانند سطرها و ستونها، و باید با سایر مجموعههای داده در حال تجزیه و تحلیل سازگار باشد.
این فرآیند استخراج، تبدیل، بارگذاری یا ETL نامیده می شود. دادهها را از سیستمهای منبع میکشد (استخراج میکند)، مجموعه دادهها را عادی میکند (تبدیل میکند) و سپس دادهها را برای ذخیرهسازی به یک انبار (بار) میفرستد تا زمانی که آنالیز شود. در محیط های پایگاه داده سنتی، این مرحله ETL ساده بود، زیرا تجزیه و تحلیل ها گزارش های مالی نسبتاً شناخته شده، فروش و بازاریابی، برنامه ریزی منابع سازمانی و غیره بودند. اما با کلان داده ها، ETL می تواند به یک فرآیند پیچیده تبدیل شود که در آن مرحله تبدیل برای هر منبع داده متفاوت است و هر منبع داده خود متفاوت است. هنگامی که تجزیه و تحلیل ها اجرا می شوند، داده ها از انبار خارج می شوند و به RDBMS با نتایج مورد استفاده برای تولید گزارش ها یا پشتیبانی از سایر برنامه های کاربردی هوش تجاری استفاده می شود. مطابق با فرض کلان داده، مجموعه داده های خام معمولاً و همچنین داده های تبدیل شده نگهداری می شوند، زیرا ممکن است برای کار آینده نیاز به تغییر مجدد داشته باشند.
ذخیره سازی برای تجزیه و تحلیل کلان داده های ناهمزمان
چالش های ذخیره سازی برای موارد استفاده از کلان داده های ناهمزمان مربوط به ظرفیت، مقیاس پذیری، عملکرد قابل پیش بینی (در مقیاس) و به ویژه هزینه ارائه این قابلیت ها است. در حالی که انبار داده می تواند مجموعه داده های بسیار بزرگی ایجاد کند، تاخیر ذخیره سازی مبتنی بر نوار ممکن است خیلی زیاد باشد. علاوه بر این، معماریهای سنتی ذخیرهسازی دیسک «افزایش مقیاس» معمولاً در این نقاط ظرفیت مقرون به صرفه نیستند.
حجم ذخیره سازی. یک معماری ذخیرهسازی کوچک با استفاده از ماژولها یا گرههایی که بهعنوان یک استخر ذخیرهسازی واحد، معمولاً با یک رابط فایل-سیستم، خوشهبندی شدهاند، میتواند راهحل جذابی برای تجزیه و تحلیل کلان داده ها ارائه دهد. برخی از نمونهها عبارتند از Dell EqualLogic، EMC Isilon، Exablox (همچنین مبتنی بر شی)، Gridstore، HP StoreAll ( (Ibrix سابق (و IBM Scale Out Network Attached Storage (SONAS). از آنجایی که هر گره حاوی قدرت پردازش و ذخیره سازی دیسک است، در واقع می توانند عملکرد را همراه با ظرفیت مقیاس کنند.
Hadoop همچنین به عنوان یک چارچوب ذخیره سازی مورد استفاده قرار می گیرد و شرکت ها را قادر می سازد تا سیستم های ذخیره سازی بسیار مقیاس پذیر خود را با استفاده از سخت افزار کم هزینه بسازند و حداکثر انعطاف پذیری را ارائه دهند. Hadoop روی دستهای از گرهها اجرا میشود که هر کدام دارای ظرفیت ذخیرهسازی و قدرت محاسباتی هستند که معمولاً برای پردازش آن دادهها طراحی شدهاند. گره های دیگر این کارهای پردازشی را هماهنگ می کنند و مخزن ذخیره سازی توزیع شده را مدیریت می کنند، به طور کلی از سیستم فایل توزیع شده Hadoop (HDFS) استفاده می کنند، اگرچه سایر سیستم های ذخیره سازی می توانند با خوشه های Hadoop نیز کار کنند.
اما Hadoop، بهویژه HDFS، نیاز به ایجاد سه نسخه از دادهها برای پشتیبانی از محیطهای با دسترسی بالا دارد که برای آن طراحی شده است. این برای مجموعه های داده در محدوده ترابایت خوب است، اما وقتی ظرفیت در پتابایت باشد، HDFS می تواند ذخیره سازی را بسیار گران کند. حتی سیستمهای ذخیرهسازی کوچک نیز میتوانند مشکلات مشابه داشته باشند، زیرا بسیاری از RAID برای محافظت از دادهها در سطح حجم و تکرار در سطح سیستم استفاده میکنند. فنآوریهای ذخیرهسازی مبتنی بر شی میتوانند راه حلی برای محیطهای بزرگتری ارائه دهند که ممکن است با این مشکل افزونگی داده مواجه شوند.
ذخیره سازی اشیاء. معماریهای ذخیرهسازی مبتنی بر شی میتوانند با جایگزینی معماری ذخیرهسازی سلسله مراتبی که بسیاری از آنها با اشیاء دادهای انعطافپذیر و یک فهرست ساده استفاده میکنند، مزایای ذخیرهسازی مقیاسپذیر را تا حد زیادی افزایش دهند. این مقیاس تقریباً نامحدود را امکان پذیر می کند و عملکرد را بیشتر بهبود می بخشد. سیستمهای ذخیرهسازی اشیاء که شامل کدگذاری پاکسازی میشوند، برای حفاظت از دادهها نیازی به استفاده از RAID یا تکرار ندارند، که در نتیجه کارایی ذخیرهسازی را افزایش میدهد.
به جای ایجاد دو یا سه نسخه اضافی (200٪ تا 300٪ سربار ظرفیت)، به علاوه سربار طرح RAID در حال استفاده، سیستم های ذخیره سازی اشیا با کدگذاری پاک می توانند حتی با 50٪ یا 60٪ سربار به سطوح بیشتری از حفاظت از داده ها دست یابند. . در محیط های ذخیره سازی کلان داده ها، صرفه جویی در هزینه می تواند بسیار زیاد باشد. سیستم های ذخیره سازی اشیاء زیادی در بازار وجود دارد، از جمله Caringo، DataDirect Networks Web Object Scaler، NetApp StorageGRID، Quantum Lattus و منبع باز OpenStack Swift و Ceph.
برخی از سیستم های ذخیره سازی اشیا، مانند Cleversafe، حتی با Hadoop سازگار هستند. در این پیادهسازیها، اجزای نرمافزار Hadoop روی CPU در گرههای ذخیرهسازی شی اجرا میشوند و سیستم ذخیرهسازی شی جایگزین HDFS در خوشه ذخیرهسازی میشود.
خط پایین برای ذخیره سازی کلان داده
تجزیه و تحلیل کلان داده ها ممکن است به نظر یک “داروی شگفت انگیز” فناوری اطلاعات باشد که شرکت های بیشتری معتقدند موفقیت آنها را به همراه خواهد داشت. اما همانطور که اغلب در مورد درمان های جدید اتفاق می افتد، معمولاً یک عارضه جانبی وجود دارد – در این مورد، واقعیت فناوری ذخیره سازی فعلی است. سیستمهای ذخیره سازی سنتی میتوانند هم برای برنامههای کلان دادههای سریع که به تأخیر بسیار کم نیاز دارند و هم برای برنامههای داده کاوی که میتوانند انبارهای داده عظیمی را جمعآوری کنند، کوتاهی کنند. برای چابک سازی تجزیه و تحلیل کلان داده ها، سیستم های ذخیره سازی باید سریع، مقیاس پذیر و مقرون به صرفه باشند.
راهحلهای ذخیرهسازی فلش، که در سطح سرور و با آرایههای تمام فلش پیادهسازی شدهاند، جایگزینهای جالبی را برای ذخیرهسازی با کارایی بالا و با تأخیر کم، از چند ترابایت تا صد ترابایت یا بیشتر ارائه میدهند. معماریهای مبتنی بر شی و مقیاسپذیر با کدگذاری پاک کننده میتوانند سیستمهای ذخیرهسازی مقیاسپذیری را فراهم کنند که از روشهای RAID و تکرار سنتی برای دستیابی به سطوح جدیدی از کارایی و هزینههای کمتر هر گیگابایت اجتناب میکنند.
شرکت ساها( سهند ارتباطات نیایش هوشمند) با داشتن متخصصان مجرب و حرفه ای در خصوص خدمات کلان داده ها و دیتاسنتر می تواند در سریعترین زمان ممکن سلوشن های کارآمدی را برای شما طراحی و پیاده سازی نماید. لطفا با ما در ارتباط باشید.