کلان داده و مدیریت آن

کلان داده

ذخیره سازی و تجزیه و تحلیل کلان داده

 دو نوع اساسی از تجزیه و تحلیل کلان داده ها وجود دارد – همزمان و ناهمزمان – اما هر دو نوع نیاز بسیار فوری به ذخیره سازی کلان داده و نیازهای تخصصی دارند.

اصطلاح تجزیه و تحلیل کلان داده از زبان عامیانه به فناوری اطلاعات رخنه کرده است. خود این نام گذاری اثبات فرض وجود داده هایی در حجم انبوه محسوب می شود و بر این باور که پاسخ همه سؤالات ما در انبوهی از داده ها مدفون است صحه می گذارد. این به نحوی است که اگر بتوانیم به اندازه کافی نقاط داده را مقایسه و ارجاع متقابل کنیم، بینشی رقابتی قویتری به دست خواهیم آورد و این بینش به ما کمک می کند که رقبا را شکست دهیم. در نتیجه همین بینش و قدرت ناشی از آنست که قادر خواهیم شد جلوی امور خلاف را بگیریم و با ایجاد امنیت در جهان آن را از رفتن به آستانه فاجعه نجات دهیم.

مشکل این است که همه این تجزیه و تحلیل ها که به نتایج ویژه از جمله نتایج امنیتی منجر می شوند به داده های زیادی نیاز دارند و چالش IT نیز در این سوال نهفته است که: چگونه داده های کافی را جمع آوری، ذخیره، دسترسی و تجزیه و تحلیل می کنید تا آن بینش های متعالی را برای تصمیم گیری و تصمیم سازی به دست آورید و منابعی را که به کار متعهد شده اند توجیه کنید؟ برنامه های کاربردی تجزیه و تحلیل کلان داده ها معمولاً از اطلاعاتی مانند ترافیک وب، تراکنش های مالی و داده های حسگر به جای اشکال سنتی محتوا استفاده می کنند. ارزش داده‌ها به مقایسه، مرتبط کردن یا ارجاع آن به سایر مجموعه‌های داده بستگی دارد. تجزیه و تحلیل کلان داده ها معمولاً با مقدار بسیار زیادی از اشیاء داده کوچک با تحمل کم برای تأخیر ذخیره سازی سروکار دارد. دو مورد استفاده اصلی برای تجزیه و تحلیل کلان داده ها وجود دارد، و آنها از طریق نحوه پردازش داده ها متمایز می شوند: همزمان و ناهمزمان، در حالت همزمان زمان واقعی یا تقریباً زمان واقعی مد نظر است. در حالت ناهمزمان، داده ها ابتدا جمع آوری می شوند، سپس ثبت می شوند و سپس با استفاده از یک فرآیند دسته ای پس از این واقعیت تجزیه و تحلیل می شوند.

کلان داده

چرا هادوپ اهمیت دارد

Hadoop به طور گسترده در برنامه های کاربردی کلان داده ها استفاده می شود که انعطاف پذیری آن باعث می شود قادره به پشتیبانی از ماهیت پویایی چرخه استخراج، تبدیل، بارگذاری (ETL) در یک محیط کلان داده بزرگ باشد. معماری توزیع ‌شده Hadoop ، که موتور پردازش را به محل ذخیره‌سازی نزدیک می‌کند، برای کارهای پردازش دسته‌ای مانند ETL که خروجی مستقیماً به ذخیره‌ سازی می‌رود، مناسب است. تابع MapReduce Hadoop اجازه می دهد تا یک کار ورودی بزرگ به قطعات کوچکتر شکسته شود و به چندین گره (Map) ارسال شود و سپس با ترکیب (Reduce) در مجموعه داده نهایی که در انبار داده بارگذاری می شود، شود.

تجزیه و تحلیل همزمان

یکی از اولین مثال های تجزیه و تحلیل کلان داده ها بدون شک این است که چگونه سوپرمارکت‌ها رفتار خرید شما را محاسبه می‌کنند و از آن برای چاپ کوپن با رسید ثبت نام شما استفاده می‌کنند. در واقعیت، محاسبات رفتار خرید احتمالاً زودتر از موعد انجام شده است و فقط هنگام بررسی به آن اشاره شده است، اما مفهوم یکسان است. نمونه‌های دیگر عبارتند از نمایه‌سازی مداوم سایت‌های رسانه‌های اجتماعی که با استفاده از اولویت‌ها و فعالیت آنلاین شما انجام می‌دهند، که سپس به تبلیغ‌کنندگان فروخته می‌شود تا تجربه پاپ آپی را که از همین سایت‌ها به دست می‌آورید، ایجاد کنند .در خرده ‌فروشی، برخی از فروشگاه‌های بزرگ شروع به استفاده از نرم‌افزار تشخیص چهره برای شناسایی خریداران در پارکینگ کرده‌اند تا بتوان به نمایه‌های خرید آن‌ها دسترسی پیدا کرد و مواد تبلیغاتی تولید شده است که هنگام قدم زدن در فروشگاه برای آنها ایمیل یا پیامک ارسال می‌شود. در موارد استفاده سریع مانند اینها، سرعت یک عامل حیاتی است، بنابراین زیرساخت ذخیره‌سازی کلان داده باید طوری طراحی شود که تأخیر را به حداقل برساند.

ذخیره سازی برای تجزیه و تحلیل همزمان

برنامه های کاربردی تجزیه و تحلیل سریع معمولاً بر روی پایگاه داده هایی مانند NoSQL اجرا می شوند که به طور گسترده مقیاس پذیر هستند و می توانند با سخت افزار کالا پشتیبانی شوند. از سوی دیگر، Hadoop برای پردازش دسته‌ای مناسب‌تر است، این ابزار کاری که از تجزیه و تحلیل کلان داده های ناهمزمان انجام می شود را پشتیبانی می‌کند. از آنجایی که ذخیره‌سازی منبع رایج تأخیر است، دستگاه‌های ذخیره‌سازی حالت جامد گزینه‌های محبوبی برای تجزیه و تحلیل سریع هستند.

ذخیره سازی فلش را می توان به روش های مختلفی پیاده سازی کرد: به عنوان یک ردیف در یک آرایه دیسک سنتی، به عنوان یک سیستم ذخیره سازی متصل به شبکه (NAS) یا در خود سرور برنامه. از میان این روشها، پیاده‌ سازی فلش سمت سرور محبوبیت پیدا کرده است زیرا کمترین تأخیر را دارد. (ذخیره‌سازی نزدیک‌ترین عنصر درگیر در سیستم بهبه CPU است( و راهی برای شروع با تنها چند صد گیگابایت ظرفیت ارائه می‌دهد. درایوهای حالت جامد SAS/SATA (SSD) یک گزینه هستند، اما حالت جامد مبتنی بر کارت PCI Express (PCIe) در حال تبدیل شدن به استانداردی برای برنامه‌های کاربردی مانند تجزیه و تحلیل سریع است زیرا این پیاده‌سازی کمترین تأخیر را ارائه می‌دهد.

در حال حاضر، تعدادی از شرکت‌ها فضای ذخیره‌سازی فلش PCIe را ارائه می‌کنند، از جمله Fusion-io، LSI، Micron Technology، SanDisk، sTec (اکنون بخشی از HGST، بخشی از Western Digital)، Violin Memory و Virident (که توسط Western Digital خریداری شد) همه فروشندگان اصلی سرور و ذخیره‌سازی راه ‌حل‌های PCIe را نیز ارائه می‌دهند، که بسیاری از آنها از طریق توافق‌نامه‌های OEM با این شرکت‌های حالت جامد هستند.

اگرچه کارت‌های PCIe در حال حاضر با ظرفیت 10 ترابایت فلش در دسترس هستند، اما ممکن است هنوز به یک استخر ذخیره‌سازی مشترک نیاز باشد. یک راه حل استفاده از فناوری مانند نرم افزار Virident’s FlashMAX  Connect  است که می تواند ظرفیت فلش را در کارت های PCIe و حتی در بین سرورها از طریق InfiniBand جمع کند. این می تواند برای افزایش ظرفیت فلش موجود، به ویژه در سرورهایی با در دسترس بودن اسلات PCIe محدود یا پشتیبانی از vSphere Storage vMotion VMware بسیار مفید باشد. با ادغام فلش در چندین سرور، این راه حل ها همچنین می توانند قابلیت Failover و دسترسی بالا را نیز ارائه دهند.

گزینه دیگر یک آرایه تمام فلش است که از طریق  InfiniBand، کانال فیبر یا حتی PCIe متصل می شود. ظرفیت این سیستم ها از کمتر از 10 ترابایت تا بیش از 100 ترابایت برای آنهایی که دارای معماری های مدولار و مقیاس پذیر هستند متغیر است. این راه حل های سطح بالا عملکردی تا 1 میلیون IOPS و تأخیر اسمی تا چند صد میکروثانیه را دارند. بسیاری از پخش‌کننده‌های بزرگ ذخیره‌سازی چیزی در دسته تمام فلش‌ها دارند، اما، به استثنای خرید حافظه تگزاس از IBM، شرکت‌های کوچک‌تر محصولات بیشتری برای ارائه دارند و سوابق طولانی‌تری دارند. این شرکت ها عبارتند از: Kaminario، Nimbus Data Systems، Pure Storage، Tegile، Whiptail )که توسط Cisco Systems خریداری شد) و Violin Memory.

تجزیه و تحلیل کلان داده های ناهمزمان

تجزیه و تحلیل کلان داده ها که شامل پردازش ناهمزمان می‌شود، از یک گردش کار ضبط-ذخیره-تحلیل پیروی می‌کند که در آن داده‌ها (توسط حسگرها، سرورهای وب، پایانه‌های نقطه‌فروش، دستگاه‌های تلفن همراه و غیره) ثبت می‌شوند و سپس قبل از قرار گرفتن به یک سیستم ذخیره‌سازی ارسال می‌شوند. تحلیل و بررسی. از آنجایی که این نوع تجزیه و تحلیل با استفاده از یک سیستم مدیریت پایگاه داده رابطه‌ای سنتی (RDBMS) انجام می‌شود، داده‌ها باید تبدیل یا به ساختاری تبدیل شوند که RDBMS می‌تواند از آن استفاده کند، مانند سطرها و ستون‌ها، و باید با سایر مجموعه‌های داده در حال تجزیه و تحلیل سازگار باشد.

این فرآیند استخراج، تبدیل، بارگذاری یا ETL نامیده می شود. داده‌ها را از سیستم‌های منبع می‌کشد (استخراج می‌کند)، مجموعه داده‌ها را عادی می‌کند (تبدیل می‌کند) و سپس داده‌ها را برای ذخیره‌سازی به یک انبار (بار) می‌فرستد تا زمانی که آنالیز شود. در محیط های پایگاه داده سنتی، این مرحله ETL ساده بود، زیرا تجزیه و تحلیل ها گزارش های مالی نسبتاً شناخته شده، فروش و بازاریابی، برنامه ریزی منابع سازمانی و غیره بودند. اما با کلان داده ها،  ETL می تواند به یک فرآیند پیچیده تبدیل شود که در آن مرحله تبدیل برای هر منبع داده متفاوت است و هر منبع داده خود متفاوت است. هنگامی که تجزیه و تحلیل ها اجرا می شوند، داده ها از انبار خارج می شوند و به RDBMS با نتایج مورد استفاده برای تولید گزارش ها یا پشتیبانی از سایر برنامه های کاربردی هوش تجاری استفاده می شود. مطابق با فرض کلان داده، مجموعه داده های خام معمولاً و همچنین داده های تبدیل شده نگهداری می شوند، زیرا ممکن است برای کار آینده نیاز به تغییر مجدد داشته باشند.

ذخیره سازی برای تجزیه و تحلیل کلان داده های ناهمزمان

چالش های ذخیره سازی برای موارد استفاده از کلان داده های ناهمزمان مربوط به ظرفیت، مقیاس پذیری، عملکرد قابل پیش بینی (در مقیاس) و به ویژه هزینه ارائه این قابلیت ها است. در حالی که انبار داده می تواند مجموعه داده های بسیار بزرگی ایجاد کند، تاخیر ذخیره سازی مبتنی بر نوار ممکن است خیلی زیاد باشد. علاوه بر این، معماری‌های سنتی ذخیره‌سازی دیسک «افزایش مقیاس» معمولاً در این نقاط ظرفیت مقرون به صرفه نیستند.

حجم ذخیره سازی. یک معماری ذخیره‌سازی کوچک با استفاده از ماژول‌ها یا گره‌هایی که به‌عنوان یک استخر ذخیره‌سازی واحد، معمولاً با یک رابط فایل-سیستم، خوشه‌بندی شده‌اند، می‌تواند راه‌حل جذابی برای تجزیه و تحلیل کلان داده ها ارائه دهد. برخی از نمونه‌ها عبارتند از Dell EqualLogic، EMC Isilon، Exablox  (همچنین مبتنی بر شی)، Gridstore، HP StoreAll ( (Ibrix سابق (و IBM Scale Out Network Attached Storage (SONAS).  از آنجایی که هر گره حاوی قدرت پردازش و ذخیره سازی دیسک است، در واقع می توانند عملکرد را همراه با ظرفیت مقیاس کنند.

Hadoop همچنین به عنوان یک چارچوب ذخیره سازی مورد استفاده قرار می گیرد و شرکت ها را قادر می سازد تا سیستم های ذخیره سازی بسیار مقیاس پذیر خود را با استفاده از سخت افزار کم هزینه بسازند و حداکثر انعطاف پذیری را ارائه دهند. Hadoop روی دسته‌ای از گره‌ها اجرا می‌شود که هر کدام دارای ظرفیت ذخیره‌سازی و قدرت محاسباتی هستند که معمولاً برای پردازش آن داده‌ها طراحی شده‌اند. گره های دیگر این کارهای پردازشی را هماهنگ می کنند و مخزن ذخیره سازی توزیع شده را مدیریت می کنند، به طور کلی از سیستم فایل توزیع شده Hadoop (HDFS) استفاده می کنند، اگرچه سایر سیستم های ذخیره سازی می توانند با خوشه های Hadoop نیز کار کنند.

اما Hadoop، به‌ویژه HDFS، نیاز به ایجاد سه نسخه از داده‌ها برای پشتیبانی از محیط‌های با دسترسی بالا دارد که برای آن طراحی شده است. این برای مجموعه های داده در محدوده ترابایت خوب است، اما وقتی ظرفیت در پتابایت باشد، HDFS می تواند ذخیره سازی را بسیار گران کند. حتی سیستم‌های ذخیره‌سازی کوچک نیز می‌توانند مشکلات مشابه داشته باشند، زیرا بسیاری از RAID برای محافظت از داده‌ها در سطح حجم و تکرار در سطح سیستم استفاده می‌کنند. فن‌آوری‌های ذخیره‌سازی مبتنی بر شی می‌توانند راه ‌حلی برای محیط‌های بزرگتری ارائه دهند که ممکن است با این مشکل افزونگی داده مواجه شوند.

ذخیره سازی اشیاء. معماری‌های ذخیره‌سازی مبتنی بر شی می‌توانند با جایگزینی معماری ذخیره‌سازی سلسله مراتبی که بسیاری از آن‌ها با اشیاء داده‌ای انعطاف‌پذیر و یک فهرست ساده استفاده می‌کنند، مزایای ذخیره‌سازی مقیاس‌پذیر را تا حد زیادی افزایش دهند. این مقیاس تقریباً نامحدود را امکان پذیر می کند و عملکرد را بیشتر بهبود می بخشد. سیستم‌های ذخیره‌سازی اشیاء که شامل کدگذاری پاک‌سازی می‌شوند، برای حفاظت از داده‌ها نیازی به استفاده از RAID یا تکرار ندارند، که در نتیجه کارایی ذخیره‌سازی را افزایش می‌دهد.

به جای ایجاد دو یا سه نسخه اضافی (200٪ تا 300٪ سربار ظرفیت)، به علاوه سربار طرح RAID در حال استفاده، سیستم های ذخیره سازی اشیا با کدگذاری پاک می توانند حتی با 50٪ یا 60٪ سربار به سطوح بیشتری از حفاظت از داده ها دست یابند. . در محیط های ذخیره سازی کلان داده ها، صرفه جویی در هزینه می تواند بسیار زیاد باشد. سیستم های ذخیره سازی اشیاء زیادی در بازار وجود دارد، از جمله Caringo، DataDirect Networks Web Object Scaler، NetApp StorageGRID، Quantum Lattus و منبع باز OpenStack Swift و Ceph.

برخی از سیستم های ذخیره سازی اشیا، مانند Cleversafe، حتی با Hadoop سازگار هستند. در این پیاده‌سازی‌ها، اجزای نرم‌افزار Hadoop روی CPU در گره‌های ذخیره‌سازی شی اجرا می‌شوند و سیستم ذخیره‌سازی شی جایگزین HDFS در خوشه ذخیره‌سازی می‌شود.

خط پایین برای ذخیره سازی کلان داده

تجزیه و تحلیل کلان داده ها ممکن است به نظر یک “داروی شگفت انگیز” فناوری اطلاعات باشد که شرکت های بیشتری معتقدند موفقیت آنها را به همراه خواهد داشت. اما همانطور که اغلب در مورد درمان های جدید اتفاق می افتد، معمولاً یک عارضه جانبی وجود دارد – در این مورد، واقعیت فناوری ذخیره سازی فعلی است. سیستم‌های ذخیره‌ سازی سنتی می‌توانند هم برای برنامه‌های کلان داده‌های سریع که به تأخیر بسیار کم نیاز دارند و هم برای برنامه‌های داده کاوی که می‌توانند انبارهای داده عظیمی را جمع‌آوری کنند، کوتاهی کنند. برای چابک سازی تجزیه و تحلیل کلان داده ها، سیستم های ذخیره سازی باید سریع، مقیاس پذیر و مقرون به صرفه باشند.

راه‌حل‌های ذخیره‌سازی فلش، که در سطح سرور و با آرایه‌های تمام فلش پیاده‌سازی شده‌اند، جایگزین‌های جالبی را برای ذخیره‌سازی با کارایی بالا و با تأخیر کم، از چند ترابایت تا صد ترابایت یا بیشتر ارائه می‌دهند. معماری‌های مبتنی بر شی و مقیاس‌پذیر با کدگذاری پاک‌ کننده می‌توانند سیستم‌های ذخیره‌سازی مقیاس‌پذیری را فراهم کنند که از روش‌های RAID و تکرار سنتی برای دستیابی به سطوح جدیدی از کارایی و هزینه‌های کمتر هر گیگابایت اجتناب می‌کنند.

شرکت ساها( سهند ارتباطات نیایش هوشمند) با داشتن متخصصان مجرب و حرفه ای در خصوص خدمات کلان داده ها و دیتاسنتر می تواند در سریعترین زمان ممکن سلوشن های کارآمدی را برای شما طراحی و پیاده سازی نماید. لطفا با ما در ارتباط باشید.

 

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا