مفهوم Big Data یا کلان داده

مفهوم Big Data یا کلان داده

مفهوم Big Data یا کلان داده

مفهوم Big Data یا کلان داده
مفهوم Big Data یا کلان داده

Big Data یا داده بزرگ به چه صورت است؟ تصور شما از حجم انبوهی از داده‌ها چیست؟ یک هزار گیگابایت، ده‌ها هزار گیگابایت یا صدها هزار ترابایت!

راهکارهای پایگاه داده، برای سال 2015 می‌توان نام‌های مختلفی یافت سال شبکه‌های اجتماعی، سال محاسبات ابری، سال تبلت‌ها و تلفن‌های همراه هوشمند، سال سرویس‌های رنگارنگ اینترنتی و بسیاری موارد ریزودرشت دیگر؛ اما تنها با لحظه‌ای تأمل درخواهیم یافت که استفاده از هر یک از این ابزارهای نرم‌افزاری و سخت‌افزاری، یک نتیجه واحد در برخواهد داشت: تولید داده و اطلاعات در ابعادی باورنکردنی و غیرقابل‌تصور.
شکل 1 : BigData

آمار و ارقام حاکی از آن است که در حال حاضر، روزانه 2,5 اگزابایت (1,048,576 ترابایت) داده و اطلاعات توسط اشخاص و سازمان‌ها تولید می‌شود و این در حالی است که نود درصد از مجموع داده‌های موجود در جهان تنها در طول دو سال گذشته، یعنی سال‌های 2010 و 2011 ایجاد شده‌اند. پرواضح است که این روند با گسترش روزافزون تعداد کاربران دستگاه‌های ارتباطی، بدون وقفه و با شیبی مهارناشدنی ادامه یافته و آنچه بیش از هر زمان دیگری اهمیت خواهد داشت، یافتن روش‌ها، ابزارها و مکانیسم‌هایی برای ذخیره، بازیابی و تحلیل این حجم از داده به شکلی مؤثر و با کارایی بالا است. رشد فوق‌العاده سریع حجم داده‌ها، اگرچه به‌خودی‌خود فرآیند ذخیره‌سازی، بازیابی و تحلیل اطلاعات را دشوار و مواجهه با آن را نیازمند ایجاد ابزارهایی جدید می‌کند، اما آنچه بحث داده و مکانیسم‌های مدیریتی آن را در پایان سال 2011 به‌چالش کشیده و به‌نوعی رویکرد اصلی سال آینده میلادی را در حوزه پایگاه‌های داده مشخص می‌سازد، آگاهی از این حقیقت است که نزدیک به نود درصد از کل داده‌های ذخیره‌شده در جهان دیجیتال، به‌نوعی غیر ساخت‌یافته (Unstructured Data) هستند و این موضوع ما را با مفهومی به‌نام «داده بزرگ» یا Big Data روبه‌رو می‌سازد.

در یک تعریف ساده و به‌دوراز پیچیدگی‌های فنی، داده بزرگ، به مجموعه‌هایی از داده (datasets) گفته می‌شود که نرخ رشد آن‌ها بسیار بالا بوده و در مدت‌زمان کوتاهی، شامل چنان حجمی از اطلاعات می‌شوند که دریافت، ذخیره‌سازی، جست‌وجو، تحلیل، بازیابی و همچنین تصویرسازی آن‌ها با ابزارهای مدیریت داده موجود غیرقابل انجام خواهد بود. آنچه حائز اهمیت است، این است که برخلاف گذشته، مفهوم داده بزرگ تنها مختص به حوزه آکادمیک و حل مسائل علمی مانند شبیه‌سازی‌های پیچیده فیزیکی، تحقیقات زیست‌محیطی، هواشناسی و مانند آن نبوده و بسیاری از سازمان‌ها و شرکت‌های بزرگ در سال‌های آینده با مشکلات مربوط به داده‌های انبوه غیر ساخت‌یافته یا همان داده بزرگ مواجه خواهند بود.

شواهد فراوانی در اثبات این ادعا وجود دارند که از آن میان می‌توان به چهل میلیارد تصویر بارگذاری شده در تنها یکی از شبکه‌های اجتماعی، ثبت تراکنش‌های یک‌میلیون مشتری در هر ساعت در فروشگاه‌های زنجیره‌ای وال مارت به‌منظور تحلیل علایق و عادت‌های خرید ایشان با حجمی بالغ بر 2,5 پتابایت (هر پتابایت برابر یک هزار ترابایت) و در یک‌کلام تولید 75 درصد از کل «داده بزرگ» توسط افراد و کاربران معمولی به میزان 1,35 زتابایت (هر زتابایت برابر یک هزار اگزابایت) اشاره کرد. این در حالی است که بر اساس تحقیقات به‌عمل آمده، حجم داده‌های موجود در جهان در سال 2012، چهل درصد افزایش یافته و به عددی بالغ بر 2,52 زتابایت خواهد رسید!

پرواضح است که چنین حجمی از داده نیازمندی‌های خاص خود را داشته و ابزارهای مختص به خود را می‌طلبد. ابزارهایی مانند هادوپ (Hadoop) که بدون تردید جزء موفق‌ترین نمونه‌های پیاده‌سازی شده از تفکر NoSQL محسوب می‌شود. جنبش No SQL که در ابتدا باهدف جایگزینی پایگاه‌های رابطه‌ای و با شعار پایان رابطه‌ای‌ها (No SQL) خود را معرفی کرد، با مقاومت بزرگان و پشتیبانان مکانیسم‌های رابطه‌ای مواجه شد. مقاومتی که باعث شد تا این جنبش نوپا به‌درستی دست از سماجت برداشته و خود را به‌عنوان راه‌حلی مناسب برای مسائلی که پایگاه‌های داده رابطه‌ای در حل آن با دشواری مواجه هستند، مطرح کند و شعار «نه‌فقط رابطه‌ای» (Not only SQL) را برای خود برگزیند.

این تغییر رویکرد، شرایط لازم را فراهم آورد تا تمامی فعالان این عرصه از موافق و مخالف بر مزایا و منافع این رویکرد تمرکز کرده و با مشارکت شرکت‌های قابل‌احترامی مانند یاهو و بنیاد آپاچی پروژه‌هایی مانند Hadoop، MangoDB، Cassandra، CouchDB و بسیاری از پروژه‌های دیگر، در جهت حل مسائل مرتبط با داده بزرگ، پا به عرصه حیات بگذارند. رویکردی که بدون کمترین تردیدی در سال 2012 و سال‌های بعد از آن، در مرکز توجه بسیاری از شرکت‌های تولیدکننده پایگاه‌های داده مانند آی‌بی‌ام، اوراکل، مایکروسافت و دیگران خواهد بود.

درواقع اگر بخواهیم با موشکافی بیشتری این حرکت جمعی به‌سوی تولید ابزارهای مدیریت داده‌های حجیم را موردبررسی قرار دهیم باید این نکته را در نظر داشته باشیم که تقریباً تمامی این شرکت‌ها یا محصولاتی را (اغلب مبتنی بر کتابخانه هادوپ) روانه بازار کرده‌اند یا مراحل آماده‌سازی نهایی آن را سپری می‌کنند. به‌عنوان‌مثال، شرکت مایکروسافت در کنفرانس سالیانه PASS 2011 و درست یک هفته پس از آن‌که شرکت اوراکل از عرضه Big Data Appliance با توانایی پردازش داده‌های ساخت‌یافته و غیر ساخت‌یافته مبتنی بر هادوپ خبر داد، به‌طور رسمی پشتیبانی از پردازش داده بزرگ مبتنی بر این کتابخانه نرم‌افزاری را در SQL Server 2012 اعلام کرد. نکته جالب‌توجه آن‌که این شرکت پا را فراتر از پایگاه‌های رابطه‌ای گذاشته و وعده پشتیبانی از پردازش‌های موردنیاز داده‌های حجیم و غیر ساخت‌یافته را روی سیستم‌عامل Windows Server 2012 و معادل مبتنی بر ابر آن، یعنی Windows Azure را به علاقه‌مندان محصولات خود داد.
علاوه بر مایکروسافت و اوراکل دیگر صاحب نامان این حوزه همچون آی‌بی‌ام (عرضه‌کننده محصولاتی مانند Info Sphere BigInsight وInfo Sphere Streams) و همچنین شرکت EMC (با مجموعه ابزارهای Greenplum شامل Database، HD و Chorus) حرکت خود را به سمت فراهم آوردن مکانیسم‌های موردنیاز برای پردازش داده‌های بزرگ آغاز کرده‌اند و شکی نیست که در سال آینده نیز با تمام توان و به‌منظور کسب سهم بیشتری از این بازار رو به گسترش، تلاش کرده و شاهد ورود ابزارهای پردازشی فراوانی در این حوزه خواهیم بود.

کلام پایانی آن‌که سال 2012 را در بحث پایگاه‌های داده، می‌توان به‌نوعی سال پردازش داده‌های انبوه و غیر ساخت‌یافته و در یک‌کلام داده‌های بزرگ دانست. رویکردی که به‌جز ابزار و روش، به سخت‌افزارها و پلتفرم‌های پرقدرت و قابل‌اعتماد نیاز داشته و این در شرایطی است که بسیاری از سازمان‌ها و شرکت‌ها، حتی درصورتی‌که توان مالی خرید چنین تجهیزاتی را در اختیار داشته باشند، از حیث مدیریت، نگه‌داری و به‌روزرسانی و بسیاری مسائل و مشکلات مرتبط با آن، رغبت چندانی به آن نخواهند داشت. این المان‌های تصمیم‌گیری به‌ظاهر متناقض، در عمل ما را به یاد سرویس‌های قابل‌ارائه در قالب محاسبات ابری (Cloud Computing) انداخته و این نکته را به ذهن متبادر می‌سازد که نیاز به حجم انبوهی از ماشین‌های سرویس‌دهنده و توان پردازشی فوق‌العاده بالا در کنار عدم درگیر شدن با مسائل فنی مرتبط با زیرساخت‌های مذکور، سال آتی را به مکانی برای قدرت‌نمایی انواع سرویس‌های ابری تبدیل کرده و بسیاری از شرکت‌ها به سمت استفاده از آن سوق خواهند یافت.

باید منتظر ماند و دید!

آپاچی هادوپ (Apache Hadoop)

کتابخانه نرم‌افزاری هادوپ، یک چارچوب کاری (Framework) نوشته‌شده با زبان برنامه‌سازی جاوا است که با الهام از مقاله‌های منتشرشده توسط گوگل در حوزه محاسبات توزیع‌شده و سیستم فایلی اختصاصی این شرکت موسوم به GFS ایجاد شده و با استفاده از یک مدل برنامه‌سازی ساده، امکان پردازش توزیع‌شده روی مجموعه‌های عظیم داده‌ای روی کامپیوترهای به‌هم متصل را فراهم می‌آورد. از ویژگی‌های قابل‌توجه هادوپ می‌توان به قابلیت مقیاس‌پذیری آن از یک سرویس‌دهنده به هزاران ماشین با حافظه و قدرت پردازش محلی اشاره کرد. همچنین این کتابخانه با قابلیت تشخیص و مدیریت خطاها در لایه کاربری، مستقل از سخت‌افزار عمل کرده و درنتیجه سرویس‌هایی با دسترس‌پذیری بالا را برای کاربران فراهم می‌آورد. لازم به ذکر است که امروزه هادوپ در بسیاری از پروژه‌های تجاری عرضه‌شده توسط بزرگانی مانند آی‌بی‌ام، اوراکل و مایکروسافت مورداستفاده قرار می‌گیرد.

 

 

 


آخرین دیدگاه‌ها

    دسته‌ها