یافتن سوزن در انبار کاه: چگونه داده‌های بدون ساختار را مدیریت کنیم

دنیای دیجیتال امروزی حجم بسیار بالایی از داده تولید می‌کند. با رشد سریع رسانه‌های مبتنی بر اینترنت و کسب‌وکارهایی که به سمت عملکرد آنلاین پیش می‌روند جای تعجب ندارد که آمریکا به تنهایی در هر دقیقه بیش از ۲.۵ میلیون گیگابایت داده تولید می‌کند. تمام این اطلاعات باید در جایی ذخیره شوند. بیشتر این‌ها حدود ۱۴۵۰ اگزابایت ظرفیت مراکز داده‌ی جهان را اشغال کرده‌اند. سازمان‌هایی که توانایی مدیریت موثر داده‌هایشان را دارند می‌توانند بینش‌های ارزشمندی کسب کنند و برنامه‌های تجاری‌شان را بر این اساس تطبیق دهند.

مدیریت ضعیف داده‌ها موجب هزینه‌های قابل توجهی نه تنها برای ذخیره‌ی اطلاعات بلکه به دلیل از دست دادن فرصت‌ها می‌شود. برخورداری از بهترین اطلاعات دنیا با داشتن اطلاعات زیادی که نمی‌توان از آنها استفاده کرد، برابر نیست. این شبیه یک پیشنهاد ساده به نظر می‌رسد ولی متاسفانه اطلاعات چیزی نیست که شکل‌دهی و مدیریت آن به این سادگی باشد. یکی از بزرگ‌ترین چالش‌هایی که سازمان‌ها در سودمندسازی اطلاعات‌شان با آن روبه‌رو هستند، مواجهه با داده‌های بدون ساختار است.

داده‌ی بدون ساختار چیست؟

داده‌ی بدون ساختار

درک تفاوت بین داده‌ی «بدون ساختار» و داده‌ی «ساختار یافته» به درک اینکه چگونه شکل‌های اولیه‌ی داده در اواسط قرن بیستم به فرم دیجیتال تبدیل شدند، کمک می‌کند. سوابق حسابداری و موجودی‌ها به عمده‌ی داده‌های اولیه‌ی کامپیوتر شکل می‌دادند. از آنجا که این اطلاعات از قبل در ساختارهایی مشخص دسته‌بندی شده بودند، فرم دیجیتال آنها نیز سطحی از یکنواختی را حفظ کرده بود. فیلدهای داده در طول‌هایی از پیش تعریف شده و ویژگی‌های فیلد مانند متن در مقابل رقم، با فیلدهای خاصی که در مکان‌های ثابت در هر رکورد ظاهر می‌شوند، تنظیم شده بودند. این شکل‌های دقیق طبقه‌بندی شده، امکان خواندن، جستجو و درک داده‌های ساختار یافته را به آسانی مهیا می‌کرد. ولی داده‌ی بدون ساختار فرمت خاصی ندارد. این داده‌ها می‌توانند در هر اندازه، قالب یا فرمی باشند که مدیریت و تجزیه و تحلیل‌شان را به طرز باورنکردنی سخت می‌کند.

محدودیت داده‌های ساختار یافته به گونه‌ای است که تنها شامل نوع و مقدار خاصی از اطلاعات در زمینه‌های تعریف شده‌ی مربوط به آن می‌شود ولی داده‌های بدون ساختار چنین محدودیتی ندارند. داده‌های ساختار یافته از الگوریتم‌های پایه‌ای استفاده می‌کنند که به راحتی قابلیت جستجو دارند ولی داده‌های بدون ساختار از هیچ الگوی قابل پیش‌بینی که قابلیت پردازش توسط یک الگوریتم ساده را داشته باشد، استفاده نمی‌کنند.
داده‌های بدون ساختار می‌توانند از هر جایی نشأت بگیرند ولی بیشتر آنها به صورت مدرک، تصویر، ایمیل، ویدیو، فایل صوتی، صفحات وب یا خبرنامه‌های شبکه‌های اجتماعی وجود دارند. همچنین به این دلیل که سازمانهای بیشتری استراتژی‌های عصر کامپیوتر را اتخاذ کرده‌اند، دستگاه‌های اینترنت اشیا در حال تبدیل شدن به منبع اصلی داده‌های بدون ساختار هستند.

مدیریت داده‌های بدون ساختار

محققات تخمین زده‌اند که حدود ٪۸۰ داده‌های تولید شده، بدون ساختارند. با وجود اینکه این داده‌ها حاوی اطلاعاتی هستند که می‌توانند ارزشی باورنکردنی به سازمانها اعطا کنند، ولی بررسی و گزینش از میان آنها فوق‌العاده سخت است. بیرون کشیدن بینش‌های مدفون در مدارک، ایمیل‌ها یا انواع مختلف فایل‌های رسانه‌ای برای یک الگوریتم ساده‌ که جهت جستجوی نمونه‌های فیلد طراحی شده، کار بسیار پیچیده‌ای است. متاسفانه داده‌های بدون ساختار در چنین مقیاس قابل توجهی وجود دارند که تجزیه و تحلیل آنها فراتر از ظرفیت انسانی هر سازمانی است.

فناوری شناختی و مبتنی بر هوش مصنوعی یکی از موثرترین ابزارها برای استخراج اطلاعات ارزشمند از داده‌های بدون ساختار است. این برنامه‌ها از قابلیت تفسیر، ارزیابی، برقراری ارتباط و نتیجه‌گیری از این داده‌ها برخوردارند که مدیریت و استفاده از آنها را آسان‌تر می‌کند. بدون این نوع تجزیه و تحلیل، حتی دانستن اینکه احتمالاً چه اطلاعات ارزشمندی در داده‌های بدون ساختار نهفته است، سخت می‌باشد. در برخی موارد، این داده‌ها می‌توانند مطرح کننده‌ی یک خطر امنیتی قابل توجه باشند.
شرکت عظیم نرم‌افزار ارتباط با مشتری Salesforce به روش بی‌رحمانه‌ای متوجه این خطر امنیتی شد؛ زمانی که در سال ۲۰۱۶ ایمیل هک شده‌ی یکی از اعضای هیئت مدیره، اهداف دستیابی به لیست پیوست و استراتژی‌های بازار را صورت عمومی منتشر کرد.

متاسفانه تجزیه و تحلیل داده‌های بدون ساختار فوق‌العاده پرتنش است. این کار به میزان قابل توجهی از منابع محاسباتی نیاز دارد که فراتر از توان زیرساختی اکثر شرکت‌هاست. حتی مدیریت ذخیره‌سازی و دسترسی برای داده‌های بدون ساختار در وهله‌ی اول یک مانع اصلی به حساب می‌آید. به این دلیل که روزانه داده‌های بدون ساختار بیشتری ایجاد می‌شوند، نیازهای ذخیره‌سازی و محاسبه به سرعت تغییر می‌کنند. راه‌حل‌های امروزی زیرساخت IT احتمالاً توانایی سازگاری با نیازهای آتی یک شرکت را ندارند، بخصوص اگر این نیازها به سرعت در حال رشد باشند.

چگونه یک مرکز داده می‌تواند کمک‌کننده باشد

مراکز داده‌ی امروزی به شرکت‌هایی که به دنبال روش‌های بهتری برای مدیریت داده‌های بدون ساختارشان هستند، راه‌حال‌های قابل قیاس مختلفی پیشنهاد می‌کنند. مراکز داده با استفاده از زیرساخت مبتنی بر فضای ابری می‌توانند سیاست‌های دقیقی را به منظور کنترل نحوه‌ی دریافت، جابه‌جایی، ذخیره، دستیابی و تجزیه و تحلیل داده‌ها تنظیم کنند. توانایی بالا بردن قدرت محاسباتی و فضای ذخیره‌سازی، این را برای شرکت‌ها ممکن می‌سازد تا از داده‌هایی که جمع‌آوری کرده‌اند بیشترین بهره را ببرند.

برای شرکت‌هایی که به دنبال گسترش رایانش مرزی هستند، یافتن یک مرکز داده که توانایی مدیریت نیازهای اطلاعاتی دستگاه‌های اینترنت اشیا را دارد، حیاتی است. اکثر ساختارهای رایانش مرزی داد‌ه‌ها را در مکان‌های مختلفی که بر اساس مجموعه‌ی دقیقی از پروتکل‌هاست، ذخیره می‌کنند. برخی از داده‌ها در مرز خود دستگاه‌ها یا در مرز مراکز داده باقی می‌مانند، ولی برخی از آنها برای تجزیه و تحلیل به یک سرور مرکزی بازگردانده می‌شوند. شبکه برای اینکه بداند این داده‌های بدون ساختار را به کجا ارسال کند، باید از مورد جستجو و آنچه در اولویت است، آگاه باشد.

همزمان که سازمانها اطلاعات گردآوری شده و توانایی ذخیره‌سازی‌شان را گسترش می‌دهند، داده‌های بدون ساختار چالش‌های عظیمی را در برابر آنها قرار می‌دهند. اگر آنها راه‌حلی پایدار برای مدیریت و تجزیه و تحلیل این داده‌ها که بتواند بینش‌های ارزشمندی را استخراج کند، نیابند، برای موفق شدن در محیطی رقابتی که از سرعت بالای پیشرفت برخوردار است، تقلا خواهند کرد. خوشبختانه یک مرکز داده‌ی قابل اعتماد می‌تواند برای شرکت‌ها نیروی ذخیره‌سازی و محاسباتی که برای ساخت آینده‌شان نیاز دارند را تدارک ببیند.

1 thought on “یافتن سوزن در انبار کاه: چگونه داده‌های بدون ساختار را مدیریت کنیم

لطفا نظر بدهید