برای نجات دادن اطلاعات مهم سازمانها استفاده از افزونگی RAID کافی نیست، و حتی با وجود دو مجموعه محافظت شده RAID 5 و RAID 50 میتواند سرویسهای بازیابی اطلاعات را ناکام بگذارد. در این مقاله ما در مورد مزایا و معایب RAID50 صحبت خواهیم کرد و همچنین در مورد نحوه کمکی که به یکی از مشتریان خود کردیم تا اطلاعات از دست رفته RAID 50اش را به او بازگردانیم صحبت خواهیم کرد.
RAID 50 چیست مزایا و معایب آن بطور خلاصه؟
در محیطهای ذخیره سازی مقیاس بزرگ مدرن، RAID 50 خیلی سریع به یکی از عناصر ذخیره سازی اطلاعات با عملکرد بالا تبدیل شده است. RAID 50 چندین مزیت را به کاربر ارائه میدهد، اول از همه از لحاظ سرعت خیلی سریع است. این آرایهها ترکیبی از مزایای RAID 5 و RAID 0 را ارائه میدهند و فقط از لحاظ عملکرد توسط کنترلر و رابط هارد دیسک محدود میشوند. RAID 50 همچنین از حداکثر ظرفیت ذخیره سازی استفاده میکنند و میتواند همان ظرفیت RAID 10 را با استفاده از درایوهای بسیار کمتر ارائه دهند چون که تنها ظرفیت یک درایو در هر مجموعه RAID 5 برای پریتی اشغال میشود.
RAID 50 با تمام مزایایی که در اختیار کاربران قرار میدهد دارای معایبی هم میباشد. هرچند که ممکنه هر درایو منفرد و حتی چند درایو را از دست بدهید اما این در حالتی است که درایو شما در مجموعههای مختلفی قرار گرفته باشند و به عبارتی شما نمیتوانید دو درایو در یک مجموعه مشابه را از دست بدهید. در حالی که ممکن است تصور کنید که این اتفاق بعید نیست رخ دهد، اما در حقیقت داشتن چند درایو خراب در یک مجموعه مشابه کاملا رایج است. این مشکل معمولا در فرآیند بازسازی رخ میدهد که به بد سکتورها برای اولین بار دسترسی پیدا کنید و درایو دوم ناگهان دچار خرابی SMART میشود. در ادامه یک مطالعه موردی را که در آزمایشگاه ما موفق به بازیابی اطلاعات آن شدیم را توضیح خواهیم داد.
اطلاعات اولیه ارائه شده توسط مشتری در مورد آرایه RAID
۱۶ هارددیسک سیگیت ST3750640AS در سرور به دو آرایه RAID 50 هشت هاردی دستهبندی شدهاند. مشتری گفته که یک هارد خراب شده و بعد از آن که کنترلر شروع به بازسازی آرایه کرد تعویض شد. کنترلر در حال حاضر آرایه را غیرقابل دسترس نشان میدهد و اجازه هیچگونه تغییر در تنظیمات یا عملیات خاصی را نمیدهد و مشتری معتقد است که RAID خراب شده است. مدل کارت هم AMCC 9650SE/16ML است.
تشخیص اولیه توسط کارشناس
بعد از ظهر سه شنبه – کارشناس وارد محل شد و درایوها را از آرایه RAID با دقت به ترتیبی که به کارت کنترل وصل شده بود جدا کرد. سرور دارای چهار برد اصلی بود که هر کدام دارای ۴ پورت SATA بودند که به ترتیب پورتهای ۰ تا ۱۵ از پایین به بالا قرار گرفته بودند. معمولا باید درایوها به صورت دو ردیف در بالا و دو ردیف در پایین گروه بندی شوند.
هاردها برای ارزیابی و ایمیج گرفتن به آزمایشگاه بازیابی اطلاعات ارسال شدند. بعد از تست اولیه، همه درایوها شناسایی و دسترسی به سکتور ایجاد شد، اما پنج درایو دارای خطای S.M.A.R.T و یک درایو هم خرابی S.M.A.R.T را بدلیل شمارش بیش از حد سکتور های reallocated در برداشت. سایر خطاهای S.M.A.R.T مربوط به آمار گرمای بیش از حد بود.
جدول پارتیشن MBR در هر دو هارد پیدا شد و دو پارتیشن کاربری 4.77 گیگابیت و ۴.۷۸ گیگابیت را نشان میدهد که این با توضیحات مشتری در مورد دو آرایه RAID 50 مغایرت داشت، اما با این حال با یک هارد از ۱۶ هارد RAID 50 که حاوی دو پارتیشن منطقی است، سازگاری دارد. برای سرویس بازیابی اطلاعات RAID 50 هزینه ریکاوری اطلاعات تخمین زده شد و مشتری با پرداخت و بازیابی اطلاعات موافقت کرد.
روند ریکاوری اطلاعات RAID 50
سه شنبه شب – نمونههایی از اطلاعات هارد استخراج شد تا در تعیین مجموعههای هارد استفاده شود. فرض اولیه این بود که هاردها در دو گروه چینش فیزیکی بالا و پایین قرار دارند و تست سازگاری XOR را انجام نمیدهند. پس از صحبت با مشتری، کارشناس ما توضیح میدهد که درایو در کانال ۱۰ ممکن است با مجموعه اول سازگاری داشته باشد و با بقیه موارد سازگاری نداشته باشد. دوباره با استفاده از فرض گروه بندی تست XOR ناکام ماند. سعی شد از تست Brute force XOR برای امتحان کردن دو مجموعه صحیح از درایو استفاده شود و باز هم تست ناکام ماند. مشخص شد که هارد جایگزین، با وجود داشتن اطلاعات، به هیچ وجه جزئی از آرایه نیست و داده ها هرگز روی آن ایجاد نشدهاند. در همین حال، متادیتای کارت RAID در دو درایو یافت یافت شد و تایید میشود که هارد جدید جزئی از آرایه نیست.
چهارشنبه – هارد اصلیِ خراب شده مورد بررسی قرار گرفت، همچنان هارد دارای قابلیت خواندن و نوشتن است و همچنین قربانی خرابی SMART مربوط به سکتورهای بازسازی شده است. مجددا با استفاده از این پیش فرض که تنها یک درایو از تنظیم مجموعه فیزیکی خارج شده است، تست brute force XOR استفاده شد. بعد از یک روز کامل آزمایش؛ دو گروه ۸ تایی از هاردها شناسایی شدند و هر دو مجموعه تست XOR را تایید کردند. تحقیقات برای تعیین تنظیمات و پارامترهای قابل تنظیم و پیش فرض کارت RAID آغاز شد. این کارت تعیین میکند که اندازه استریپ پیش فرض ۶۴ کلیوبیت است و همچنین قادر به پشتیبانی از سایزهای ۱۶ و ۲۵۶ کیلوبایتی است. پشتیبان فنی تایید کرد که هیچ تاخیر پریتی وجود ندارد و چرخش پریتی به صورت همزمان انجام میشود. اما آنها قادر به ارائه اطلاعات مربوط به اندازه استریپ RAID 0 نسبت به مجموعههای RAID 5 نیستند. برای کمک به تعیین این مورد کارت RAID درخواست شد.
پنجشنبه – تا قبل از رسیدن کارت رید تلاش میشود که ترتیب و اندازه هارد RAID 0 تعیین شود. ترتیب و چینش چهار هارد به راحتی در مجموعه ۱ آرایه بر اساس جدول پارتیشن و مکانهای ساختار NTFS تعیین میشود. در ادامه براساس فایل ایمیج تعیین میشود که اندازه استریپ RAID 0 بزرگتر از ۱۲۸ کیلوبایت است. فرض بر این است که استریپ ممکن است ۴۴۸ کیلوبایت باشد و با این فرض برای تعیین ترتیب درایو تلاش میشود. اما با استفاده از سایر فایل های ایمیج و منابع موجود در MFT، ترتیب هارد در مجموعه ۱ به سرعت تعیین میشود و فقط مجموعه ۲ برای ست شدن باقی میماند. دو هارد مجموعه ۲ براساس منابع ارجاع فایل و فایل های ایمیج موقعیتشان مشخص میشود و به اینگونه ۶ هارد برای شناسایی از طریق بروت فورس باقی میماند.
جمعه – علی رغم تلاشهای جدی، نتیجهای حاصل نشد. تجزیه و تحلیل ساختارهای خام دادهها نشان میدهد که چرخش پریتی غیراستاندارد و به ظاهر متناقض است. همچنین ممکن است در اثر بازسازی RAID، شکست خورده ایجاد شده باشد (همانطور که مشتری توضیح داد).
شنبه – تستهای بعدی برای آزمایش و تعیین چرخش احتمالی است که به صورت دستی از دادههای موجود استفاده میکند، اما فرایند کُند و نتایج متناقض است. تعویض کارت RAID از طریق FedEx انجام میشود. تنظیمات اسمارت در هارد های خراب مجدد انجام میشوند و هاردهای اصلی به کنترلر وصل میشوند تا تنظیمات خواندن را فراهم آورند. گروه بندی و چینش هاردها بر اساس اطلاعات کارت RAID تایید میشود اما ابزار بایوس نشان میدهد که آرایه تخریب شده اس و به یک اسکن سازگاری نیاز دارد. این موضوع احتمالا ناهنجاریهای مروبط به چرخش پریتی را توضیح میدهد. ابر داده رید همچنین گروه دوم RAID را نشان میدهد (احتمالا از درایو جایگزین استفاده میکند) که آفلاین است و به نظر میرسد که هرگز بیشتر از چند سکتور بازسازی شده را ندارد که با بدسکتورهای موحود در چند درایو در نزدیکی پایینترین مناطق LBA در منطقه MFT است. این بازسازی فقط ممکن است پایینترین مناطق LBA را تحت تاثیر قرار دهد اما مناطق با سطح بالاتر باید یا استفاده از تنظیمات اصلی سازگار شوند.
با استفاده از این تنظیمات آرایه تازه تایید شده؛ آرایه مجازی ساخته و اسکن میشود. همان طور که انتظار میرود مناطق بالاتر LBA تحت تاثیر بازسازی RAID قرار نگرفتهاند. پارتیشن منطقی ۲ با استفاده از تنظیمات استخراج شده از ابر داده کارت رید به صورت ٪۱۰۰ و بدون خطا بازیابی میشود. سکتور ۱ حاوی برخی از MTFهای آسیب دیده است که به دلیل بدکستورها و بازسازی، ناموفق است. این پارتیشن برای تجزیه و تحلیل بیشتر با استفاده از نرمافزار بازیابی منطقی روی یک HDD حجیم تهیه شده است. همچنین به نظر میرسد که دادههای آن ٪۱۰۰ بازیابی شده است اما به دلیل خرابی MFT نمیتوان به صورت قطعی این موضوع را تایید کرد. مشتری توضیح داده بود که پارتیشنهای منطقی دو نسخه از همان مجموعه دادهها استفاده میکنند و فقط به مورد دیگر نیاز است.
با مشتری تماس گرفتیم و اطلاع دادیم که بازیابی اطلاعات RAID 50 تکمیل شده است.
یکشنبه صبح – مشتری بطور ریموت اطلاعات بازیابی شده را بررسی میکند و به این نتیجه میرسد که تمام اطلاعات مورد نیاز به طور کامل بازیابی شده است.
نتیجهگیری
افرادی که تا به اینجا مطلب با ما همراه بودند درمیابند که پروسه بازیابی و ریکاوری اطلاعات RAID ۵۰ و در کل بازیابی اطلاعات سرور از فرایندی پیچیده و تخصصی عبور میکند که این فراین مستلزم به زمان و تجربه کافی برای عیبیابی، تشخیص و درک مسئله تا بتوان راهکاری متناسب با آن تهیه شود و اطلاعات سرور با کمترین آسیب دیدگی بازیابی شود.
آیا این مقاله برای شما مفید بود؟
روی ستاره کلیک کنید
میانگین امتیاز ۵ / ۵. میزان امتیاز ۳
اولین نفری باشید که به این مقاله امتیاز میدهد