خراب شدن سرور میتواند ناشی از خراب شدن حافظه باشد. در این صورت دسترسی و عملکرد سرویس نیز کاهش مییابد. یک سرویس را در نظر بگیرید که شامل چندین سرور است. ممکن است سرور به خاطر خرابی در ماژول single memory خراب شود یا حتی به خاطر خطا در uncorrectable memory. برای اینکه از این اتفاقات بتوان جلوگیری کرد HPE فناوری RAS را ارائه داده است. عنوان RAS از حروف اول reliability یا قابلیت اطمینان، availability یا در دسترس بودن و serviceability یا سرویسدهی میآید که شامل این موارد است:
HPE Fast Fault Tolerance، Advaned ECC support، Online spare with Advanced ECC support و Mirrored memory with advanced ECC support.
به دلیل مشکلات نرمافزاری و قطع برق همینطور خطاهای مموری ممکن است سرورها به مشکل بخورند. بعضی خطاها را میتوان اصلاح کرد، بعضی دیگر قابلیت بازیابی دارند و سایر خطاها اصلاح ناپذیر هستند. به دلیل وجود چنین خطاهایی memory RAS نیاز است.
اصولا به خطاهایی قابل اصلاح میگویند که توسط چیپست قابل شناسایی و اصلاح هستند و به طور کلی یک بیتی هستند.
تمامی سرورهای HPE خطاهای یک بیتی را تشخیص و اصلاح میکنند و از error-correcting code(ECC) پشتیبانی میکنند.
سیستمهای HPE، به کاربر درباره بیش از حد شدن correctable error از طریق چراغهای روی پنل جلویی یا بورد سیستم هشدار میدهد و یا به وسیله HPE Integrated Management Log(IML) این کار را میکند.
به خطاهایی که توسط چیپست شناسایی میشوند ولی اصلاح نمیشوند خطاهای غیر قابل اصلاح میگویند که همیشه چند بیتی هستند. این خطاها در ILM ثبت میشوند. این نوع خطاها را معمولا میتوان در یک DIMM جدا کرد. خطاهای غیر قابل اصلاح فورا سیستم را خراب و یا خاموش میکنند. با پشتیبانی از سیستم عامل و پردازندههای پیشرفته مثل سری Gold یا Platinum پردازندههای Intel Xeon، بعضی اوقات سیستم خراب نمیشود. به این نوع مدل خطاها، قابل بازیابی میگویند.
خطاهای DRAM غالبا به دو صورت هستند:
Hard error: خطای سخت به معنای وجود مشکل در خود DIMM هست. با اینکه خطاهای قابل اصلاح سخت توسط سیستم اصلاح میشوند، باز هم یک اشکال سختافزاری است. این خطاها معمولا منجر به این میشوند که DIMM از آستانه خطاهای قابل اصلاح سیستمهای HPE فراتر برود، به کاربر درباره این موضوع هشدار داده میشود.
Soft error: خطای نرم بر خلاف خطای سخت ارتباطی با DIMM ندارد و زمانی اتفاق میافتد که داده و یا بیتهای ECC روی DIMM درست نباشند، با اصلاح این خطا، دیگر ادامه نمییابد. این خطاها معمولا منجر نمیشوند که DIMM از آستانه خطاهای قابل اصلاح سیستمهای HPE فراتر برود پس هیچ خبری از مشکل سختافزاری نیست.
خطاها اگر درست کنترل نشوند، میتوانند باعث خاموش شدن سیستم شوند. اوایل استفاده از سرورها با ECC میشد بیشتر خرابیهای DRAM را رفع کرد ولی الان اوضاع متفاوت است. برای همین از ویژگیهای اضافی RAS استفاده میشود تا پایداری و زمانبندی مورد انتظار سرورها فراهم شود. دستگاههای حافظه خراب شده جایگزین میشوند. همچنین، فناوری RAS حافظه می تواند یک دستگاه DRAM را روی DIMM که دارای خطاهای نرم زیادی است، شناسایی و قبل از خرابی سخت آن را تعویض کند.
HPE Advanced ECC Support:
حالت پیشفرض برای حفاظت از مموری برای سرورهای HPE در سیستمهای ROM revision قبل از 1.5 ، مموری Advanced ECC است. در 1.5 به بعد، HPE Fast Fault Tolerance حالت پیشفرض RAS در همه پروفایلهای بجز پروفایل با تاخیرکم، است.
ECC استاندارد خطاهای یک بیتی مموری را اصلاح میکند، همچنین خطاهای چند بیتی را تشخیص میدهد. زمانی که این اتفاق میافتد، خطا به سرور سیگنال شده و باعث متوقف شدن آن میشود.
Advanced ECC مدت زیادی است که در سرورهای HPE، حالت پیشفرض اصلاح خطاهاست و علاوه بر محافظت از سرور مقابل خطاهای یک بیتی، مقابل بعضی خطاهای چند بیتی مخصوصا خطاها در DRAM نیز محافظت میکند.
Advanced ECC میتواند هم خطاهای یک بیتی و هم 4 بیتی حافظه را در صورتیکه همه بیتهای خراب در یک DRAM روی یک DIMM باشند، اصلاح کند. همچنین نسبت به ECC استاندارد حفاظت بیشتری دارد چون که میتواند بعضی از خطاهای حافظه را اصلاح کند که درغیر اینصورت منجر به خرابی سرور میشوند. با استفاده از فناوری تشخیص خطای حافظه HPE Advanced، سرور هنگام تخریب DIMM اعلانی را ارائه میدهد و احتمال خطای حافظه غیر قابل اصلاح را بیشتر می کند.
برای advanced ECC support هیچ قانون یا تنظیمات RBSU نیاز نیست و به عنوان پیشفرض در پلتفرمهای Purely فعال شده است.
Advanced ECC فقط وقتی که خطاهای چند بیتی در یک DRAM واحد رخ میدهند، میتواند با اطمینان خطاها را اصلاح کند و قابلیت خرابی را ایجاد نمیکند. بنابراین اگر حافظه خراب شد و نیاز به جایگزینی داشت، باید ابتدا سیستم خاموش شود. آخرین نسل از سرورهای HPE ProLiant/Synergy/Blade با استفاده از پردازندههای Intel Xeon Scalable سه سطح حافظت از حافظه پیشرفته (از جمله HPE Fast Fault Tolerance) ارائه میکنند که باعث افزایش تحمل خطا در برنامههایی میشود که به سطح بالاتری از در دسترس بودن نیاز دارند.
نکات مهم قبل از عیبیابی در سرور
- سرور های HP ProLiant P-Class بلندگو ندارند. بنابراین از خروجی صدا پشتیبانی نمیکنند. اگر شما از این سری از سرورها استفاده مینمایید، از اطلاعات بوقهای ذکر شده در این صفحه صرف نظر کنید.
- این آموزش اطلاعاتی را برای چندین مدل متفاوت از سرورها و به صورت عمومی، ارائه میدهد.بنابرین امکان دارد در مواردی اطلاعات ارائه شده در این آموزش با دستگاه در حال عیبیابی شما، یکسان نباشد. در این صورت نیاز است تا به مستندات رسمی در سایت سازنده مراجعه کنید.
- با توجه به تعداد بالای ارور های سرور اچ پی در این صفحه، میتوانید از ویژگی جستوجوی مرورگرتان استفاده نمایید. (برای این منظور کلید Ctrl را همزمان با کلید F فشار دهید.)
سخن پایانی
در این قسمت سعی کردیم تمامی ارورهایی که بدون نمایش پیام عددی در زمان نصب و پیکربندی سرورهای اچ پی رخ میدهند را بیان کنیم و با بررسی آنها، راه حلی مناسب برای رفع ارور رخ داده را خدمت شما همراهان ارئه دهیم.
در پارتهای بعدی از آموزش بررسی و رفع ارورهای سرور اچ پی، به بررسی ارورهای سری 100، 200، 300، 338، 400، 600، 1100، 1600، 1700 در سرورهای HPE ProLiant خواهیم پرداخت.
شرکت ما به طور عمده و تخصصی بر روی فروش و پخش عمده سرور hp و تمام سخت افزار مورد نیاز فعالیت می کند.