خطای iLo Generated NMI در سرورهای اچ پی

عیب یابی در سرورهای HPE Proliant Gen10 – اتصال از راه دور

ابزارهای عیب یابی از راه دور

سریال | سیگنال

Hewlett Packard Enterprise گزینه های مختلفی را فراهم می کند که به مدیران IT کمک کند تا یک سرور را از راه دور عیب یابی کنند. لطفاً توجه کنید که بخشی از ابزارهای معرفی شده در این مقاله مختص به سرورهای HPE BladeSystem c-Class می باشد و در مورد دیگر سرورها کاربرد ندارد. جهت دریافت لیست قیمت سرور HP و سرور HP DL380 G10 با ما تماس بگیرید.

سریال | سیگنال

HPE iLO

HPE iLO برای همه سرورهای HPE ProLiant و HPE Synergy در دسترس است. iLO از یک پردازنده و سیستم عامل هوشمند تشکیل شده است که امکان مدیریت از راه دور سرور را فراهم می کند. iLO VSP با درگاه سریال سرور، جریان داده های دو جهته را فراهم می کند. با استفاده از VSP ، کاربر می تواند به گونه ای عمل کند که گویی اتصال سریال فیزیکی روی پورت سریال سرور Remote وجود دارد. از طریق اتصال iLO استقرار یافته، می توان وضعیت سیستم را در اولین رابط (interface) ارائه شده به مدیر شناسایی کرد. هنگام تشخیص مشکلات سرور، سرپرستان می توانند بر اساس گزارش رویداد IML یا iLO ، موارد ناموفق را تعیین کنند. برای اطلاعات بیشتر در مورد ویژگی های iLO (که ممکن است به مجوز مشخصی از ILO نیاز داشته باشد)، اینجا را کلیک کنید تا برای اسناد iLO را در وب سایت Hewlett Packard Enterprise مشاهده کنید.

HPE Onboard Administrator (فقط برای HPE ProLiant server blades)

HPE Onboard Administrator و HPE Onboard Administrator Command Line Interface به مدیران در عیب یابی از راه دور سرورهای Blade در محیط HPE BladeSystem کمک می کنند ، مدیران به کلیه اطلاعات پیکربندی موجود در هر محل قرارگیری تیغه سرور (blade bay) و اتصال دسترسی پیدا می کنند. یک دستور SHOW ALL استاندارد از OA CLI اطلاعات پیکربندی را در HPE ProLiant c-Class Blade Enclosure ها فراهم می کند. برای کسب اطلاعات بیشتر در مورد استفاده از OA CLI و سایر اسناد BladeSystem در وب سایت Hewlett Packard Enterprise اینجا را کلیک کنید.

سرپرستان همچنین می توانند با استفاده از دستورالعمل ها یک گزارش OA SHOW ALL را ایجاد کنند. برای اطلاعات بیشتر اینجا را کلیک کنید.

HPE SIM

HPE SIM دسترسی از راه دور را برای نظارت بر رویدادها، به حداکثر رساندن uptime برای کاربر سرور و فضای ذخیره سازی ارائه می دهد. SIM توانایی کنترل از راه دور در مدیریت خطا و مدیریت رویدادها را در ترکیب با گزینه های برنامه نویسی برای پیکربندی سفارشی خط مشی ها (policies) فراهم می کند. عملکرد یکی دیگر از ویژگی های اصلی SIM است که برای تجزیه و تحلیل محیط برای گلوگاه های عملکردی استفاده می شود. برای اطلاعات بیشتر در مورد SIM، اینجا را کلیک کنید تا اسناد را در وب سایت Hewlett Packard Enterprise مشاهده کنید.

Virtual Connect (برای سرورهای HPE ProLiant BL c-Class blades)

GUI یک syslog حاوی اطلاعات دقیق ارائه می دهد که ممکن است هنوز در گزارش های VC گزارش نشده باشد. دسترسی دیگر به VC از طریق CLI انجام می شود. برای اطلاعات بیشتر در مورد گرفتن گزارش سلامت سرور، گزارش کلی (SHOW ALL) و Support Dump Files با استفاده از VCSU، اینجا کلیک کنید تا اسناد را در وب سایت Hewlett Packard Enterprise مشاهده نمایید.

HPE Active Health System

HPE Active Health System تغییرات سخت افزار سرور و پیکربندی سیستم را کنترل و ثبت می کند. این ابزار در هنگام خرابی سرور در تشخیص مشکلات و ارائه سریع راه حل کمک می کند. لاگ Active Health System ، همراه با system monitoring ارائه شده توسط Agentless Management یا SNMP Pass-thru ، نظارت مستمر بر تغییرات سخت افزاری و پیکربندی ، وضعیت سیستم و هشدارهای سرویس را برای اجزای مختلف سرور فراهم می کند. Active Health System Viewer) AHSV) ابزاری آنلاین است که برای خواندن ، تشخیص و حل سریع مشکلات سرور با استفاده از داده های بارگذاری شده AHS استفاده می شود. AHSV اقدامات تعمیراتی توصیه شده Hewlett Packard Enterprise را براساس تجربه و بهترین روش ها ارائه می دهد.

دسترسی از راه دور به Virtual Connect Manager

برای دسترسی به VCM CLI از راه دور از طریق هر نوع SSH Session:

  • با استفاده از هر برنامه SSH Client ، یک جلسه SSH را برای VCM شروع کنید.
  • وقتی از شما خواسته شد، آدرس IP اختصاصی یا نام DNS VCM را وارد کنید.
  • یک نام کاربری معتبر وارد کنید.
  • رمز عبور معتبری وارد کنید. سپس خط فرمان CLI نمایش داده می شود.
  • دستورات VCM را وارد کنید.
  • برای خاتمه جلسه دسترسی از راه دور SSH ، نرم افزار ارتباطی را ببندید یا در خط فرمان CLI وارد Exit شوید.

استفاده از iLO برای عیب یابی از راه دور سرورها و Blade ها

  1. وارد رابط وب iLO شوید.
  2. صفحه اولیه نمای کلی را برای وضعیت و سلامت مرور کنید. قسمتهای زیر را در صفحه نمای کلی مشاهده کنید:
    1. رام سیستم
    2. نسخه میان افزار iLO
    3. سلامت سیستم
    4. قدرت سرور
    5. وضعیت کارت SD
  3. برای نمایش برگه Summary ، روی System Information در درخت ناوبری کلیک کنید.
    1. تمام زیر سیستم ها و دستگاه های نصب شده را مرور کنید و بررسی کنید که همه دستگاه ها با نماد سبز وضعیت OK را نشان می دهند.
    2. اگر زیر سیستم یا دستگاه تخریب شده ای وجود دارد ، برای بررسی وضعیت فعلی ، روی زیر سیستم یا دستگاه تخریب شده کلیک کنید.
  4. از صفحه System Information ، زبانه Storage را انتخاب کنید.
    1. بررسی کنید که همه دستگاه های ذخیره سازی با یک نماد سبز وضعیت OK را نشان می دهند.
    2. اگر زیر سیستم یا دستگاه تخریب شده ای وجود دارد ، برای بررسی وضعیت ، روی زیر سیستم یا دستگاه تخریب شده کلیک کنید.
  5. برای بررسی اطلاعات میان افزار و سیستم عامل ، روی Firmware & OS Software در درخت ناوبری کلیک کنید. تب Firmware نمایش داده می شود.
  6. هنگامی که سرور به درستی راه اندازی نمی شود ، Event Logs و IML را بررسی کنید تا خطاهای احتمالی سخت افزاری در مشکلات روشن یا راه اندازی مجدد وجود داشته باشد.
    1. برای دسترسی به گزارش ها ، روی اطلاعات در درخت ناوبری کلیک کنید.
    2. بر روی iLO Event Log یا برگه Integrated Management Log کلیک کنید.
  7. روی اطلاعات در درخت ناوبری کلیک کنید و سپس برگه Diagnostics را انتخاب کنید. از این صفحه ، کاربر می تواند موارد زیر را انجام دهد:
    1. وضعیت نتایج خودآزمایی iLO را تأیید کنید.
    2. برای تنظیم مجدد iLO از دکمه Reset استفاده کنید.
    3. اگر ضبط حافظه مورد نیاز است ، برای شروع NMI برای ضبط تخلیه حافظه ، از دکمه Generate NMI to System استفاده کنید.
  8. مطمئن شوید که نمادهای روشن و وضعیت سلامت در بالا سمت راست در صفحات رابط وب ILO سبز هستند.

استفاده از onboard administrator برای عیب یابی از راه دور سروهای Blade

  • وضعیت کامل Enclosure را در گوشه سمت راست بالای وضعیت سیستم (System status) مرور کنید. این نحوه عملکرد کل Enclosure را نشان می دهد. رویدادهای مهم ، مانند اجزای نادرست قرار داده شده همانند بوردهای mezzanine و دستگاه های مرتبط متصل شده، نمایش داده می شوند.
  • برای تأیید وضعیت و موارد تشخیصی blade، به زبانه های Device bays، Host و Status بروید.
  • برگه IML را برای وقایع احتمالی سخت افزاری سرور که نیاز به اقدام دارند مرور کنید.
  • در برگه Status، اطلاعات نقشه پورت ها، و مشکلات اتصالات پیوندی (interconnect link) را بررسی کنید.
  • هر نشانگر سبز در یک پورت نشان می دهد که یک پیوند (link) در لایه انتقال (transportation layer) موجود است. این بدان معنی است که یک NIC یا یک اتصال SAN ممکن است برقرار شود و سیگنال های mid plane به درستی از سرور به دستگاه interconnect متصل شوند.
  • زبانه Table view در این صفحه نشانگر وضعیت Port را برای همه اتصالات به صورت سبز نشان می دهد.
  • برای درگاه هایی که سبز نیستند یا پورت های ناموفق هستند، سیگنال backplane را در سرور یا midplane بررسی کنید تا خرابی را تشخیص دهید.
  • برای هرگونه مشکل در روشن کردن blade، صفحه iLO را در برگه Status و تب Event Log مرور کنید.
  • اگر تمام شاخص های وضعیت سبز هستند و هیچ هشدار یا مولفه خرابی (Failed Component) وجود ندارد، به راهنمای iLO WEB بروید (Status Tab ، iLO ، مدیریت وب).
  • اگر Blade در Insight Display روی شاسی یا در رابط کاربری گرافیکی Onboard Administrator نشان داده نشده است، با استفاده از روش های موجود در راهنمای عیب یابی HPE BladeSystem c-Class Enclosure ، این مشکل را عیب یابی کنید.

استفاده از OA CLI

با استفاده از OA CLI برای عیب یابی سیستم اطلاعات سلامت و سیستم را جمع آوری و مرور کنید:

+ برای سیستم هایی که از سیستم عامل OA 3.60 یا بالاتر استفاده می کنند ، دستورالعمل SHOW HEALTH CLI را اجرا کنید و وضعیت سلامت را برای SHOW ALL شاسی بررسی کنید. خروجی SHOW HEALTH در گزارش OA و همچنین اولین دستور SHOW اجرا شده گنجانده شده است.

+ دستور SHOW ALL را از طریق OA GUI یا OA CLI به شرح زیر اجرا کنید:

– OA GUI ، Enclosure Settings ، Configuration Scripts ، SHOW ALL

– OA CLI دستور CLI زیر را اجرا کنید: SHOW ALL

این دستور کلیه دستورات OA CLI SHOW را اجرا می کند تا گزارشی دقیق از پیکربندی enclosure، وضعیت و inventory موجود ارائه دهد.

برای جمع آوری و پاسخ دادن به اطلاعات به دست آمده توسط دستور SHOW ALL ، موارد زیر را انجام دهید:

  • برای سیستم هایی که از سیستم عامل OA 3.60 به بالا استفاده می کنند ، خروجی LCD SHOW ENCLOSURE از گزارش SHOWALL را مرور کنید. وضعیت نمایش “چشمک زن” (Blinking) یک وضعیت هشدار را نشان می دهد. از طریق GUI OA داده ها را مرور کرده یا پیام های موجود در Insight Display را از OA GUI مرور کنید.
  • برای دریافت وضعیت کلی شاسی ، خروجی دستورات زیر را که در گزارش SHOW ALL مرور کنید:
  • وضعیت ضمیمه را نشان دهید.
  • وضعیت سرور را به همه نشان دهید.
  • INTERCONNECT STATUS ALL را نشان دهید.
    • اگر وضعیت یک جز component تخریب شده است ، اجزای فرعی آن را یکی یکی مشاهده کنید تا جز تخریب شده از component را کشف کنید. اجزای فرعی که معیوب هستند را می توان به این ترتیب علامت گذاری کرد.
  • برای یافتن اطلاعاتی که ممکن است مربوط به مسئله فعلی باشد ، قسمت گزارش سیستم (SYSLOG) را در گزارش SHOW ALL بررسی کنید. اگر دوره زمانی خرابی در لاگ سیستم وجود ندارد ، پس از استفاده از دستور CLI زیر ، گزارش طولانی سیستم را مرور کنید: SHOW SYSLOG HISTORY 04
  • برای جستجوی اطلاعات پشتیبانی در مورد مشکل (در صورت موجود بودن)، به وب سایت Hewlett Packard Enterprise بروید و موارد زیر را انجام دهید:
  • HP Onboard Administrator را در قسمت product name یا field number وارد کنید.
  • HP Onboard Administrator را از لیست نتایج انتخاب کنید.
  • متن را از لاگ سیستم یا جستجوی کلمات را در فیلد Search HP Onboard Administrator وارد کنید.
  • برای هرگونه خطای اتصال سطح پایین (لایه انتقال) در SAN یا اتصال شبکه در یک دستگاه متصل داخلی یا اتصال کارت شبکه، هرگونه اطلاعات به روزرسانی FRU Firmware سطح پایین (low-level) را که توسط خروجی SHOW UPDATE در گزارش SHOW ALL ارائه شده است، مرور کنید. هر نسخه جدیدتر موجود در ستون New Version باید با استفاده از دستور UPDATE DEVICE به روز شود. این خطاها باعث قطع اتصال I/O می شوند. firmware را در هر ماژول به روز کنید و نه به طور همزمان.
  • با استفاده از دستور OA CLI یا UPLOAD SUPPORTDUMP هر ورودی در فایل system log را که به Saving supportdump اشاره می کند، ضبط کنید. در صورت لزوم ، این فایل را برای تجزیه و تحلیل به پشتیبان HPE خود ارسال کنید.

منبع: رسام سرور

نمایش بیشتر

دیدگاهتان را بنویسید

دکمه بازگشت به بالا