حواسيب أبحاث الذكاء الاصطناعي الخارقة AI Research SuperCluster (RSC – التقنية الأكثر تقدماً لدى “ميتا”

0

آيتي نيوز (حواسيب أبحاث الذكاء الاصطناعي الخارقة) – يتطلب تطوير الجيل التالي من الذكاء الاصطناعي المتقدم أجهزة حاسوب قوية قادرة على إجراء كميات هائلة (كوينتيليون) من العمليات الحسابية في الثانية الواحدة. واليوم، تعلن “ميتا” تصميم وبناء الكتلة الحاسوبية الخارقة لأبحاث الذكاء الاصطناعي(RSC) والتي نعتقد أنها من بين أسرع أجهزة الحواسيب الخارقة التي تعمل بالذكاء الاصطناعي اليوم، وذلك  عند اكتمال بنائه في منتصف عام 2022. وقد بدأ باحثونا بالفعل في استخدام أبحاث الذكاء الاصطناعي لتدريب النماذج الكبيرة في معالجة اللغة الطبيعية (NLP) وتعزيز رؤية الحاسوب لإجراء البحوث، بهدف يوما تطوير النماذج التدريبية  مع تريليونات المعاملات.

وستساعد الحواسيب الخارقة التي تعمل بالذكاء الاصطناعي(RSC) الباحثين في مجال الذكاء الاصطناعي لدى “ميتا” على بناء نماذج ذكاء اصطناعي جديدة وبشكل أفضل، يمكنها التعلم من تريليونات الأمثلة مثل؛ العمل عبر مئات اللغات المختلفة وتحليل النصوص والصور والفيديو معًا بسلاسة. وتطوير أدوات جديدة للواقع المعزز وغيرها الكثير. وسيتمكن الباحثون من تدريب أكبر النماذج اللازمة لتطوير الذكاء الاصطناعي المتقدم وتعزيز قدرات الرؤية لدى الحاسوب ومعالجة اللغات الطبيعية (NLP) والتعرف على الأحاديث المنطوقة والمزيد. ونأمل أن تساعدنا RSC في بناء أنظمة ذكاء اصطناعي جديدة تمامًا يمكنها على سبيل المثال؛ تشغيل ترجمات صوتية في الوقت الأصلي لمجموعات كبيرة من الأشخاص يتحدث كل منهم لغة مختلفة، حتى يتمكنوا من التعاون بسلاسة في مشروع بحث أو المشاركة في لعبة واقع افتراضي معًا. وفي نهاية المطاف، سيمهد العمل المنجز على الحواسيب الخارقة التي تعمل بالذكاء الاصطناعي (RSC) الطريق نحو بناء تقنيات لمنصة الحوسبة الرئيسية التالية الخاصة بالميتافيرس، حيث ستلعب التطبيقات والمنتجات التي تعتمد على الذكاء الاصطناعي دورًا مهمًا.

ما هي الحاجة إلى حاسوب خارق  يعمل بالذكاء الاصطناعي بهذا الحجم؟

التزمتميتابالاستثمار طويل الأجل في الذكاء الاصطناعي منذ عام 2013، وذلك عندما أنشأنا “مختبر فيسبوك لأبحاث الذكاء الاصطناعي”. وفي السنوات الأخيرة، قطعنا خطوات كبيرة في مجال الذكاء الاصطناعي بفضل ريادتنا لعدد من المجالات من بينها التعلم بالإشراف الذاتي. حيث يمكن للخوارزميات التعلم من عدد كبير من الأمثلة والمحولات غير المعرّفة، والتي تسمح لنماذج الذكاء الاصطناعي التفكير بشكل أكثر فاعلية، من خلال التركيز على مجالات معينة وفق المدخلات.

ولتحقيق فوائد التعلم بالإشراف الذاتي والنماذج القائمة على المحولات بشكل كامل، فإن المجالات المختلفة سواء كانت الرؤية أو الكلام أو اللغة أو حالات الاستخدام الحرج مثل تحديد المحتوى الضار، ستتطلب تدريبًا متزايدًا على نماذج كبيرة ومعقدة وقابلة للتكيف. وتحتاج رؤية الحاسوب على سبيل المثال إلى معالجة مقاطع فيديو أكبر وأطول بمعدلات أعلى لأخذ عينات البيانات. كما يحتاج التعرف على المحادثات المنطوقة إلى العمل بشكل جيد حتى في السيناريوهات الصعبة التي تتخللها الكثير من الضوضاء في الخلفية مثل التجمعات أو الحفلات الموسيقية. وتحتاج البرمجة اللغوية العصبية إلى فهم المزيد من اللغات واللهجات. وسيساعد ذلك أيضاً على التقدم في مجالات أخرى، من بينها الروبوتات والذكاء الاصطناعي المتجسد والذكاء الاصطناعي متعدد الوسائط وكذلك الأشخاص على إنجاز مهام مفيدة في العالم الحقيقي.

تعد البنية التحتية للحوسبة عالية الأداء عنصرًا حاسمًا في تدريب مثل هذه النماذج الكبيرة وقد قام فريق أبحاث الذكاء الاصطناعي في “ميتا” ببناء هذه الأنظمة ذات القدرات المتفوقة لسنوات عديدة. ويحتوي الجيل الأول من هذه البنية التحتية المصممة في عام 2017 على 22 ألف وحدة معالجة رسومات NVIDIA V100 Tensor Core GPUs  في مجموعة واحدة تؤدي 35 ألف وظيفة تدريبية يوميًا. وحتى الآن، وضعت هذه البنية التحتية المعايير للباحثين لدى “ميتا” من حيث الأداء والموثوقية والإنتاجية.

وفي أوائل عام 2020، قررنا أن أفضل طريقة لتسريع التقدم في هذا المجال، تكمن في تصميم بنية أساسية جديدة للحوسبة من شريحة أثببت خلوها من الشوائب للاستفادة من وحدة معالجة الرسومات GPU الجديدة وتقنية نسيج الشبكة. وأردنا لهذه البنية التحتية أن تكون قادرة على تدريب النماذج التي تحتوي على أكثر من تريليون معامل ضمن مجموعات كبيرة من البيانات كإكسابايت. والتي توفر إحساساً بالحجم يعادل 36 ألف عام من مقاطع الفيديو عالية الجودة.

وبينما كان مجتمع الحوسبة عالية الأداء يتعامل مع قضية الحجم لعقود من الزمن، كان علينا أيضًا التأكد من توفر جميع ضوابط الأمان والخصوصية اللازمة لحماية أي بيانات تدريبية نستخدمها. وعلى عكس البنية التحتية السابقة لبحوث الذكاء الاصطناعي والتي استفادت فقط من مجموعات البيانات المفتوحة المصدر وغيرها من مجموعات البيانات المتاحة للجمهور. ستساعدنا الحواسيب الخارقة العاملة بالذكاء الاصطناعي (RSC) أيضًا على ضمان تحويل بحثنا إلى ممارسة عملية من خلال السماح لنا بتضمين أمثلة واقعية ناتجة عن أنظمة “ميتا” في تدريب النموذج. ومن خلال القيام بذلك، سنتمكن من المساعدة في تحقيق التقدم البحثي وأداء المهام النهائية، مثل تحديد المحتوى الضار على منصاتنا وكذلك أبحاث الذكاء الاصطناعي المتجسد والذكاء الاصطناعي متعدد الوسائط، للمساعدة في تحسين تجارب المستخدم على مجموعة تطبيقاتنا. ونعتقد أن هذه هي المرة الأولى التي يتم فيها التعامل مع مواضيع الأداء والموثوقية والأمان والخصوصية بهذا الحجم الضخم.

ويتم إنشاء الحواسيب الخارقة العاملة بالذكاء الاصطناعي من خلال الجمع بين العديد من وحدات معالجة الرسومات في العقد الحوسبة والتي يتم توصيلها بعد ذلك بواسطة نسيج شبكي متفوق الأداء، يسمح بالاتصال السريع بين وحدات معالجة الرسومات. وتضم الحواسيب الخارقة العاملة بالذكاء الاصطناعي اليوم ما مجموعه 760 نظامًا من أنظمة NVIDIA DGX A100 كعقد حسابية، ليصبح المجموع 6080 وحدة معالجة رسومات GPUs، مع الأخذ بعين الاعتبار أن كل وحدة معالجة رسومات A100 أقوى من V100 المستخدمة في نظامنا السابق. وتتواصل وحدات معالجة الرسومات عبر نسيج NVIDIA Quantum 200 Gb / s InfiniBand ثنائي المستوى والذي لا يعاني من الحمولات الزائدة. وتحتوي طبقة تخزين الحواسيب الخارقة العاملة بالذكاء الاصطناعي على 175 بيتابايت من Pure Storage FlashArray و46 بيتابايت من ذاكرة التخزين المؤقت في أنظمة Penguin Computing Altus و10 بيتابايت من Pure Storage FlashBlade.

وقد أظهرت القياسات المبكرة للحواسيب الخارقة العاملة بالذكاء الاصطناعي (RSC)، مقارنةً بالبنية التحتية البحثية والإنتاجية القديمة لشركة “ميتا”، أنها تدير تدفقات عمل رؤية الحاسوب بـقدرة أسرع 20 مرة، كما تدير مكتبة NVIDIA Collective Communication Library (NCCL)  أسرع بتسع مرات، وتدرب نماذج NLP كبيرة الحجم ثلاث مرات أسرع. وهذا يعني أن نموذجًا يحتوي على عشرات المليارات من المعاملات يمكنه إنهاء التدريب في ثلاثة أسابيع مقارنةً بتسعة أسابيع فيما مضى.

لا يتعلق تصميم وبناء شيء مثل الحواسيب الخارقة العاملة بالذكاء الاصطناعي(RSC) بالأداء وحده، بل بالأداء على أكبر نطاق، باستخدام أكثر التقنيات تقدمًا اليوم. وعند اكتمال بناء الحواسيب الخارقة العاملة بالذكاء الاصطناعي (RSC)، يقوم نسيج شبكة InfiniBand بتوصيل 16 ألف وحدة معالجة رسومات(GPUs) كنقاط نهاية، مما يجعلها واحدة من أكبر الأنسجة الشبكية حتى يومنا هذا. وبالإضافة إلى ذلك، قمنا بتصميم نظام التخزين المؤقت والتخزين الذي يمكن أن يخدم 16 تيرابايت في الثانية من بيانات التدريب. ونخطط لتوسيع نطاقه حتى 1 إكسابايت.

ومن المهم أن تتسم تلك البنية التحتية بالموثوقة والاستقرار، حيث من المرجح أن تستمر بعض التجارب لأسابيع وتتطلب الآلاف من وحدات معالجة الرسومات. وأخيرًا، يجب أن تكون تجربة استخدام حواسيب الذكاء الاصطناعي(RSCs) بأكملها ملائمة للباحثين، حتى تتمكن فرقنا بسهولة من استكشاف مجموعة واسعة من نماذج الذكاء الاصطناعي.

وتضمن ذلك في جزء كبير منه، العمل مع عدد من الشركاء القدامى، وقد ساعد جميعهم في تصميم الجيل الأول من البنية التحتية لحواسيب الذكاء الاصطناعي في عام 2017. وقد عملت Penguin Computing شريكنا في الهندسة المعمارية وإدارة الخدمات مع فريق العمليات الخاص على انجاز التكامل بين الأجهزة لبدء لتشغيل تلك الكتلة الحاسوبية الضخمة، كما ساعدوا في إنشاء أجزاء رئيسية من مستويات التحكم. كما زودتنا Pure Storage بحل تخزين قوي وقابل للتطوير. وقد زودتنا NVIDIA بتقنيات حوسبة الذكاء الاصطناعي الخاصة بها. والتي تتميز بأنظمة متطورة ووحدات معالجة رسومات ونسيج InfiniBand ومجموعة مكونات البرامج الخاصة بالكتلة الحاسوبية مثل NCCL.

وقد تم إنجاز ذلك عن بعد خلال فترة الجائحة.

وعلى الرغم من ذلك، فقد كانت هناك تحديات أخرى غير متوقعة نشأت خلال تطوير حواسيب أبحاث الذكاء الاصطناعي وتحديداً انتشار جائحة كورونا. وقد بدأ ذلك، كمشروع يدار بالكامل عن بعد، حيث شرع الفريق في التنفيذ بدءاً من مشاركة المستندات البسيطة وحتى عملية تشغيل الكتلة الحاسوبية على مدار نحو عام ونصف كامل. كما تسببت الجائحة في فرض قيود على توريد الرقائق الإلكترونية مما أسفر عن حدوث مشكلات في سلسلة التوريد، جعلت من الصعب الحصول على متطلبات أساسية ومكونات أخرى من بينها، البصريات ووحدات معالجة الرسومات وحتى مواد البناء. والتي كان يتوجب نقلها جميعًا وفقًا لبروتوكولات الأمان الجديدة. ولبناء هذه الكتلة على نحو فعّال وبكفاءة، كان علينا تصميمها من البداية وإنشاء العديد من الاصطلاحات الجديدة تمامًا الخاصة بـ “ميتا” على طول الطريق وإعادة التفكير في الاصطلاحات السابقة. بالإضافة إلى كتابة قواعد جديدة حول تصميمات مراكز البيانات، من بينها التبريد والطاقة وتصميم الحوامل والكابلات والشبكات. وشمل ذلك إنشاء منظومة تحكم جديدة تمامًا، وذلك من بين اعتبارات مهمة أخرى. وكان علينا التأكد من أن جميع الفرق، من البناء والأجهزة إلى البرمجيات والذكاء الاصطناعي، كانت تعمل بخطى ثابتة وبالتنسيق مع شركائنا.

وإلى جانب العمل على النظام الأساسي، كانت هناك حاجة أيضًا إلى وجود حل تخزين قوي يمكن أن يخدم كميات من التيرابايت بعرض النطاق الترددي الخاص بنظام التخزين على مستوى إكسابايت. وبهدف خدمة احتياجات النطاق الترددي والسعة المتزايدة للتدريب على الذكاء الاصطناعي، قمنا ومن الألف إلى الياء، بتطوير خدمات تخزين ومتجر أبحاث الذكاء الاصطناعي (AIRStore). ولتحسين نماذج الذكاء الاصطناعي يستخدم AIRStore مرحلة إعداد بيانات جديدة تعالج مجموعة البيانات مسبقًا لاستخدامها في مرحلة التدريب. وبمجرد الانتهاء من مرحلة التحضير والتي تقام لمرة واحدة فقط، يمكن استخدام مجموعة البيانات المعدة لأغراض التدريب المتعددة حتى انتهاء صلاحيتها. ويعمل AIRStore أيضًا على تحسين عمليات نقل البيانات بحيث يتم تقليل حركة المرور العابرة للمناطق على مستوى العمود الفقري لمركز بيانات “ميتا”.

كيف يمكن حماية البيانات في هذه الكتلة الضخمة من الحواسيب الخارقة لأبحاث الذكاء الاصطناعي (RSC)

لبناء نماذج ذكاء اصطناعي جديدة تفيد الأشخاص الذين يستفيدون من خدماتنا، سواء كان ذلك لاكتشاف المحتوى الضار أو إنشاء تجارب واقع افتراضي جديدة، فإننا بحاجة إلى تعليم النماذج باستخدام بيانات العالم الحقيقي الواردة من أنظمة الإنتاج لدينا. وقد تم تصميم الحواسيب الخارقة لأبحاث الذكاء الاصطناعي(RSC) من الألف إلى الياء مع مراعاة الخصوصية والأمان، بحيث يمكن لباحثي “ميتا” تدريب النماذج بأمان باستخدام البيانات المشفرة التي ينشئها المستخدمون. والتي لا يتم فك تشفيرها إلا قبل التدريب مباشرة. وعلى سبيل المثال، يتم عزل الكتلة الحاسوبية عن الإنترنت، مع عدم وجود اتصالات مباشرة واردة أو خارجية، حينها يمكن لحركة المرور أن تتدفق فقط من مراكز بيانات إنتاج “ميتا”.

ولتلبية متطلبات الخصوصية والأمان، يتم تشفير مسار البيانات بالكامل بطريقة “من طرف إلى طرف” بين أنظمة التخزين لدينا وحتى وحدات معالجة الرسومات والتأكد من وجود الأدوات والعمليات اللازمة للتحقق من تلبية هذه المتطلبات في جميع الأوقات. وقبل استعادة البيانات إلى الكتلة الحاسوبية الضخمة، يجب أن تخضع لعملية مراجعة الخصوصية للتأكد من أنها مجهولة المصدر بشكل صحيح. يتم بعد ذلك تشفير البيانات قبل استخدامها لتدريب نماذج الذكاء الاصطناعي. ويتم حذف مفاتيح فك التشفير بانتظام لضمان عدم استمرار الوصول إلى البيانات القديمة. ونظرًا لأن البيانات لا يتم فك تشفيرها إلا عند نقطة نهاية واحدة في الذاكرة، فيتم حمايتها حتى في حالة حدوث خرق فعلي للمنشأة. وذلك أمر بعيد الاحتمال.

المرحلة الثانية وما يليها

وعلى الرغم من أن التطوير ما يزال مستمرًا ، فقد بدأ تشغيل الحواسيب الخارقة لأبحاث الذكاء الاصطناعي(RSC). وبمجرد الانتهاء من المرحلة الثانية من بناء تلك الكتلة الضخمة من الحواسيب الخارقة (RSC)، فإننا نعتقد أنه سيكون أسرع حاسوب فائق الذكاء الاصطناعي في العالم، حيث يعمل بأداء يصل إلى نحو 5 إكسافلوبس من الحوسبة المختلطة في الدقيقة. وخلال عام 2022، سنعمل على زيادة عدد وحدات معالجة الرسومات من 6080 إلى 16 ألفاً، مما سيزيد من أداء وقدرات تدريب الذكاء الاصطناعي بأكثر من مرتين ونصف. وسيتوسع نسيج InfiniBand لدعم 16 ألف منفذ في هيكل من طبقتين بدون زيادة في التحميل. وسيكون لنظام التخزين عرض نطاق مستهدف يبلغ 16 تيرابايت في الثانية وسعة على نطاق إكسابايت لتلبية الطلب المتزايد.

ونتوقع أن يمكنّنا هذا التغيير في والظائف والقدرة الحسابية، من إنشاء نماذج ذكاء اصطناعي أكثر دقة لخدماتنا الحالية، وكذلك صناعة تجارب جديدة تمامًا للمستخدم، خاصة في عالم “ميتافيرس” وستساعدنا استثماراتنا طويلة الأجل في تعلم الآلة وفق القدرات الذاتية، في بناء الجيل التالي من البنية التحتية للذكاء الاصطناعي مع تلك الحواسيب الخارقة (RSC) وإنشاء التقنيات التأسيسية التي ستعمل على تعزيز عالم “ميتافيرس” وكذلك تعزيز مجتمع الذكاء الاصطناعي الأوسع.