الذكاء الاصطناعي يواجه عنق زجاجة جديد: طبقة ذاكرة سياقية بين GPU والتخزين

تتحول متطلبات تشغيل الذكاء الاصطناعي بسرعة من نماذج بسيطة للإجابة عن الأسئلة إلى أنظمة أكثر تعقيداً تعمل كـوكلاء متعددين الخطوات، يحتفظون بالسياق، ويستدعون الذاكرة، ويواصلون المهام عبر جلسات متفرقة. ومع هذا التحول، لم يعد الضغط الأكبر في البنية التحتية مرتبطاً بعدد وحدات المعالجة الرسومية أو كفاءتها وحدها، بل بكيفية إدارة السياق الذي يجب أن يبقى حياً بين كل استدعاء وآخر.

هذه النقطة أصبحت محوراً مهماً في النقاشات التقنية الخاصة بعام 2026، إذ تشير مؤشرات الصناعة إلى أن الزيادة السريعة في أحجام نوافذ السياق، وتنامي استخدام الأنظمة الوكيلة، واشتراط المؤسسات الاحتفاظ بحالة الاستدلال لأغراض التدقيق والحوكمة وإعادة الاستخدام، كلها تدفع بنية الذكاء الاصطناعي نحو طبقة جديدة من الذاكرة لم تكن مطلوبة بهذا الشكل من قبل.

من مشكلة الحوسبة إلى مشكلة السياق

في السنوات الماضية، انصبّ التركيز على تحسين أداء GPU، وتقليل تكلفة كل عملية حسابية، وتطوير محركات تقديم الاستدلال. لكن هذا التحسن نفسه كشف عن اختناق جديد: البيانات التي تمثل حالة الجلسة، والنتائج الوسيطة، وذاكرة الاسترجاع، أصبحت تنمو بوتيرة أسرع من قدرة الطبقات الحالية على استيعابها بكفاءة.

في الأنظمة الحديثة، لا يعود السؤال هو: كم استدعاءً يمكن للنموذج أن ينفذه؟ بل: أين تُحفظ حالته؟ وكيف تُستعاد بسرعة كافية كي لا تتعطل سلسلة العمل؟ عندما تضطر المنظومة إلى إعادة بناء السياق في كل مرة، فإنها تستهلك وقتاً وموارد حوسبة من دون إنتاج قيمة جديدة، وهو ما ينعكس مباشرة على تكلفة التشغيل والعائد على الاستثمار.

ولهذا ظهر منظور جديد لقياس الكفاءة يركز على المخرجات المفيدة لكل دولار، بدلاً من الاكتفاء بمقياس السرعة الخام أو عدد الرموز المولدة. فالمشكلة لم تعد في قدرة النموذج على التوليد فقط، بل في قدرة النظام الكامل على الاحتفاظ بما يولده وإعادة استخدامه بذكاء.

لماذا لا تكفي البنية التقليدية للتدريب

البنية التخزينية الشائعة في كثير من أنظمة الذكاء الاصطناعي صُممت أساساً لخدمة التدريب، لا الاستدلال. التدريب عادةً يكون تسلسلياً وكثيف الكتابة، وينقل البيانات على دفعات كبيرة بين التخزين الكتلي ووحدات المعالجة. هذه الآلية تناسب نمطاً يعتمد على المرور المنظم عبر البيانات، لكن الاستدلال يعمل بطريقة مختلفة تماماً.

الاستدلال الحديث يتسم بأنه دقيق، منخفض الكمون، وحساس للحالة. هناك أجزاء من البيانات يجب استدعاؤها فوراً، وأخرى يجب أن تبقى متاحة لإعادة الاستخدام عبر عدة خطوات أو جلسات. هذا النوع من الأحمال لا ينسجم بشكل مثالي لا مع ذاكرة HBM داخل GPU، لأنها مرتفعة الكلفة ومحدودة السعة، ولا مع التخزين التقليدي البعيد، لأنه لم يُصمم ليكون جزءاً نشطاً من مسار الاستدلال.

النتيجة هي فجوة معمارية في منتصف الطبقة التقنية، حيث تُطلب من طبقات التخزين والذاكرة أداء مهام لم تُبنَ أصلاً لهذا الغرض. ومن هنا بدأ الحديث الجاد عن طبقة وسيطة مخصصة للسياق.

طبقة ذاكرة سياقية جديدة بين GPU والتخزين

الاستجابة الأبرز لهذا التحول تتمثل في ظهور طبقة ذاكرة سياقية بين ذاكرة GPU والتخزين الشبكي التقليدي. هذه الطبقة تعتمد على وحدات تخزين عالية الكثافة وعالية الأداء، مصممة خصيصاً لحفظ وتقديم بيانات مثل KV cache وبيانات الاسترجاع بسرعة مناسبة لخطوط الاستدلال.

الفكرة ليست مجرد إضافة أقراص أسرع إلى الخوادم، بل إنشاء مستوى جديد في البنية المعمارية تكون مهمته الأساسية إبقاء حالة النموذج قابلة للاستدعاء فوراً، من دون اللجوء إلى إعادة الحساب. ومع أن هذا النهج ما يزال يتبلور في السوق، إلا أنه يكتسب ملامح واضحة تشبه ظهور التخزين الكائني سابقاً: فئة جديدة تولدت لأن أعباء العمل فرضت وجودها.

هذا التحول يعني أن مراكز البيانات المستقبلية لن تُصمم على افتراض وجود موقعين للتخزين فقط، بل على الأقل ثلاثة: داخل الخادم، وفي طبقة السياق، وفي التخزين الشبكي الأوسع. وبالنسبة لفرق البنية التحتية، فإن هذا ليس خياراً تجريبياً بقدر ما هو تغيير في طريقة التفكير في بناء المنظومة من الأساس.

ما الذي يجب أن تقدمه أقراص التخزين لخدمة الذكاء الاصطناعي

دخول التخزين إلى قلب مسار الاستدلال يفرض عليه متطلبات مختلفة عن تلك التي اعتاد عليها في أعباء العمل التقليدية. أول هذه المتطلبات هو ثبات الأداء في أسوأ الحالات، وليس فقط السرعة المتوسطة. فأنظمة التنسيق التي توزع أعباء العمل على GPU حسب توقيت الاستجابة المتوقع لا يمكنها تحمل تأخيرات مفاجئة أو قفزات غير متوقعة في الكمون.

المطلب الثاني هو الكثافة. في بيئات التشغيل واسعة النطاق، لا تكون التكلفة وحدها هي القيد الحاسم، بل الطاقة أيضاً. لذلك تصبح مؤشرات مثل الواط لكل بيتابايت أكثر أهمية من مجرد السعة الاسمية. كما تزداد أهمية تقنيات الربط الشبكي مثل NVMe over Fabrics وRDMA، إلى جانب دعم معماريات أكثر تقدماً في المستقبل، لأن طبقة السياق يجب أن تتواصل مع المسرّعات بسرعة شديدة ومن دون عنق زجاجة إضافي.

بعبارة أخرى، لم يعد التحدي هو تخزين البيانات فقط، بل تخزينها بطريقة تجعلها مستعدة للاستهلاك الفوري داخل خط الاستدلال.

ماذا يعني ذلك للمؤسسات وقادة البنية التحتية

الرسالة الأوضح للمؤسسات التي تبني أنظمة ذكاء اصطناعي اليوم هي أن التخطيط للبنية التحتية لم يعد يمكن أن يستند إلى نموذج الحوسبة وحده. فإذا كانت الجهود تركز على إضافة المزيد من GPU من دون إعادة التفكير في طبقة السياق، فإن جزءاً كبيراً من الاستثمار قد يضيع في إعادة الحساب أو في سوء استغلال الموارد.

الطبقة الجديدة من التخزين السياقي قد تخفف الاعتماد على الذاكرة عالية التكلفة داخل المسرّعات، وتسمح باستخدام الموارد بشكل أكثر توازناً. كما أنها قد تصبح جزءاً دائماً من بنية مراكز البيانات، تماماً كما حدث مع بعض الطبقات التخزينية التي لم تكن موجودة قبل أن تفرضها طبيعة التطبيقات الحديثة.

من هنا، يصبح السؤال الأهم في المرحلة المقبلة ليس ما إذا كانت نماذج الذكاء الاصطناعي تحتاج إلى حوسبة أكثر، بل ما إذا كانت تستطيع استخدام الحوسبة الحالية بكفاءة أعلى. والإجابة عن هذا السؤال تمر بدرجة كبيرة عبر طبقة الذاكرة السياقية التي بدأت تتشكل الآن، والتي قد تحدد شكل بنية الاستدلال لسنوات قادمة.

الذكاء الاصطناعي يقترب من عنق زجاجة جديد: طبقة ذاكرة سياقية بين GPU والتخزين السحابي

من مشكلة الحوسبة إلى مشكلة السياق

لماذا لا تكفي البنية التقليدية للتدريب

طبقة ذاكرة سياقية جديدة بين GPU والتخزين

ما الذي يجب أن تقدمه أقراص التخزين لخدمة الذكاء الاصطناعي

ماذا يعني ذلك للمؤسسات وقادة البنية التحتية

المواضيع

من مشكلة الحوسبة إلى مشكلة السياق

لماذا لا تكفي البنية التقليدية للتدريب

طبقة ذاكرة سياقية جديدة بين GPU والتخزين

ما الذي يجب أن تقدمه أقراص التخزين لخدمة الذكاء الاصطناعي

ماذا يعني ذلك للمؤسسات وقادة البنية التحتية

المواضيع

مقالات أخرى في قسم الذكاء الاصطناعي والتقنية