آبل تتجاوز سقف الذاكرة في الذكاء الاصطناعي على الجهاز مع AFM 3

بنية جديدة تكسر عائق الذاكرة في الذكاء الاصطناعي المحلي

لطالما واجهت نماذج الذكاء الاصطناعي التي تعمل مباشرة على الأجهزة المحمولة أو الحواسيب الشخصية سقفاً واضحاً: كلما ازداد حجم النموذج، احتاج إلى ذاكرة تشغيل أكبر، وهو ما جعل تشغيل النماذج الضخمة محلياً أمراً صعباً أو غير عملي. هذا القيد كان يدفع الشركات غالباً إلى الاختيار بين نموذج صغير يعمل على الجهاز، أو نموذج أقوى يعتمد على السحابة.

آبل قدمت في الجيل الثالث من نماذجها الأساسية نهجاً مختلفاً يستهدف هذا الاختناق تحديداً. الفكرة الرئيسية تقوم على نقل أوزان النموذج من الذاكرة الرئيسية DRAM إلى ذاكرة NAND flash، بحيث لا تعود سعة RAM هي العامل الحاسم الوحيد في حجم النموذج الذي يمكن تشغيله محلياً.

هذا التحول مهم لأنه يفتح الباب أمام فئة جديدة من التطبيقات الوكيلية والمهام المعقدة على الجهاز نفسه، من دون الاعتماد الكامل على الاتصال المستمر بالخادم. وفي سياق الأعمال المؤسسية، قد يغيّر ذلك طريقة تقييم فرق التقنية لقدرات الذكاء الاصطناعي المحلي مقابل السحابي.

كيف تعمل بنية AFM 3 Core Advanced

النسخة المحلية الأبرز في هذه العائلة تحمل اسم AFM 3 Core Advanced، وهي نموذج يضم 20 مليار معامل. لكن ما يميزها ليس الحجم فقط، بل طريقة توزيعها على الذاكرة. فبدلاً من تحميل كامل الأوزان إلى DRAM كما يحدث عادة في النماذج المحلية، تحتفظ آبل بالوزن الكامل داخل NAND flash، ثم تستخدم ذاكرة العمل فقط للجزء المطلوب من النموذج عند تنفيذ المهمة.

الآلية هنا تعتمد على نوع من التوجيه الذكي للخبراء. بدلاً من تبديل الخبراء مع كل رمز جديد يُنتَج، وهي طريقة تتطلب نقل بيانات سريعاً جداً بين الطبقات التخزينية، يتم اتخاذ القرار مرة واحدة عند وصول الطلب. بعدها تُحمَّل مجموعة ثابتة من الخبراء إلى DRAM ويُستكمل التوليد باستخدامها طوال الاستجابة.

هذه المقاربة تعكس إدراكاً مباشراً لواقع العتاد الاستهلاكي: سرعة النقل بين NAND وDRAM لا تسمح بتبديل الوزن لحظة بلحظة كما تتطلب بعض البنى التقليدية. لذلك اختارت آبل أن تجعل التوجيه على مستوى الطلب الكامل، لا على مستوى كل رمز.

من 1 مليار إلى 4 مليارات معامل نشطة بحسب المهمة

إحدى النقاط اللافتة في التصميم الجديد هي أن النموذج لا يعمل دائماً بالحجم الفعلي نفسه، بل يغير عدد المعاملات النشطة وفقاً لتعقيد المهمة. في الطلبات البسيطة، يمكن أن يستخدم نحو مليار معامل فقط، بينما قد يرتفع العدد إلى 4 مليارات في المهام الأكثر صعوبة.

هذا النوع من التدرج في النشاط الحسابي يمنح النموذج مرونة أكبر من التشغيل الثابت. فبدلاً من دفع الجهاز إلى تنفيذ عبء كامل في كل مرة، تتم مواءمة الموارد مع المطلوب فعلياً. ومن الناحية الهندسية، هذا يعني توازناً أدق بين الأداء واستهلاك الذاكرة والحرارة والطاقة.

كما أن وجود 20 مليار معامل مخزنة في flash لا يعني أن الجهاز يتعامل معها كلها في كل لحظة. الفارق هو أن مجموعة أكبر من الخبراء متاحة للاختيار، لكن ما يتم تنشيطه فعلياً يظل محدوداً بحسب الحاجة، وهو ما يساعد على جعل الفكرة قابلة للتطبيق على العتاد الاستهلاكي.

لماذا يهم هذا النهج المؤسسات والمطورين

بالنسبة للمؤسسات التي تدرس نشر وكلاء ذكاء اصطناعي داخل بيئات خاضعة للرقابة، فإن هذا التطور لا يتعلق فقط بالأداء، بل أيضاً بمكان تنفيذ الاستدلال. فوجود نموذج محلي أكبر وأكثر قدرة يخفف الاعتماد على السحابة في بعض السيناريوهات، خاصة عندما تكون الخصوصية أو زمن الاستجابة أو الاتصال المحدود عوامل حساسة.

لكن الصورة ليست كاملة بعد. آبل لم تكشف جميع المعايير التشغيلية التي يحتاجها مطورو المؤسسات لتقييم القرار بصورة نهائية. لا تزال هناك أسئلة مهمة حول استهلاك الطاقة، وعرض النطاق، والحرارة، وكيفية التعامل مع التحويل بين المعالجة المحلية والسحابية في الحالات المعقدة.

كما أن الوثائق المتاحة لا توضح بدقة متى ينتقل الطلب إلى المعالجة السحابية، أو ما إذا كان هذا التحويل يظهر للمطورين أو المستخدمين. هذه الثغرة قد تكون مؤثرة في البيئات التنظيمية التي تحتاج إلى توثيق واضح لمكان معالجة البيانات.

السحابة الخاصة والاعتماد على Google Cloud

تتضمن عائلة AFM 3 جانباً سحابياً أيضاً، وليس فقط جانباً محلياً. فالنماذج الخمسة التي أعلنتها آبل تشمل نموذجين يعملان على الجهاز وثلاثة تعمل على الخوادم ضمن حدود Private Cloud Compute الخاصة بآبل. ومن بين هذه النماذج يوجد AFM 3 Cloud Pro المخصص للمهام الوكيلية الأكثر تعقيداً والاستدلال المتقدم واستخدام الأدوات.

هذا النموذج السحابي يعمل على وحدات معالجة رسومية من Nvidia داخل Google Cloud، وهو ما يعني أن طبقة الخصوصية التي تقدمها آبل لا تلغي الاعتماد الفعلي على Google Cloud في جانب الاستدلال السحابي. بمعنى آخر، البنية أصبحت أكثر مرونة، لكنها ليست مستقلة بالكامل عن طرف خارجي في كل الحالات.

في سياق الهندسة المؤسسية، هذه النقطة أساسية: المؤسسات التي تفكر في استخدام نماذج آبل الجديدة لا تنظر فقط إلى قدرات النموذج، بل أيضاً إلى مسار البيانات، وحدود الخصوصية، ومكان تشغيل كل طبقة من طبقات المعالجة.

ما الذي يعنيه ذلك لمستقبل الذكاء الاصطناعي على الجهاز

الأهمية الحقيقية لهذه البنية أنها توسع تعريف الممكن على الأجهزة الشخصية. فبدلاً من أن يكون الحد الأقصى للنموذج مرتبطاً بقدرة RAM فقط، أصبح بالإمكان التفكير في تركيبة تخزين وحوسبة أكثر تعقيداً تسمح بإبقاء الوزن الكامل في flash واستخدامه بشكل انتقائي.

هذا لا يحل كل القيود بالطبع. فزمن الوصول إلى NAND أبطأ من الذاكرة الرئيسية، والآلية الجديدة تحتاج إلى تصميم دقيق حتى لا تتحول إلى عنق زجاجة آخر. لكن مجرّد نجاح آبل في طرح نموذج محلي بحجم 20 مليار معامل وفق هذا الأسلوب يعد تحولاً لافتاً في هندسة النماذج على الأجهزة.

المحصلة أن سوق الذكاء الاصطناعي على الجهاز قد يدخل مرحلة جديدة، تصبح فيها المسألة أقل ارتباطاً بحدود الذاكرة التقليدية وأكثر ارتباطاً بكفاءة توزيع الأوزان، والتوجيه، وإدارة الطاقة. وإذا أثبتت آبل فعالية هذا النهج في الاختبارات العملية المقبلة، فقد يدفع ذلك شركات أخرى إلى تبني حلول مشابهة لتجاوز القيود نفسها.

ورغم أن التفاصيل النهائية حول الأداء الفعلي ما زالت غائبة، فإن الرسالة التقنية واضحة: النماذج المحلية لم تعد مضطرة للبقاء ضمن حدود صغيرة فقط لأن DRAM لا تتسع لها، بل يمكن إعادة تصميم المعمارية نفسها لتوسيع ما يمكن تشغيله مباشرة على الجهاز.