من قياس الطلبات إلى قياس التوكنات
يدخل الذكاء الاصطناعي مرحلة جديدة لم تعد فيها مؤشرات الأداء التقليدية كافية لتفسير ما يجري داخل الأنظمة. ففي الماضي، كانت البنية الرقمية تُقاس غالباً بعدد الطلبات في الثانية، وهو معيار مناسب لعصر الويب والخدمات السحابية. كان الطلب يصل، ثم يعود الرد، ويمكن على أساس هذا النمط تقدير السعة والتوسع والتكلفة.
أما اليوم، فقد تبدلت القاعدة. في أنظمة الذكاء الاصطناعي التوليدي لم يعد الطلب هو الوحدة الأساسية، بل التوكن. فكل إدخال وكل مخرج وكل خطوة استدلالية تتحول إلى مجموعة من التوكنات التي تعبّر عن مقدار العمل الذي يؤديه النظام، وعن التكلفة التي يستهلكها، وأحياناً عن القيمة التي يضيفها. ولهذا أصبحت مؤشرات مثل عدد التوكنات في الثانية، والتكلفة لكل توكن، والعائد لكل توكن جزءاً من لغة الصناعة الجديدة.
لكن هذا الانتقال، رغم أهميته، يحمل معه خطراً واضحاً: الخلط بين القياس وبين القيمة الفعلية. فمجرد القدرة على عدّ التوكنات لا يعني بالضرورة فهم ما إذا كانت هذه التوكنات تنتج معرفة مفيدة، أو أتمتة حقيقية، أو أثراً مالياً مباشراً داخل المؤسسة.
لماذا لا تعني كثرة التوكنات قيمة أكبر
بدأت تسود في سوق الذكاء الاصطناعي فكرة مبسطة تقول إن التوكنات أصبحت أشبه بعملة جديدة، وأن زيادة حجمها تعني زيادة الذكاء، وبالتالي زيادة الإيراد. هذه الفكرة جذابة لأنها تمنح الشركات معياراً واضحاً يمكن تسويقه وقياسه، لكنها لا تلتقط الصورة الكاملة.
ليست كل التوكنات متساوية في المعنى أو الأثر. فبعضها يمثل عملاً إنتاجياً حقيقياً: تحليل بيانات، دعم قرارات، توليد ملخصات تساعد فرق العمل، أو أتمتة إجراءات توفر وقتاً وتكاليف. وبعضها الآخر لا يتجاوز مرحلة التجريب أو الاستخدام العابر، مثل اختبارات داخلية أو محادثات لا تتحول إلى عمليات تشغيلية.
يمكن أن تنتج فرق مختلفة داخل المؤسسة أعداداً متقاربة من التوكنات، لكن القيمة التي تخلقها قد تكون متباينة تماماً. فريق يستخدم الذكاء الاصطناعي في دعم عمليات العملاء أو تطوير البرمجيات قد يحقق أثراً مباشراً على الإنتاجية، بينما فريق آخر يستهلك الحجم نفسه تقريباً في تجارب أولية لا تغادر المختبر الداخلي. لذلك فإن مساواة كل التوكنات ببعضها يؤدي إلى قراءة مضللة للأداء.
الرسالة الأساسية هنا واضحة: المؤسسات لا تُبنى على حجم التوكنات، بل على ما تسمح به هذه التوكنات من نتائج فعلية قابلة للقياس.
السياق هو ما يفسر الفارق في الأداء
من أبرز الأسباب التي تجعل قياس التوكنات وحده غير كافٍ أن الذكاء الاصطناعي الحديث لا يعمل كل مرة كأنه يبدأ من الصفر. فإذا جرى استخدام أداة محادثة أو نظام توليدي، ستلاحظ غالباً أن السؤال الثاني يأتي أسرع من الأول. هذا لا يعني أن النموذج أصبح أذكى فجأة، بل إن النظام استعاد جزءاً من السياق السابق، واستفاد منه في التسريع.
الأنظمة الحديثة تحتفظ بسياق المحادثة داخل آليات تخزين قريبة من المعالج الرسومي، مثل ذاكرة KV cache، بحيث يمكن الرجوع إليها بسرعة عند توليد الردود اللاحقة. هذه الآلية تقلل زمن الاستجابة وتزيد السلاسة، لكنها في المقابل ترفع متطلبات الذاكرة وتزيد الضغط على البنية التحتية كلما اتسعت نافذة السياق.
ومع توسع نوافذ السياق من آلاف التوكنات إلى مئات الآلاف، بل إلى ملايين أحياناً، يصبح السؤال التقني أكثر تعقيداً: ما الذي يجب الاحتفاظ به؟ وما الذي يمكن ضغطه؟ وما الذي ينبغي التخلي عنه؟ هنا يتضح أن الأداء ليس مسألة نموذج فقط، بل مسألة إدارة ذكية للسياق والذاكرة والموارد.
بمعنى آخر، النظام لا يُقاس فقط بما يكتبه، بل بما يستطيع تذكره واستخدامه وتوظيفه في الوقت المناسب.
الطاقة أصبحت الحد الفاصل في اقتصاد الذكاء الاصطناعي
كلما انتقلت الشركات من التجارب المحدودة إلى التشغيل على نطاق واسع، ظهر عامل جديد يفرض نفسه بقوة: الطاقة. فالسؤال لم يعد يقتصر على أي نموذج يحقق أفضل نتيجة، بل على كيفية تشغيل هذا النموذج بشكل مستمر من دون أن تتحول البنية إلى عبء مادي وتشغيلي كبير.
مراكز البيانات التي تستضيف أحمال الذكاء الاصطناعي تواجه اليوم تحديات مرتبطة بالكهرباء والتبريد وعرض النطاق في الذاكرة. وهذه ليست تفاصيل ثانوية، بل عناصر تحدد حدود التوسع نفسها. فأنظمة الذكاء الاصطناعي لا تنمو بشكل خطي وسلس، بل تضاعف الضغط على الحوسبة والذاكرة والشبكات في الوقت نفسه.
كل توكن يتم إنتاجه يحمل تكلفة تتجاوز قدرة المعالجة المجردة. هناك استهلاك كهربائي، وتبريد يجب الحفاظ عليه، وبنية مادية يجب أن تعمل تحت ضغط متواصل، إضافة إلى الحفاظ على الأداء دون تدهور. لذلك تصبح الطاقة في مراحل كثيرة من التشغيل هي الميزانية الحقيقية، لا مجرد بند فرعي في قائمة التكاليف.
هذا التحول يفسر لماذا بدأت بعض المؤسسات الكبيرة تعيد تصميم بنيتها كما لو كانت أقرب إلى شركة مرافق أو بنية تحتية حرجة، لا مجرد شركة برمجيات تقليدية.
المستقبل لن يكون للأكبر دائماً بل للأذكى في التوزيع
خلال الفترة الماضية، انصبّ جزء كبير من النقاش في قطاع الذكاء الاصطناعي على مقارنة النماذج: من الأقوى، ومن الأسرع، ومن الأعلى في الاختبارات المعيارية. لكن التشغيل الفعلي داخل المؤسسات يروي قصة مختلفة. فالأهمية تتحول تدريجياً من السؤال عن النموذج الأفضل إلى السؤال عن أفضل نظام لتشغيل مجموعة نماذج معاً.
النهج الأحدث يعتمد على توزيع العمل بين نماذج كبيرة وصغيرة، بحيث تُرسل المهام البسيطة إلى النماذج الأكثر كفاءة، بينما تُخصص المهام المعقدة للنماذج الأكبر قدرة على الاستدلال. كما تُستخدم آليات إعادة توظيف السياق، والتخزين المؤقت، وتوجيه الأحمال بهدف تقليل التكلفة وتحسين زمن الاستجابة وزيادة الإنتاجية.
هذا يعني أن التفوق لا يأتي بالضرورة من الانتقال إلى نموذج أضخم، بل من بناء منظومة تشغيلية تعرف كيف تدير مواردها. في هذه المنظومة، تبقى التوكنات وحدة العمل الأساسية، لكن القيمة الحقيقية تنشأ من طريقة إدارتها وتوزيعها وربطها بسير العمل الفعلي.
وبالنسبة للشركات، هذا يغيّر طريقة التفكير في الاستثمار: فالمردود لا يرتبط فقط بقوة النموذج، بل بكفاءة النظام الذي يحيط به.
الطبقة الوسطى في الذكاء الاصطناعي هي الأكثر حسماً
غالباً ما يُقدَّم الذكاء الاصطناعي على أنه طبقتان واضحتان: نماذج في الأعلى، وتطبيقات في الأسفل. لكن الواقع التشغيلي أكثر تعقيداً من ذلك. فهناك طبقة وسيطة هي التي تربط الطلبات بالنماذج، وتنظم تدفقها، وتفرض السياسات، وتتعامل مع المخاطر، وتحافظ على الاتساق والأمان.
هذه الطبقة لا تنقل البيانات فقط، بل تشكلها أيضاً. فهي تحدد إلى أين تذهب الطلبات، وكيف يُعاد ترتيبها، وما الذي يُسمح به، وما الذي يجب منعه، وكيف يمكن الحفاظ على الثقة عند التوسع. ومع ازدياد التعقيد، لم يعد ممكناً الاعتماد على حلول متفرقة تُجمع لاحقاً بشكل مؤقت؛ بل أصبحت الحاجة أكبر إلى منصة موحدة تدير هذه الوظائف في الزمن الحقيقي.
في هذه النقطة تحديداً، تتقاطع الكفاءة مع الحوكمة. فالبنية القادرة على خفض التكلفة، وتحسين الأداء، وتطبيق الضوابط الأمنية، هي نفسها التي تضمن أن يكون الذكاء الاصطناعي قابلاً للتشغيل المستدام داخل المؤسسة.
ماذا يعني ذلك للمؤسسات اليوم
الدرس الأهم للمؤسسات هو أن الذكاء الاصطناعي لم يعد مشروع نموذج منفرد، بل مشروع بنية كاملة. فمن يريد الانتقال من التجربة إلى الإنتاج يحتاج إلى ما هو أبعد من اختيار نموذج قوي أو تتبع عدد التوكنات. يحتاج إلى فهم كيفية توجيه الطلبات، وكيفية إدارة السياق، وكيفية توزيع الأحمال، وكيفية فرض السياسات عبر كل خطوة من خطوات العملية.
الاعتماد على مؤشرات سطحية مثل حجم التوكنات أو سرعة الاستجابة قد يمنح انطباعاً جيداً في البداية، لكنه لا يضمن الاستدامة تحت الضغط الفعلي. أما النجاح الحقيقي فيأتي من تصميم المنظومة بحيث تكون قابلة للقياس، قابلة للتحكم، وقادرة على العمل بكفاءة في بيئات الإنتاج المعقدة.
لهذا أصبح من الضروري أن تنظر الشركات إلى الذكاء الاصطناعي باعتباره سلسلة مترابطة من القرارات التقنية والتشغيلية، لا مجرد واجهة ذكية أمام المستخدم النهائي.
الخلاصة: التوكنات أداة قياس وليست المنتج النهائي
تقدم التوكنات للقطاع وسيلة مفيدة لفهم ما كان يبدو سابقاً غامضاً. فهي تساعد على قياس العمل، ومقارنة الأداء، وتقدير التكلفة. لكن هذا لا يجعلها الصورة الكاملة أو المعيار النهائي للحكم على النجاح.
المرحلة التالية من الذكاء الاصطناعي لن تُحسم بمن ينتج أكبر عدد من التوكنات، بل بمن يفهم ما تمثله هذه التوكنات داخل النظام ككل، ومن يستطيع تحويلها إلى نتائج ذات معنى وبأقل تكلفة ممكنة. فالتوكنات ليست المنتج النهائي، بل الأثر الجانبي لذكاء يجري توليده داخل بنية معقدة.
وعندما تُقرأ بهذه الطريقة، تصبح مسألة التوكنات أقل ارتباطاً بالضجيج، وأكثر اتصالاً بالسؤال الجوهري: كيف تبني مؤسسة ذكاءً اصطناعياً يعمل بكفاءة، ويستمر، ويضيف قيمة فعلية؟