دراسة كندية: الذكاء الاصطناعي يرصد مؤشرات الخطر على أرصفة المترو قبل وقوع الحوادث

أصبحت كاميرات المراقبة في محطات النقل العام أكثر من مجرد أدوات أمنية تقليدية، إذ باتت تُستخدم أيضاً ضمن أبحاث الذكاء الاصطناعي لتحليل السلوك البشري في الزمن الحقيقي. وفي دراسة كندية حديثة، عرض الباحثون إطاراً يعتمد على الرؤية الحاسوبية وتعلّم الآلة لتقدير احتمال وجود سلوك شديد الخطورة على أرصفة المترو، من خلال تتبع حركة الركاب ورصد أنماط الوقوف والاقتراب من الحافة والنظر المتكرر نحو نفق القطار.

وتقوم الفكرة الأساسية على تحويل الفيديو المباشر إلى سلسلة من المؤشرات القابلة للقياس، ثم دمجها في درجة خطر متغيرة باستمرار لكل شخص داخل المشهد. هذا النوع من الأنظمة لا يكتفي بالتعرف على الأجسام أو الأشخاص، بل يحاول فهم السياق المكاني والزمني للحركة، وهو ما يمنحه قيمة محتملة في تطبيقات السلامة العامة، وفي الوقت نفسه يضعه أمام أسئلة حساسة تتعلق بالدقة والخصوصية وقابلية الاعتماد.

من مراقبة المشهد إلى تقدير الخطر

العمل البحثي الكندي يقدّم ما يشبه خط إنتاج تحليلياً يبدأ باكتشاف الأشخاص داخل الفيديو ثم تتبعهم عبر الإطارات المتتالية، قبل تحويل كل شخص إلى تمثيل مبسط لحركته الجسدية. بعد ذلك يجري تحليل الأفعال القصيرة المدى، مثل المشي أو الوقوف أو التحديق باتجاه النفق، ثم تُربط هذه الأفعال بموقع الفرد داخل المنصة وطبيعة المسارات التي يسلكها.

بدلاً من التعامل مع المنصة كمشهد واحد غير منظم، يقسم النظام الرصيف إلى مناطق ذات دلالة سلوكية. فهناك منطقة قريبة من الجدار، ومنطقة قرب الخط الأصفر، ومنطقة عند الطرف الأقرب إلى النفق. هذا التقسيم يسمح باستنتاج سلوكيات أكثر معنى، مثل التردد المتكرر بين مناطق مختلفة أو البقاء لفترات أطول من المعتاد في منطقة مرتبطة بمخاطر أعلى.

ويُنتج النظام في النهاية درجة تقديرية للمخاطر لكل فرد، مع تحديثها بشكل مستمر كلما ظهرت معلومات جديدة في الفيديو. هذا الأسلوب يختلف عن النماذج التي تحاول استنتاج النية مباشرة من لقطة واحدة، لأنه يراكم المؤشرات تدريجياً ويعطي وزناً أكبر للتكرار والمدة والموقع والاتجاه الحركي.

البيانات المستخدمة وأهمية ندرتها

اعتمد الباحثون على تعاون مع هيئة النقل في مونتريال للحصول على مقاطع حقيقية من كاميرات الرصيف. وتضم قاعدة البيانات 66 تسجيلاً مدته خمسة دقائق التقطت قبل محاولات انتحار حقيقية، إلى جانب 56 تسجيلاً مقابلاً من المواقع نفسها وفي أوقات مشابهة، لكن دون وقوع محاولة.

وبعد المراجعة والتوسيم بمساعدة مختصين في علم النفس والسلوك الانتحاري، جرى تصنيف 256 شخصاً داخل المقاطع، منهم 66 ارتبطوا بحالات محاولة، بينما عُدّ 190 ضمن المجموعة الضابطة. وتُعد هذه البيانات نادرة للغاية، لأن الحصول على مشاهد حقيقية من هذا النوع يواجه عوائق أخلاقية وقانونية وتنظيمية واضحة، كما أن حجمها المحدود يجعل تدريب النماذج أكثر صعوبة بسبب اختلال التوازن بين الفئتين.

ولمواجهة هذا التحدي، استخدم الباحثون أساليب تعويضية أثناء التدريب، مع الحرص على ألا تتسرب المعلومات من المقطع نفسه إلى أكثر من مجموعة تدريب أو اختبار. كما جرى تخصيص جزء من البيانات للتدريب وجزء آخر للاختبار، لضمان قياس أقرب ما يكون إلى الأداء الواقعي عند تطبيق النظام على لقطات جديدة.

المكونات التقنية داخل النظام

في طبقة الاكتشاف البصري، استُخدم نموذج YOLOX الجاهز لتحديد الأشخاص داخل المشهد، بينما تولّت ByteTrack مهمة تتبع الأفراد عبر الزمن. أما تقدير الوضعيات فاستند إلى HRNet، وهو نموذج يعطي تمثيلاً هيكلياً لجسم الشخص عبر نقاط مفصلية تساعد على فهم الحركة بشكل أدق من مجرد صندوق يحيط به.

ولإضافة السياق المكاني، استعان الفريق بنموذج تقسيم دلالي من فئة YOLOv8n لتحديد الحدود والملامح المهمة داخل الرصيف. وبهذه الطريقة، لا يعود تحليل الفيديو مقتصراً على ما يفعله الشخص فقط، بل يشمل أيضاً مكانه بالنسبة للحافة والجدار والطرف القريب من النفق. هذا الدمج بين الحركة والمكان هو ما يتيح بناء ما يشبه الخريطة السلوكية للمنصة.

كما استند العمل إلى إطار سابق يُعرف باسم STARR، جرى توظيفه هنا لتمييز ثلاث فئات سلوكية أساسية: النظر نحو النفق، والمشي، والوقوف. ومن خلال هذه الفئات، ثم دمجها مع خرائط المسار والتموضع، ينتقل النظام من وصف المشهد إلى إنتاج تقدير مخاطر يمكن تفسيره نسبياً، بدل أن يكون مجرد ناتج رقمي غير مفهوم.

خرائط المخاطر ودورها في التفسير

أحد الجوانب اللافتة في الدراسة هو استخدام خرائط حرارية تجمع تحركات عدة أفراد مصنفين على أنهم ضمن حالات عالية الخطورة. هذه الخرائط تكشف المناطق التي تتكرر فيها أنماط مثل التردد أو البقاء الطويل أو الحركة المتكررة بين نقاط معينة، ما يسمح ببناء ما يشبه خريطة خطر على مستوى الرصيف كله.

وبحسب هذا المنطق، لا تصبح كل النقاط على المنصة متساوية من حيث المعنى السلوكي. فبعض المواقع قد تتكرر فيها أنماط مثيرة للانتباه أكثر من غيرها، وهذا ما يمنح النظام ميزة إضافية عند تقييم موقع الشخص، لا سيما إذا تزامن ذلك مع سلوكيات أخرى مثل الوقوف على الخط الأصفر أو التحرك ذهاباً وإياباً بين الحافة والجدار.

النقطة المهمة هنا أن التقييم النهائي لا يعتمد على إشارة واحدة، بل على مجموعة مؤشرات متراكمة. وتشمل هذه المؤشرات: درجة المخاطر المرتبطة بالموقع، والوقوف أو المشي على الخط الأصفر، وعدد مرات عبور هذا الخط، والوقت الإجمالي الذي قضاه الشخص عليه، وأطول مدة متصلة في تلك المنطقة، والتوجه المتكرر نحو النفق، والدخول إلى الطرف الأقرب إليه.

النتائج: أداء واعد مع هامش تحسين واضح

في الاختبارات، حققت النسخة المؤتمتة بالكامل من النظام قيمة ROC-AUC بلغت 0.832، وهي نتيجة تشير إلى قدرة جيدة على التمييز بين الحالات عالية الخطورة والحالات الضابطة. وعندما استُبدلت بعض مكونات الكشف والتتبع ببيانات أرضية مثالية، ارتفع الأداء إلى 0.919، ما يوحي بأن مصدر التراجع الأكبر لا يكمن في التصنيف النهائي بقدر ما يرتبط بمرحلة الرصد الأولي للحركة والشخصيات داخل الفيديو.

كما أظهر التحليل أن بعض العلامات كانت أكثر تأثيراً من غيرها في قرار النموذج، وفي مقدمتها التفاعل المباشر مع الخط الأصفر، ثم عدد مرات عبوره، يلي ذلك التنقل المتكرر بين مناطق الرصيف. كما ساهمت مدة البقاء على الخط الأصفر ودرجة المخاطر المرتبطة بالموقع، بينما لعبت الإشارات المرتبطة بالتوجه نحو النفق دوراً إضافياً لكنه أقل حسماً.

ومن الناحية النوعية، أظهر النظام قدرة على إعطاء درجات مرتفعة للأفراد الذين ارتبطوا لاحقاً بمحاولات حقيقية، في حين بقيت التقديرات أقل بكثير لدى المارة أو الركاب الآخرين في المشهد نفسه. وتُعد هذه النقطة أساسية لأن القيمة العملية لمثل هذا النظام لا تقاس فقط بنسبة الدقة، بل بقدرته على الفصل بين السلوك العادي والسلوك الذي يستدعي تدخلاً مبكراً.

حدود التطبيق والتحديات الأخلاقية

رغم النتائج المشجعة، تظل هناك حدود تقنية واضحة. فالمشهد في محطات المترو غالباً ما يضم أشخاصاً بحجوم صغيرة على الكاميرا، ما يجعل قراءة تفاصيل مثل اتجاه النظر أمراً صعباً. لذلك يعتمد النظام جزئياً على اتجاه الجسم كله بوصفه بديلاً عن تتبع العين أو الوجه، وهو حل عملي لكنه أقل دقة من حيث الاستدلال على النية.

وتبقى أيضاً مسألة الخصوصية في صميم أي استخدام واسع لهذا النوع من التقنيات. فحتى لو كان الهدف هو الوقاية والحماية، فإن تحويل المراقبة إلى أداة لتقدير المخاطر الفردية يفرض ضوابط مشددة على التخزين والمشاركة والوصول والاستخدام. كما أن محدودية البيانات المتاحة، وخصوصية كل محطة، واختلاف تصميم الأرصفة بين مدينة وأخرى، كلها عوامل تعني أن تعميم النتائج ليس أمراً تلقائياً.

ومع ذلك، يقدّم هذا العمل مثالاً على اتجاه جديد في الذكاء الاصطناعي التطبيقي، حيث لا يقتصر دور النموذج على الرصد أو العدّ أو التتبع، بل يمتد إلى تفسير الأنماط ضمن سياق إنساني شديد الحساسية. وفي هذا الإطار، تصبح القيمة الأكبر للنظام في قدرته على دعم الفرق الميدانية بمؤشرات مبكرة قد تساعد على التدخل قبل أن تتحول الإشارات السلوكية إلى مأساة.

وبين الطموح التقني والحذر الأخلاقي، تبدو هذه الفئة من النماذج مرشحة للتطور السريع خلال السنوات المقبلة، خاصة إذا توفرت بيانات أوسع وإجراءات حوكمة أوضح وآليات أفضل لدمج الذكاء الاصطناعي مع إجراءات السلامة العامة من دون المساس بالحقوق الأساسية للأفراد.

دراسة كندية توظف الذكاء الاصطناعي لرصد مؤشرات الخطر على أرصفة المترو قبل وقوع الحوادث

من مراقبة المشهد إلى تقدير الخطر

البيانات المستخدمة وأهمية ندرتها

المكونات التقنية داخل النظام

خرائط المخاطر ودورها في التفسير

النتائج: أداء واعد مع هامش تحسين واضح

حدود التطبيق والتحديات الأخلاقية

المواضيع

من مراقبة المشهد إلى تقدير الخطر

البيانات المستخدمة وأهمية ندرتها

المكونات التقنية داخل النظام

خرائط المخاطر ودورها في التفسير

النتائج: أداء واعد مع هامش تحسين واضح

حدود التطبيق والتحديات الأخلاقية

المواضيع

مقالات أخرى في قسم الذكاء الاصطناعي والتقنية