أصبح الذكاء الاصطناعي الصوتي أحد أكثر مجالات التقنية جذباً لاهتمام المؤسسات، لكنه ما يزال يواجه عقبة أساسية: الانتقال من التجربة المحدودة إلى التشغيل واسع النطاق داخل بيئات معقدة تمتد فيها الأنظمة القديمة والحديثة جنباً إلى جنب. وفي هذا السياق، يوضح شَرون بن-ليفي، نائب الرئيس العالمي للمبيعات وتطوير الأعمال في وحدة مراكز الاتصال لدى AudioCodes، أن النجاح في هذا المجال لا يعتمد على جودة النموذج اللغوي وحدها، بل على قدرة المنصة على الاندماج مع البنية التحتية القائمة، وتحمل الضغط التشغيلي، وتلبية متطلبات الامتثال والأمان.
تأتي هذه الرؤية من مسار مهني طويل داخل قطاع الاتصالات المؤسسية. فبن-ليفي، الذي أمضى أكثر من عقدين في AudioCodes، عمل في مراحل مختلفة من تطور الشركة، من حلول الشبكات الصوتية التقليدية إلى أدوات الذكاء الاصطناعي المخصصة لتجارب العملاء. هذا التنقل بين المستويات التقنية والإدارية منحه، بحسب ما يوضحه، فهماً عملياً لحقيقة أن أي خدمة صوتية موجهة للمؤسسات لا تُقاس بقدرتها على العرض التجريبي، بل بقدرتها على العمل بثبات في بيئات تشغيلية حقيقية.
AudioCodes، التي تأسست في 1993، تطورت من مزود لبنية VoIP إلى شركة تقدم أدوات للاتصالات الصوتية الذكية وتجارب العملاء المعتمدة على الذكاء الاصطناعي. وتشمل منظومتها منصات لربط الذكاء الاصطناعي الصوتي بالأنظمة الهاتفية، إضافة إلى تكاملات مع حلول مثل Microsoft Teams، وأدوات لإدارة الجلسات الصوتية، وأنظمة تدعم تحويل الكلام إلى نص والنص إلى كلام، فضلاً عن توجيه المكالمات والمحادثات نحو الوكلاء الرقميين أو مساعدي الموظفين.
الاعتمادية شرط أساسي قبل أي وعود بالذكاء الصوتي
يرى بن-ليفي أن أول درس تعلمه عبر سنوات العمل في الأنظمة المدمجة هو أن التفاصيل الصغيرة تصنع الفارق الكبير. ففي أنظمة الصوت، أي خلل في زمن الاستجابة أو جودة الصوت أو دقة النسخ أو آلية تبادل الأدوار في المحادثة يمكن أن ينسف التجربة بالكامل. ولهذا السبب، لا يمكن النظر إلى الذكاء الاصطناعي الصوتي بوصفه طبقة برمجية إضافية، بل يجب تصميمه منذ البداية وفق منطق الاعتمادية.
ويشير إلى أن المؤسسات تعمل ضمن بيئات معقدة تضم آلاف المستخدمين ومتطلبات تشغيل صارمة، ما يجعل الاختبار في بيئة محدودة غير كافٍ. فالمنصة التي تنجح في تجربة أولية صغيرة قد تتراجع فور توسيعها إلى نطاق الإنتاج الفعلي. ومن هنا، يضع معيار الثقة في مقدمة أي تقييم ناجح للذكاء الاصطناعي الصوتي داخل الشركات.
الفجوة بين أنظمة الهاتف القديمة وواجهات الذكاء الاصطناعي الحديثة
أحد أبرز التحديات التي تعيق انتشار الذكاء الاصطناعي الصوتي يتمثل في التباين بين عالم الاتصالات الهاتفية التقليدية وعالم التطبيقات الحديثة. فبيئات المؤسسات غالباً ما تكون مجزأة إلى أنظمة مترابطة جزئياً، وتعتمد على بروتوكولات مثل SIP من جهة، وعلى واجهات برمجية حديثة مثل HTTP وSSE من جهة أخرى. هذا التباين لا يمثل فقط تحدياً تقنياً، بل يخلق فجوة بشرية أيضاً، إذ نادراً ما يمتلك المهندسون خبرة عميقة في الجانبين معاً.
ويضيف بن-ليفي أن الصوت يفرض متطلبات لحظية لا تظهر في الأنظمة النصية. فهناك حاجة إلى معالجة فورية، وتنسيق مستمر بين البروتوكولات، والتعامل مع الضوضاء المحيطة، واللهجات المختلفة، وتداخل الأصوات بين المتحدثين. هذه العوامل تجعل بناء تجربة محادثة سلسة أكثر تعقيداً بكثير من بناء روبوت محادثة يعتمد على النص.
كيف تعمل VoiceAI Connect على ربط البنية القديمة بالمنصات الجديدة
ضمن هذا السياق، تقدم AudioCodes منصة VoiceAI Connect بوصفها طبقة وصل بين نقاط التواصل التقليدية مثل أرقام الهاتف، وجذوع SIP، والبنية الهاتفية داخل مراكز الاتصال، وبين منصات الذكاء الاصطناعي الحوارية التابعة لأطراف ثالثة. والفكرة الأساسية هنا هي تمكين المؤسسات من الاستفادة من الذكاء الاصطناعي الصوتي دون الحاجة إلى استبدال كامل للبنية القائمة.
تتعامل المنصة مع عمليات متعددة في الزمن الحقيقي، من تحويل الكلام إلى نص ثم إلى صوت، إلى توجيه المحادثة نحو الإطار البرمجي المناسب. وبذلك يمكن للمؤسسات اختيار النماذج والأدوات التي تناسب كل حالة استخدام، بدلاً من الارتهان لمنصة واحدة. كما أن هذا النهج يتيح دمج الأنظمة الجديدة مع البنية القديمة عبر واجهات SIP القائمة، من دون انتظار تحديثات معقدة أو إعادة بناء شاملة للطبقات الوسيطة.
لماذا تتعثر المشاريع التجريبية عند التوسع
يشير بن-ليفي إلى أن كثيراً من مشاريع الذكاء الاصطناعي الصوتي تتوقف عند مرحلة التجربة لأن السوق نفسه يتغير بسرعة. فبينما تختبر المؤسسة تقنية معينة، تظهر حلول أحدث قد تكون أفضل من حيث الأداء أو التكلفة أو دعم اللغات أو الامتثال. لذلك، فإن بناء نظام مغلق يعتمد على مزود واحد قد يحد من قدرة المؤسسة على التكيف.
ومن هنا تأتي أهمية المرونة في اختيار المكونات. فالمؤسسات تحتاج إلى مزج أكثر من محرك لتحويل الكلام إلى نص، وأكثر من محرك لتحويل النص إلى كلام، وربما أكثر من إطار حواري بحسب الاستخدام. كما تحتاج إلى دعم التوسع العالمي، واستمرارية الأعمال، وربط أكثر من بيئة لمراكز الاتصال في بلدان متعددة. هذه العناصر مجتمعة تحدد ما إذا كان المشروع سيبقى في المختبر أم ينتقل إلى التشغيل الكامل.
أداء قريب من المحادثة الطبيعية في حالات استخدام محددة
رغم أن الصناعة لم تصل بعد إلى مستوى المحادثة البشرية المعقدة على نطاق واسع، فإن بعض التطبيقات العملية أصبحت ناضجة بما يكفي للاستخدام المؤسسي. وتشمل هذه الحالات توجيه المكالمات، وجدولة المواعيد، وتنفيذ تحويلات مالية، إضافة إلى أدوات موجهة للموظفين مثل تلخيص المكالمات، وتقديم المعرفة أثناء المكالمة، والترجمة الصوتية الفورية.
بالنسبة للمستخدم النهائي، تتجسد القيمة في اختفاء القوائم الصلبة التي تعتمد على ضغط الأرقام. فبدلاً من التنقل بين طبقات محددة سلفاً، يمكن للمتصل أن يتحدث بطبيعته، وأن يفهم النظام مقصده ويستجيب وفق ذلك. هذا التحول يغيّر شكل تجربة خدمة العملاء من تفاعل ميكانيكي إلى محادثة أكثر مرونة وكفاءة.
التكامل هو العائق الأكبر لا التكلفة وحدها
يؤكد بن-ليفي أن التحدي الأبرز في تبني الذكاء الاصطناعي الصوتي داخل الشركات لا يتعلق بالتكلفة فقط، بل بالتكامل مع الأنظمة القائمة. فبحسب تقرير حديث استشهد به، ترى نسبة صغيرة نسبياً من المؤسسات أن السعر يمثل العقبة الرئيسية، بينما يذكر معظمها أن التعقيد في الدمج مع الأنظمة الحالية هو المشكلة الحقيقية.
وتزداد صعوبة المشهد عندما تضع بعض مزودات مراكز الاتصال قيوداً على نموذج "أحضر الروبوت الخاص بك"، أو تجعل التكامل غير مجد اقتصادياً. كما أن الأنظمة الأقدم غالباً لا تتضمن واجهات حديثة تسمح بالاتصال المباشر مع خدمات الذكاء الاصطناعي. لذلك، فإن منصات مثل VoiceAI Connect تحاول إزالة هذا التعقيد عبر دعم بروتوكول SIP، والاتصال بعدد كبير من أطر الذكاء الاصطناعي ومحركات الصوت من دون الحاجة إلى كتابة التكاملات يدوياً في كل مرة.
كما يلفت إلى أن الجودة الشاملة للتجربة، بما في ذلك وضوح الصوت وسلاسة الحوار، تبقى عاملاً حاسماً في سرعة الانتشار. ومن هنا تأتي أهمية القدرة على تبديل المكونات بسهولة إذا ظهر بديل أفضل أو إذا تغيرت متطلبات اللغة أو المصطلحات المتخصصة.
الامتثال والبيئات المنظمة يفرضان قواعد مختلفة
في القطاعات الخاضعة لرقابة صارمة مثل المال والرعاية الصحية، لا يمكن التعامل مع بيانات الصوت بالطريقة نفسها المستخدمة في الخدمات السحابية العامة. فهناك متطلبات تتعلق بالخصوصية، وتخزين التسجيلات، والاحتفاظ بالنصوص المنقولة حرفياً لفترات طويلة، وإمكانية مراجعتها لاحقاً لأغراض التدقيق.
لهذا السبب، تلجأ كثير من المؤسسات المنظمة إلى النشر المحلي داخل بنيتها الخاصة، بحيث تبقى البيانات الحساسة تحت السيطرة الكاملة ولا تنتقل خارجها. وفي هذه الحالات، لا يكفي أن يكون النظام ذكياً؛ يجب أن يكون قابلاً للتتبع، وآمناً، ومتوافقاً مع اللوائح، وقادراً على حفظ التسجيلات والتفريغ النصي بصيغ دقيقة وغير قابلة للتلاعب.
من واجهة تفاعلية إلى وكيل ينفذ الأوامر
التحول الأبرز في هذا المجال هو انتقال الصوت من كونه قناة استقبال واستجابة إلى كونه واجهة تنفيذ فعلية. فالوكلاء الرقميون لم يعودوا يكتفون بالإجابة على الأسئلة أو توجيه المكالمات، بل باتوا قادرين على فهم النية، واتخاذ إجراء مباشر، وربط المحادثة بأنظمة خلفية أخرى.
وفي الأمثلة التي يطرحها بن-ليفي، يمكن لوكيل ذكي أن يطلب موافقة من مشرف بشري على خصم معين، أو يضيف منتجات إلى سلة تسوق إلكترونية، أو يتعاون مع وكيل متخصص في تحليل الصور لفهم سياق الطلب بشكل أفضل. هذا النوع من التفاعل يوسّع دور الصوت من مجرد قناة خدمة إلى نقطة دخول مركزية للعمليات المؤسسية.
الصوت يظل الواجهة الأقرب إلى السلوك البشري الطبيعي
في ختام رؤيته، يذهب بن-ليفي إلى أن الصوت سيبقى عنصراً محورياً في تجارب الذكاء الاصطناعي المؤسسية، حتى لو استمر ضمن منظومة متعددة الوسائط. فالبشر اعتادوا التواصل صوتياً منذ آلاف السنين، وما يزال الحديث أسهل من الكتابة في كثير من المواقف. ومن هذا المنطلق، لا يبدو أن واجهات الصوت ستتراجع، بل ستتقدم لتصبح طبقة رئيسية في التفاعل مع الأنظمة الذكية، خاصة عندما تكون مدعومة بتكامل قوي ومرونة تقنية وقدرة على التنفيذ الفوري.
وبينما تتسارع الابتكارات في الذكاء الاصطناعي، تشير تجربة AudioCodes إلى أن قيمة أي حل مؤسسي لا تتحدد بالوعود النظرية، بل بقدرته على العيش داخل الواقع التشغيلي المعقد. وفي عالم مراكز الاتصال، يبدو أن هذا الواقع ما يزال يمنح الأفضلية للحلول التي تعرف كيف تربط القديم بالجديد من دون التضحية بالاعتمادية أو الامتثال أو سهولة التوسع.