DocLang يطلق معياراً مفتوحاً للمستندات الجاهزة للذكاء الاصطناعي

يشهد قطاع الأعمال تحولاً متسارعاً في طريقة تعامل الأنظمة الذكية مع المستندات، بعد سنوات طويلة صُممت فيها الملفات والتقارير والعقود أساساً لقراءتها من قبل البشر. ومع توسع استخدام الذكاء الاصطناعي التوليدي والوكلاء الآليين داخل المؤسسات، أصبحت هذه الفجوة بين التصميم البشري والفهم الآلي واحدة من أبرز العقبات أمام الأتمتة الفعالة.

في هذا السياق، ظهرت مبادرة DocLang بوصفها محاولة لصياغة معيار مفتوح يتيح تمثيل المستندات بطريقة أصلح للأنظمة الذكية. المشروع مدعوم من ABBYY إلى جانب IBM وNVIDIA وRed Hat وHumanSignal ومؤسسة LF AI & Data التابعة لمؤسسة Linux، ويهدف إلى إنشاء طبقة موحدة يمكن للذكاء الاصطناعي الاعتماد عليها لفهم محتوى الوثائق وعلاقاتها الداخلية بشكل أكثر اتساقاً.

مشكلة قديمة تتفاقم مع الذكاء الاصطناعي

تخزن الشركات اليوم قدراً هائلاً من المعرفة في صيغ مثل ملفات PDF، والصور الممسوحة ضوئياً، وجداول البيانات، والعروض التقديمية، والنماذج الرقمية. هذه الصيغ مناسبة للعرض والقراءة البشرية، لكنها لا تمنح الآلة صورة واضحة عن البنية المنطقية للمحتوى أو علاقات الأجزاء المختلفة داخله.

عندما يقرأ الإنسان مستنداً، يمكنه بسهولة التمييز بين العناوين والجداول والملاحظات والهوامش بحسب الموقع والتنسيق والسياق. أما الأنظمة الذكية فتحتاج غالباً إلى سلسلة طويلة من العمليات، تبدأ بالتعرف الضوئي على النص، مروراً بتحليل التخطيط، وانتهاءً بالتنظيف والمعالجة اللاحقة، قبل أن تتمكن من استخراج المعنى بصورة موثوقة.

ومع انتشار الأنظمة التي تعتمد على الاستدلال عبر كم كبير من البيانات المؤسسية، أصبحت هذه الخطوات مكلفة زمنياً ومالياً، كما أنها ترفع احتمال الخطأ أو فقدان السياق. لذلك لم يعد التحدي مقتصراً على قراءة الوثيقة، بل على إعادة بنائها في صيغة يستطيع النموذج اللغوي أو الوكيل الذكي التعامل معها مباشرة.

ما الذي يقدمه DocLang؟

DocLang هو مواصفة مفتوحة تهدف إلى تقديم تمثيل معياري للمستندات مخصص للذكاء الاصطناعي. الفكرة الأساسية لا تركز فقط على الشكل المرئي للملف، بل على الحفاظ على عدة طبقات من المعلومات في الوقت نفسه، بحيث يمكن للآلة فهم المحتوى ومعناه وهيكله وعلاقاته الداخلية.

وتشمل هذه الطبقات عناصر مثل المعنى الدلالي، والبنية الهرمية للمستند، والتخطيط الهندسي للعناصر في الصفحة، والجداول والأجزاء المعقدة، والبيانات الوصفية، إضافة إلى ضوابط الحوكمة والاستخدام. هذا النهج يتيح للنظام الذكي أن يدرك ليس فقط ما تقوله الوثيقة، بل أيضاً كيف ترتبط الأجزاء المختلفة ببعضها.

فعلى سبيل المثال، الرقم الموجود داخل جدول مالي لا يكتسب قيمته من الرقم نفسه فقط، بل من ارتباطه بالعناوين والصفوف والأعمدة المجاورة وبالسياق المحيط به. وإذا تم الحفاظ على هذه العلاقات داخل بنية معيارية موحدة، تصبح قدرة النماذج على الاستنتاج والتحليل أعلى وأكثر استقراراً.

كما تتضمن المواصفة آليات حوكمة تسمح للمؤسسات بتحديد كيفية استخدام المحتوى، بما في ذلك السياسات المرتبطة بالخصوصية والاستخراج وتدريب النماذج. وهذه النقطة مهمة خصوصاً في البيئات المؤسسية التي تتعامل مع معلومات حساسة أو منظمة قانونياً.

دور ABBYY في صياغة المبادرة

تُعد ABBYY من أبرز الجهات التي شاركت في إطلاق DocLang، مستفيدة من خبرتها الطويلة في مجال فهم المستندات، والتعرف الضوئي على النصوص، وأتمتة العمليات. هذا التاريخ منح الشركة رؤية عملية للتحديات التي تواجه المؤسسات حين تحاول توصيل أنظمة الذكاء الاصطناعي بالوثائق التقليدية.

وتشير التصورات التي بُنيت عليها المبادرة إلى أن الحاجة لم تعد تقتصر على أدوات تحلل المستندات كلٌ على حدة، بل على طبقة مرجعية مشتركة توضع بين المستند الخام والتطبيق الذكي. بهذه الطريقة لا يضطر كل نظام إلى إعادة تفسير التخطيط والجداول والعلاقات والبيانات الوصفية من البداية.

الهدف العملي من ذلك هو رفع موثوقية الفهم الآلي، وتقليل الهلوسة الناتجة عن غياب السياق البنيوي، وخفض التكلفة الحاسوبية المترتبة على معالجة المحتوى نفسه مرات متكررة داخل منصات مختلفة.

تشبيه DocLang بـ HTML

يدفع مؤيدو DocLang نحو مقارنة متكررة بينه وبين HTML في تاريخ الويب. قبل انتشار HTML، لم تكن هناك لغة موحدة تضمن قراءة المحتوى وعرضه بطريقة متسقة عبر المتصفحات والأنظمة المختلفة. ثم جاء HTML ليضع هيكلاً مشتركاً مكن الويب من النمو على أساس قابل للتشغيل البيني.

المقارنة هنا لا تعني التطابق التام، لكنها توضح الرهان الأساسي للمبادرة: إذا كانت الويب تحتاج إلى معيار مشترك لتنظيم الصفحات، فإن الذكاء الاصطناعي المؤسسي يحتاج إلى معيار مشترك لتنظيم المستندات. وبدون هذا الأساس، ستظل كل منصة تبني تفسيرها الخاص، ما يعمق التجزئة ويرفع تكاليف التكامل.

ومع ازدياد اعتماد الشركات على عدة نماذج وأدوات وموردين في آن واحد، تصبح التوافقية عاملاً حاسماً. فالمسألة لم تعد تقنية بحتة، بل باتت تتعلق بكيفية انتقال المعرفة بين الأنظمة بسلاسة ومن دون فقدان للمعنى.

العلاقة بين DocLang وDocling

يرتكز المشروع أيضاً على Docling، وهي أداة مفتوحة المصدر لمعالجة المستندات طورتها IBM Research Zurich وأُتيحت كمصدر مفتوح في عام 2024. يركز Docling على مرحلة الإدخال والتحويل، أي استقبال الملفات من صيغ متعددة وتحويلها إلى تمثيلات منظمة.

يمكن للأداة التعامل مع ملفات PDF ومستندات Word وجداول البيانات والعروض التقديمية وملفات HTML والصور، ثم إخراج بنية يمكن للنماذج الذكية الاستفادة منها. هنا يأتي دور DocLang بوصفه الصيغة القياسية التي تنقل هذه البنية وتبادلها بين المنصات المختلفة.

بهذا التقسيم، يصبح خط العمل أكثر وضوحاً: Docling يفهم ويستخلص، DocLang يوحد التمثيل، ثم تستهلك النماذج والوكلاء المعلومات المنظمة الناتجة. والنتيجة المتوقعة هي تقليل التشظي بين الأدوات وتبسيط دمجها داخل البيئات المؤسسية.

لماذا تزداد أهمية المعايير المفتوحة؟

في مشاريع الذكاء الاصطناعي المؤسسي، لا تعتمد الشركات عادة على نموذج واحد أو منصة واحدة فقط، بل على منظومة كاملة من التطبيقات والخدمات وقواعد الحوكمة. لهذا تصبح القدرة على تبادل البيانات بين الأنظمة أمراً أساسياً، لا سيما حين تنتقل الحلول من مرحلة الاختبار إلى الإنتاج.

التاريخ التقني يوضح أن المعايير المفتوحة غالباً ما تسرّع التبني لأنها تقلل التعقيد وتخفف الاعتماد على مورد واحد. فقد ساعدت HTML في بناء الويب الحديث، بينما لعبت Kubernetes دوراً محورياً في توحيد البنى السحابية. ويراهن داعمو DocLang على أن معياراً مشابهاً قد يحقق أثراً مماثلاً في مجال فهم المستندات.

إذا تحقق ذلك، فقد يصبح من الأسهل على المؤسسات بناء تطبيقات ذكاء اصطناعي تتعامل مع الوثائق بقدر أعلى من الاتساق، سواء في البحث المؤسسي أو الأتمتة أو دعم القرار أو تشغيل الوكلاء المستقلين.

ما الذي قد يتغير مستقبلاً؟

لا يزال الطريق أمام DocLang في بدايته، لكن الفكرة تعكس تحركاً مهماً داخل الصناعة نحو معالجة المشكلة من الجذور بدلاً من الاكتفاء بطبقات المعالجة اللاحقة. فبدلاً من إجبار النماذج على تخمين بنية المستندات، يحاول المشروع تعريف لغة مشتركة للمستند نفسه.

وفي حال نجحت المبادرة في كسب قبول واسع، فقد تسهم في تحسين دقة الفهم، وتخفيف أخطاء الاستنتاج، وتقليل تكلفة المعالجة، وتسهيل انتقال المعرفة بين أنظمة الذكاء الاصطناعي المختلفة. وربما يكون الأثر الأبرز لها أنها تنقل الوثيقة من كونها ملفاً ثابتاً موجهاً للقراءة البشرية إلى كيان منظم قابل للفهم الآلي المباشر.

ومع توسع دور الذكاء الاصطناعي في الأعمال، يبدو أن مستقبل المستندات لن يتحدد فقط بقدرة النماذج على القراءة، بل أيضاً بقدرة الصناعة على الاتفاق على لغة موحدة تقول للآلة أين تبدأ الفكرة وأين تنتهي، وكيف ترتبط الأجزاء ببعضها داخل السياق الكامل.