لماذا تفشل أنابيب RAG في مرحلة الإنتاج (وكيفية إصلاحها)
تعد تقنية التوليد المسترجع المعزز (RAG) هي البنية المهيمنة لربط النماذج اللغوية الكبيرة (LLM) بالبيانات الخاصة. من الناحية النظرية، الأمر بسيط: قم بتضمين مستنداتك، وتخزينها في قاعدة بيانات المتجهات (vector database)، وإجراء بحث التشابه عندما يطرح المستخدم سؤالاً، وتمرير السياق المسترجع إلى LLM.
أما من الناحية العملية، فإن هذا النهج البسيط يفشل بشكل مأساوي عند نشره في بيئة الإنتاج. فهو يهلوس، ويفقد سياقات بالغة الأهمية، ويعيد أجزاء غير ذات صلة. بعد بناء أنظمة RAG بمستوى المؤسسات للمؤسسات المالية والشركات القانونية، حددنا الأسباب الرئيسية لفشل هذه الأنابيب والأنماط المعمارية المطلوبة لإصلاحها.
1. استراتيجية التقسيم (Chunking) صلبة للغاية
الخطأ الأكثر شيوعاً هو استخدام تقسيم ثابت الحجم (على سبيل المثال، تقسيم المستندات كل 500 tokens). هذا التقطيع العشوائي يمزق الجمل إلى نصفين ويفصل السياق الحرج عن البيانات التي يصفها. على سبيل المثال، إذا كان رأس الجدول في الجزء A وبيانات الصف في الجزء B، فسيتم تدمير المعنى الدلالي.
الحل: التقسيم الدلالي (Semantic Chunking) بدلاً من حساب tokens، استخدم التقسيم الدلالي. يتضمن ذلك تحليل بنية المستند - التقسيم حسب العناوين والفقرات والأقسام المنطقية. بالنسبة للمستندات المعقدة مثل ملفات PDF، نستخدم نماذج رؤية متخصصة أو محللات تخطيط لاستخراج الجداول والمخططات كوحدات دلالية متميزة. علاوة على ذلك، يضمن تنفيذ الأجزاء المتداخلة (overlapping chunks) عدم ضياع سياق الحدود تماماً.
2. الاعتماد الكلي على تشابه المتجهات (Vector Similarity)
تعتبر تضمينات المتجهات (Vector embeddings) ممتازة في التقاط التشابه الدلالي، لكنها سيئة للغاية في مطابقة الكلمات الرئيسية الدقيقة. إذا بحث مستخدم عن "SKU-987452"، فقد يعيد بحث المتجهات البحت مستندات حول منتجات مماثلة بدلاً من رقم SKU المحدد.
الحل: البحث الهجين (BM25 + Dense Vectors) يجب أن تستخدم أنابيب الإنتاج البحث الهجين. من خلال الجمع بين تضمينات المتجهات الكثيفة (dense vector embeddings - للمعنى الدلالي) والبحث عن الكلمات الرئيسية المتفرقة مثل BM25 (للمطابقات الدقيقة)، فإنك تحصل على أفضل ما في العالمين. يمكن لطبقة التنسيق (orchestration layer) استخدام دمج الرتب المتبادلة (RRF) لدمج النتائج من كلا طريقتي الاسترجاع، مما يضمن أن الاستعلامات المحددة للغاية تسترجع المستندات الدقيقة المطلوبة.
3. تجاهل انتفاخ نافذة السياق (Contextual Window Bloat)
تؤدي إحالة 15 جزءاً مسترجعاً إلى LLM دون تصفية إلى متلازمة "الضياع في المنتصف" (lost in the middle). غالباً ما تنسى نماذج LLM أو تتجاهل المعلومات الموضوعة في وسط نافذة السياق الخاصة بها، مما يؤدي إلى تدهور التفكير والهلوسة.
الحل: إعادة الترتيب (Re-ranking) قبل إرسال الأجزاء المسترجعة إلى خطوة توليد LLM، قم بتمريرها عبر أداة إعادة ترتيب المشفر المتقاطع (cross-encoder re-ranker) (مثل Cohere's Rerank أو مشفر متقاطع مضبوط بدقة). في حين أن بحث المتجهات سريع ولكنه تقريبي، فإن المشفر المتقاطع ثقيل حسابياً ولكنه دقيق للغاية لأنه يقيّم الاستعلام والجزء في آن واحد. قم باسترجاع 50 جزءاً بسرعة، وأعد ترتيبها، ومرر فقط أفضل 5 أجزاء الأكثر صلة إلى LLM.
4. البيانات التعريفية غير المنظمة (Unstructured Metadata)
تعد قاعدة بيانات المتجهات المليئة بأجزاء نصية بدون بيانات تعريفية (metadata) بمثابة صندوق أسود. إذا سأل مستخدم "ما هي أرباحنا في الربع الثالث من عام 2025؟"، فإن بحث المتجهات البسيط سيسحب تقارير الأرباح من أعوام 2022 و2023 و2024 لمجرد أن النص مشابه دلالياً.
الحل: تصفية البيانات التعريفية (Metadata Filtering)
يجب أن يتم تزويد كل جزء يتم إدخله في قاعدة بيانات المتجهات ببيانات تعريفية مكثفة: التاريخ، والمؤلف، ونوع المستند، ومستوى الوصول، والفئة. قبل إجراء بحث المتجهات، استخدم موجه LLM (LLM router) لاستخراج الفلاتر من استعلام المستخدم. إذا سأل المستخدم عن الربع الثالث من عام 2025، فيجب على النظام تطبيق فلتر صارم لـ date >= 2025-07-01 AND date <= 2025-09-30 قبل حساب أي مسافات متجهة.
مخطط RAG للإنتاج (The Production RAG Blueprint)
يتطلب بناء أنبوب RAG موثوق الابتعاد عن البرامج التعليمية البسيطة لـ LangChain واعتماد نهج هندسة الأنظمة:
- الاستيعاب الذكي (Intelligent Ingestion): التقسيم الدلالي، والتعرف الضوئي على الحروف (OCR)، واستخراج البيانات التعريفية.
- الاسترجاع الهجين (Hybrid Retrieval): المتجهات الكثيفة (Dense vectors) + المتجهات المتفرقة BM25.
- إعادة الترتيب (Re-ranking): تقييم المشفر المتقاطع (Cross-encoder) لضمان الدقة.
- التوليد (Generation): هندسة الأوامر (Prompt engineering) التي تجبر LLM على الاستشهاد بمصادره من السياق المقدم.
من خلال تطبيق هذه الأنماط المعمارية، نقوم بتحويل النماذج الأولية الهشة إلى أنظمة ذكية مرنة بمستوى موثوقية البنوك تقدم قيمة تجارية ملموسة دون أي هلوسة.
خدمة سفن لابس
تطوير وكلاء الذكاء الاصطناعي ومسارات RAG

