١٧ يونيو ٢٠٢٦

تقييم شريك تطوير الذكاء الاصطناعي: ما يجب أن تطلبه قبل التوقيع

في كل أسبوع، نتحدث مع مديري التكنولوجيا (CTOs) الذين أهدروا للتو مئات الآلاف من الدولارات وستة أشهر من وقت الهندسة لأنهم تسرعوا في تقييم شريك تطوير الذكاء الاصطناعي. سيصر فريقك الداخلي على أنه يمكنهم بناء النظام بأنفسهم باستخدام واجهات برمجة التطبيقات (APIs) الجاهزة. وعندما تدرك أخيراً أن عبء الصيانة يعيق سرعة إنجاز مهامك (sprint velocity)، فإن التعاقد مع الوكالة الخارجية الخطأ هو أسرع طريقة لمضاعفة الفشل.

تقييم شريك تطوير الذكاء الاصطناعي: حقيقة البناء مقابل الشراء

سيقول مهندسوك إنهم يستطيعون بناء هذا. إنهم ينظرون إلى وثائق الـ API الخاصة بـ OpenAI أو Anthropic ويرون مشروعاً بسيطاً يمكن إنجازه في عطلة نهاية الأسبوع.

لكن ما لا يرونه هو عبء الصيانة الذي سيستمر لـ 18 شهراً. فهم لا يحسبون تكلفة إدارة الحالات النادرة للهلوسة (hallucination edge cases) أو المتطلبات التحتية لتشغيل قواعد البيانات الموجهة (vector databases) على نطاق واسع.

عندما تقوم بتقييم شريك تطوير الذكاء الاصطناعي، فأنت لا تشتري فقط إمكانية الوصول إلى نماذج اللغة الكبيرة (LLMs). بل تشتري التخفيف من المخاطر وتسريع وقت الوصول إلى الإنتاج.

إذا تعاقدت مع المورد الخطأ، فلن تخسر المال فقط. بل ستتعاقد مع مورد يبني نموذج إثبات مفهوم (proof-of-concept) هشاً، وستخسر ستة أشهر من الزخم بينما يقوم منافسوك بإطلاق ميزات حقيقية وقابلة للتوسع.

يتطلب بناء فريق ذكاء اصطناعي داخلي توظيف مهندسي تعلم آلة متخصصين (ML engineers)، ومهندسي بنية تحتية لخطوط أنابيب البيانات (data pipeline architects)، وخبراء أمن. وهذا وحده يستغرق من ثلاثة إلى خمسة أشهر في السوق الحالي.

تكلفة الفرصة البديلة (Opportunity cost) هي القاتل الصامت لفرق الهندسة في الشركات. كل دورة تطوير (sprint) يقضيها أفضل مطوريك في محاربة تحديثات أطر العمل (framework updates) هي دورة لا يعملون فيها على القيمة الفريدة الأساسية لمنتجك. نحن نرى الشركات تستهلك أفضل مواهبها في حل مشكلات تم حلها بالفعل.

بحلول الوقت الذي يشحن فيه فريقك الداخلي الإصدار الأول (V1)، ستكون النماذج الأساسية قد تغيرت مرتين. الشريك المتخصص يمتص هذا التقلب نيابة عنك.

الفجوة بين النموذج الأولي والإنتاج

يستغرق بناء نموذج أولي (prototype) للذكاء الاصطناعي 48 ساعة. لكن نقل هذا النموذج الأولي إلى بيئة إنتاج مؤسسية يستغرق أربعة أشهر من الهندسة الخلفية (backend engineering) الصارمة.

لا تفهم الوكالات المبتدئة الفجوة الشاسعة بين هاتين المرحلتين. إنهم يبنون نموذج إثبات مفهوم يعمل بشكل مثالي على خمسة مستندات PDF مرتبة.

ولكن عندما تُغذي نفس النظام بـ 50,000 عقد مؤسسي فوضوي من العالم الحقيقي، تنخفض دقة الاسترجاع إلى الصفر. وتفيض نافذة السياق (context window). وينهار النظام بأكمله تحت وزنه.

يجب أن يتضمن تقييم شريكك فحصاً دقيقاً لكيفية تعاملهم مع البيانات غير المهيكلة (unstructured data) على نطاق واسع. اسألهم عن استراتيجيات التقطيع (chunking strategies) الخاصة بهم.

إذا استخدموا طريقة تقطيع ساذجة تعتمد على عدد الحروف للبيانات الجدولية المعقدة، فسوف يفشلون. نحن نستخدم التقطيع الهيكلي والبحث الهجين (hybrid search) لضمان بقاء أنظمة الاسترجاع دقيقة للغاية حتى عند معالجة ملايين المتجهات (vectors).

تتطلب قواعد البيانات الموجهة (Vector databases) ضبطاً دقيقاً للفهارس. عندما تتوسع من عشرة آلاف إلى عشرة ملايين تضمين (embeddings)، فإن المعلمات الافتراضية ستدمر زمن استجابة الاستعلام (query latency). لقد أنقذنا العديد من المشاريع حيث قامت الوكالة السابقة ببساطة بإضافة أجهزة أكثر تكلفة إلى قواعد بيانات سيئة التكوين. الشركاء الهندسيون الحقيقيون يقومون بتحسين الفهرس قبل أن يقوموا بتوسيع الأجهزة.

علامة تحذير: إنهم يسوقون للميزات، وليس للبنية التحتية

تبيع الوكالات المبتدئة واجهات الدردشة (chat interfaces)، وموجهات النظام (system prompts)، والأغلفة السحرية (magic wrappers). بينما يبيع شركاء مستوى الإنتاج البنية التحتية، والأمان، وخطوط أنابيب البيانات الحتمية (deterministic data pipelines).

اسأل المورد عن كيفية تعامله مع حقن التوجيه (prompt injection)، وتسمم البيانات (data poisoning)، والذكاء الاصطناعي المخفي (shadow AI) في بيئة متعددة المستأجرين (multi-tenant). إذا تعثروا في الإجابة، قم بإنهاء الاجتماع فوراً.

يتطلب الذكاء الاصطناعي المؤسسي حدوداً صارمة. إذا لم يطرح المورد مواضيع مثل تحديد المعدل (rate limiting)، واستراتيجيات التخزين المؤقت (caching strategies)، والتوجيه الدلالي (semantic routing)، فهو يبني مجرد لعبة.

في مشاركتنا الخاصة بـ VAPT for Banking، قمنا بتدقيق نظام بنته وكالة ممولة تمويلاً جيداً. كانوا يسربون بصمت معلومات تحديد الهوية الشخصية (PII) إلى نموذج تأسيسي عام.

فشلوا في تنفيذ حدود مبدأ انعدام الثقة (zero-trust boundaries) الأساسية أو التحكم في الوصول القائم على الدور (RBAC) في خط أنابيب RAG الخاص بهم. اضطر البنك إلى إلغاء النظام بالكامل والبدء من جديد، مما أدى إلى خسارة ثمانية أشهر من التقدم.

علامة إيجابية: الهوس بإقامة البيانات والامتثال

الذكاء الاصطناعي المؤسسي هو في الأساس مشكلة أمن بيانات. النماذج التوليدية (Generative models) هي مجرد طبقة الحساب.

سيستفسر الشريك المتمكن عن متطلبات الشبكات المعزولة (air-gapped requirements)، وقيود إقامة البيانات (data residency)، وتفويضات الامتثال لـ SOC 2 قبل أن يذكر اختيار النموذج.

بالنسبة للشركات في الإمارات والخليج، لا يمكن للبيانات أن تغادر المنطقة. المورد الذي يقترح نشر سحابة Azure في الولايات المتحدة افتراضياً دون مناقشة البنية التحتية المحلية لا يأخذ امتثالك على محمل الجد.

نحن ننشر الأنظمة داخل السحابة الافتراضية الخاصة بالعميل (VPC). قد تكون أوزان النموذج خارجية، لكن التجميع والتنفيذ السياقي يحدثان بشكل صارم خلف جدار الحماية (firewall) الخاص بك.

إذا طلب شريك نسخاً احتياطية (dumps) من قاعدة بيانات الإنتاج لـ "تدريب نماذجهم"، فانسحب فوراً. يستخدم الشركاء الناضجون توليد البيانات الاصطناعية (synthetic data generation) للاختبار ويعتمدون على خطوط أنابيب تضمين (embedding pipelines) آمنة للإنتاج.

إذا كنت في هذه المرحلة من مقارنة الموردين وتحليل البنيات التحتية، فهنا عادة ما توفر مكالمة تحديد النطاق معنا 3-4 أشهر من وقت الهندسة الضائع.

فخ التقيد بالمورد (إطار عمل لمديري التكنولوجيا)

أنت بحاجة إلى نموذج عقلي صارم لتجنب التقيد بالمورد (vendor lock-in) قبل توقيع أي اتفاقية خدمات رئيسية. نحن نصنف الديون التقنية للذكاء الاصطناعي (AI technical debt) إلى ثلاث طبقات متميزة: النموذج، البنية التحتية، والتجريد.

تقيد النموذج (Model Lock-in): هل يقومون بكتابة توجيهات (prompts) مشفرة لا تعمل إلا مع تنسيق GPT-4 المحدد؟ أنت بحاجة إلى طبقة تجريد (abstraction layer) تسمح بالتبديل إلى Claude 3.5 أو Llama 3 دون إعادة كتابة التطبيق الأساسي.

تقيد البنية التحتية (Infrastructure Lock-in): هل يبنون أغلفة (wrappers) احتكارية مقيدة ببياناتك الخاصة؟ اطلب نصوص Terraform البرمجية وتنظيم الأنظمة (orchestration) مفتوح المصدر بالكامل. يجب أن تمتلك أنت حالة النشر (deployment state).

تقيد التجريد (Abstraction Lock-in): هل يستخدمون أطر عمل ضخمة ومبهمة في الإنتاج؟ نحن نقوم بشكل روتيني بإزالة هذه الأطر واستبدالها بموجهات (routers) مخصصة وخفيفة. تصبح أطر العمل الثقيلة ديناً تقنياً يصعب الحفاظ عليه بعد عام من التحديثات.

يجب أن يبني شريكك نظاماً يمكنك تسليمه مباشرة إلى مهندسيك الداخليين. تعتبر الشفرات البرمجية المبهمة (Obfuscated code) والأغلفة الصندوقية السوداء (black-box wrappers) تكتيكات احتجاز متعمدة.

لماذا تفشل اختبارات الوحدة مع نماذج اللغة الكبيرة

لا تعمل اختبارات الوحدة (Unit tests) مع نماذج اللغة الكبيرة (LLMs). ستقوم وكالة البرمجيات التقليدية بكتابة اختبارات وحدة قياسية وتفترض أن تطبيق الذكاء الاصطناعي مستقر.

النماذج اللغوية احتمالية (probabilistic). فهي تُرجع مخرجات مختلفة لنفس المدخلات تماماً. لا يمكنك اختبارها بتأكيدات (assertions) بسيطة.

يبني الشريك الهندسي الناضج للذكاء الاصطناعي خطوط أنابيب تقييم مستمرة (continuous evaluation pipelines). فهم يولدون مئات الاستعلامات الاصطناعية للمستخدمين ويسجلون تلقائياً استجابات الـ LLM من حيث الصلة (relevance)، والسمية (toxicity)، والهلوسة.

إذا كان المورد يختبر روبوت الدردشة يدوياً عن طريق كتابة أسئلة في بيئة التجريب (staging environment)، فهو يعمل في الظلام.

اطلب رؤية تطبيقهم لأطر عمل الـ LLM كقاضٍ (LLM-as-a-judge) أو مقاييس تقييم التوليد المعزز بالاسترجاع (RAG).

اطلب تسليمات هندسية حقيقية

توقف عن قبول العروض التقديمية (slide decks) كدليل على القدرة. اطلب رؤية التسليمات الهندسية (engineering deliverables) المحددة التي يقدمونها خلال مرحلة تحديد النطاق (scoping phase).

في Seven Labs، تبدأ ارتباطات AI Platforms الخاصة بنا بتصميم بنية تحتية موثق، وتوقعات محددة لتكاليف السحابة، واستراتيجية اختبار حتمية (deterministic).

تتطلب مخرجات النماذج غير الحتمية (Non-deterministic) اختباراً حتمياً. إذا لم يتمكن المورد من شرح خط أنابيب التقييم (evals pipeline) الخاص به - كيف يختبرون برمجياً أن الإصدار الجديد للنموذج لن يعطل سير عملك الحالي - فهم غير مستعدين للنطاق المؤسسي.

نحن ننشر خطوط أنابيب CI/CD آلية تقيس دقة النموذج ضد مجموعة بيانات ذهبية (golden dataset) عند كل التزام (commit). هذا هو المعيار الدقيق الذي يجب أن تطلبه من أي شركة هندسية.

اسأل لرؤية خطط استجابة الحوادث الخاصة بهم عندما يواجه مزود الـ API الأساسي انقطاعاً في الخدمة. هل لديهم نماذج احتياطية (fallback models) مجهزة؟ هل يقومون بجدولة الطلبات، أم أن المستخدم يحصل ببساطة على خطأ 500؟

يقوم الشريك الموثوق بتخطيط دورة حياة البيانات بأكملها. كيف يتم تحديث التضمينات (embeddings) عندما يتغير المستند المصدر؟ هل يقوم النظام بإعادة فهرسة كاملة، أم يستخدمون عمليات تحديث مستهدفة (targeted upserts)؟ إذا لم يكن لديهم استراتيجية موثقة لإبطال التخزين المؤقت (cache invalidation) في خط أنابيب RAG الخاص بهم، فستقدم بيانات قديمة لمستخدميك.

تقييم هياكل التكلفة والأعباء التشغيلية

يخفي العديد من شركاء تطوير الذكاء الاصطناعي التكاليف التشغيلية طويلة الأجل للأنظمة التي يبنونها. إنهم يقدمون عرض أسعار التطوير لكنهم يتجاهلون تكاليف الاستدلال المتكررة (inference costs).

اطلب من المورد حساب تكاليف الـ API الشهرية المتوقعة بناءً على حجم الرموز (token volume) المتوقع. إذا لم يتمكنوا من تقديم نموذج رياضي لتوسيع التكاليف، فإنهم يفتقرون إلى خبرة الإنتاج.

تتضاعف نماذج التضمين، واستضافة قاعدة البيانات الموجهة، وتكاليف استدلال LLM بسرعة. سيقوم الشريك المتمرس بتصميم طبقات التخزين المؤقت (caching layers) - مثل الخوابي الدلالية (semantic caches) - لتقليل استدعاءات LLM المكررة بنسبة تصل إلى 40%.

يجب أن يكون لديهم أيضاً استراتيجية واضحة لتفريغ مهام التصنيف البسيطة إلى نماذج أصغر وأرخص بدلاً من توجيه كل شيء من خلال النماذج المتقدمة الأكثر تكلفة.

أنت توظف شريكاً لتحسين اقتصاديات الوحدة (unit economics) هذه، وليس فقط لكتابة أغلفة الـ API.

معالجة معارضة الهندسة الداخلية

دعونا نتعامل مع السياسات الداخلية. من المحتمل أن يعارض نائب رئيس الهندسة (VP of Engineering) لديك جلب شريك خارجي. إنهم يريدون امتلاك الملكية الفكرية (IP).

هذا فخ. الملكية الفكرية ليست في تكامل الـ API؛ بل هي بياناتك الخاصة وتدفقات العمل المحددة التي تقوم بتحسينها.

من خلال إجبار فريقك الداخلي على تعلم قواعد البيانات الموجهة، ونماذج التضمين، وتنظيم مهام الـ LLM من الصفر، فإنك تشتت انتباههم عن منتجك الأساسي.

ستخسر ستة أشهر. ستنفق 150,000 دولار كرواتب. والنتيجة ستكون أداة داخلية هشة يكره فريقك صيانتها.

يقوم شريك الذكاء الاصطناعي المتخصص بنشر البنية التحتية في غضون أسابيع، ويدرب فريقك الداخلي على الهيكلية، ويسلمك شفرة برمجية نظيفة وموثقة.

لا تتنازل عن البنية التحتية لمجرد تحقيق هدف الإطلاق الذي فرضه مجلس الإدارة في الربع الثالث. تقييم الشريك المناسب يعني تجاوز العروض التوضيحية الجذابة والتدقيق بقوة في بنيتهم التحتية، ومعايير الامتثال، ونهجهم في الصيانة طويلة الأجل. مهندسوك لديهم ما يكفي من الديون التقنية لإدارتها؛ لا تدفع لمورد لخلق المزيد منها.

إذا كنت تقيم شركاء الذكاء الاصطناعي في الإمارات أو باكستان، احجز مكالمة تحديد نطاق مدتها 30 دقيقة مع Seven Labs: https://calendly.com/seven-labs-intro