شرح
كيف يعمل RAG لمساعدي الذكاء الاصطناعي في الأعمال (ومتى يكون الأداة الخاطئة)
تقنية Retrieval-Augmented Generation هي ما يقف خلف معظم مساعدي الذكاء الاصطناعي المفيدين في الأعمال. نشرح ماذا يفعل فعلًا، أين يستحق التكلفة، والحالات الخمس التي يكون فيها الجواب الخاطئ.
خلاصة
RAG يتيح لنموذج ذكاء اصطناعي أن يجيب اعتمادًا على مستنداتك وبياناتك وأنظمتك الخاصة، دون إعادة تدريب النموذج. هو الخيار الصحيح حين يتغيّر المحتوى كثيرًا، حين تحتاج الإجابة إلى ذكر مصدر، وحين يكون فاين-تيون النموذج على بياناتك مبالغة. هو الخيار الخاطئ حين لا توجد الإجابة في مستند، حين تكون الكمون حرجة، أو حين تحاول تغيير كيف يفكّر النموذج بدلًا من ما يعرفه.
بلغة بسيطة
ما هو RAG فعلًا
RAG، اختصار لـ Retrieval-Augmented Generation، طريقة لجعل نموذج ذكاء اصطناعي عام يجيب اعتمادًا على معرفتك الخاصة. بدلًا من حشر كل مستند تملكه في الـprompt، أو الدفع لفاين-تيون النموذج على بياناتك، يجلب RAG فقط الفقرات القليلة المهمّة للسؤال، يسلّمها للنموذج، ويطلب منه الإجابة معتمدًا عليها كأدلّة.
عمليًا، تبني pipeline صغير يحوّل مستنداتك إلى متجهات قابلة للبحث، يستخرج الأكثر صلة لكل سؤال، ويغذّيها للنموذج مع سؤال المستخدم. ثم يكتب النموذج الإجابة، ويُفضّل أن يستشهد بالفقرات المستعملة. الهدف: تثبيت الذكاء الاصطناعي العام داخل محتواك الفعلي، بحيث يتحدّث المساعد عن أعمالك، سياساتك، تذاكرك، فواتيرك، لا عن الإنترنت بشكل عام.
لماذا قد تريده
لماذا تحتاج الشركات إلى RAG في النهاية
ثلاثة آلام تطلق الحوار عادةً.
الذكاء الاصطناعي العام لا يرى بياناتك
المساعدون الجاهزون يعرفون فقط ما كان في بيانات تدريبهم. سياساتك، تذاكرك، كتالوج منتجاتك، شروط مورّديك، كلها غير مرئية لهم. بدون استرجاع، النموذج يرفض، يخمّن، أو يخترع.
معرفتك تتغيّر باستمرار
الأسعار تتغيّر. السياسات تُعاد كتابتها. منتجات جديدة تُطلق. الفاين-تيون يجمّد لقطة تصبح قديمة في أسابيع. RAG يقرأ من مستودع مستنداتك الحيّ، فحين تحدّث المصدر، يحدّث المساعد معه.
تحتاج إلى الثقة بالجواب
مستخدمو الأعمال لا يثقون بإجابة لا يمكنهم التحقّق منها. RAG يجلب فقرات حقيقية من مستندات حقيقية، فيستطيع المساعد أن يُظهر عمله: الإجابة، مع الفقرة المصدر ورابط المستند الأصلي. هذه الخاصية وحدها كثيرًا ما تفصل التبنّي عن التخلّي.
داخل الـ pipeline
الأجزاء الأربعة المتحرّكة
نظام RAG شغّال أربع خطوات موصولة. لكل واحدة قرارات هندسية حقيقية وراءها.
- 1
الاستيعاب
اجلب المستندات التي يجب أن تغذّي المساعد: PDF، صفحات wiki، مقالات قاعدة المعرفة، تاريخ التذاكر، بيانات ERP، ملاحظات CRM، SharePoint الداخلي، أي مكان قد تعيش فيه الإجابة. ثم قطّعها إلى فقرات صغيرة بما يكفي لتكون مفيدة وكبيرة بما يكفي للحفاظ على السياق. جودة هذه الخطوة تحدّد جودة النظام أكثر من أي اختيار للنموذج.
- 2
التضمين والفهرسة
حوّل كل فقرة إلى متجه عبر نموذج embedding، واخزن المتجهات في قاعدة متجهات. المتجه بصمة عددية للمعنى: فقرتان تقولان الشيء نفسه بكلمات مختلفة ينتهيان قريبتين. الاختيارات هنا ليست تجميلًا: أي نموذج embedding، أي قاعدة متجهات، كم مرة تُعاد عملية التضمين حين يتغيّر المحتوى.
- 3
الاسترجاع
حين يسأل المستخدم، يُضمَّن السؤال وتُرجع قاعدة المتجهات الفقرات القليلة الأكثر صلة. الاسترجاع الجيّد يعيد ترتيب النتائج، يمزج البحث بالكلمات للاستعلامات التي بها أسماء علم، ويفلتر بصلاحيات المستخدم بحيث لا يرى كلٌّ إلا ما يحق له. جودة الاسترجاع هي حيث تحيا أو تموت معظم أنظمة RAG في الإنتاج.
- 4
التوليد
يتلقّى النموذج سؤال المستخدم مع الفقرات المسترجعة، ويكتب الإجابة معتمدًا عليها كأدلّة. الـprompt يأمر النموذج بالالتزام بالفقرات، الاستشهاد بأي منها، والرفض إن لم تكن الإجابة هناك. الأنظمة الجيّدة تعرض الاستشهادات للمستخدم، لتكون الإجابة قابلة للتحقّق بدلًا من صندوق أسود.
اقرأ هذا قبل البناء
متى يكون RAG الأداة الخاطئة
خمس حالات يكون فيها RAG مبالغًا، تجريدًا خاطئًا، أو ضارًا فعلًا.
الإجابة لا توجد في مستند
إذا احتاج المساعد إلى حساب شيء، استعلام قاعدة بيانات حيّة، أو إطلاق إجراء في CRM-ك، فـ RAG وحده لن يفعل ذلك. تحتاج إلى function calling، وكلاء، أو هجين: RAG للمعرفة، وأدوات منظّمة للأفعال. بناء RAG محض حين الحاجة الحقيقية سير عمل، هو فخّ الإفراط الهندسي الأكثر شيوعًا.
قاعدة معرفتك صغيرة جدًا
إذا كانت لديك 20 صفحة من الأسئلة الشائعة وكانت مستقرّة، لا تحتاج إلى pipeline استرجاع. ضعها في الـ prompt. بنية RAG تستحق التكلفة حين يكون المحتوى أكبر من نافذة السياق، أو يتغيّر باستمرار. تحت هذا الحدّ، إنها تعقيدات بدون مكسب.
الكمون حرجة
كل استعلام RAG يضيف خطوة embedding، بحث متجهات، غالبًا تمريرة إعادة ترتيب، ثم التوليد. تلك مئات الميلي ثوان، أحيانًا ثوان. للوكلاء الذين يديرون مكالمات عملاء حيّة أو قرارات في أقل من ثانية، قد تحتاج إجابات مخزّنة، نماذج أصغر، أو معمارية مختلفة كليًا.
تريد تغيير كيف يفكّر النموذج
RAG يغيّر ما يعرفه النموذج. لا يغيّر كيف يكتب، أي نبرة يأخذ، أو كيف يفكّر في مشكلة خاصّة بمجال. إذا احتجت نموذجًا يتكلّم بصوت علامتك أو يفكّر كخبير في تخصّص دقيق، فهذا مجال الفاين-تيون. التقنيتان متكاملتان، لا قابلتان للتبادل.
مصادرك ليست موثوقة
RAG يجلب ما فهرسته. إذا كانت قاعدة معرفتك مليئة بتناقضات، مسودّات قديمة، أو سلاسل إيميل غير منظّمة، فالمساعد سيرفع تلك الفوضى بأمانة. Garbage in، استشهادات out. تنقية المصادر تأتي قبل معمارية الاسترجاع.
RAG مقابل البدائل
RAG، فاين-تيون، prompt engineering
ثلاث تقنيات يخلط الناس بينها كثيرًا. تحلّ مشكلات مختلفة وتتراكم بدل أن تتنافس.
| البعد | RAG | فاين-تيون | Prompt engineering |
|---|---|---|---|
| يغيّر | ما يعرفه النموذج | كيف يكتب ويفكّر النموذج | كيف يُوجّه النموذج لمهمّة واحدة |
| تكلفة التحديث | إعادة فهرسة المستندات المتغيّرة، فوري | إعادة تدريب النموذج، ساعات إلى أيام | تحرير الـ prompt، فوري |
| الأفضل لـ | معرفة خاصة، تحديثات متكرّرة، استشهادات | الأسلوب، النبرة، تفكير مجال، مخرجات منظّمة | مكاسب سريعة، مساعدون مهمّة واحدة، نماذج أوّلية |
| الحدّ | جودة الاسترجاع تحدّ من جودة الإجابة | لقطة مجمّدة، لا معرفة حيّة | حجم نافذة السياق، لا ذاكرة بين الاستدعاءات |
| إشارة أنك تحتاجه | المستخدمون يسألون عن وقائع خاصّة بالشركة | صيغة المخرج أو النبرة خاطئة باستمرار | أول نموذج أوّلي، قبل البنية |
يغيّر
- RAG
- ما يعرفه النموذج
- فاين-تيون
- كيف يكتب ويفكّر النموذج
- Prompt engineering
- كيف يُوجّه النموذج لمهمّة واحدة
تكلفة التحديث
- RAG
- إعادة فهرسة المستندات المتغيّرة، فوري
- فاين-تيون
- إعادة تدريب النموذج، ساعات إلى أيام
- Prompt engineering
- تحرير الـ prompt، فوري
الأفضل لـ
- RAG
- معرفة خاصة، تحديثات متكرّرة، استشهادات
- فاين-تيون
- الأسلوب، النبرة، تفكير مجال، مخرجات منظّمة
- Prompt engineering
- مكاسب سريعة، مساعدون مهمّة واحدة، نماذج أوّلية
الحدّ
- RAG
- جودة الاسترجاع تحدّ من جودة الإجابة
- فاين-تيون
- لقطة مجمّدة، لا معرفة حيّة
- Prompt engineering
- حجم نافذة السياق، لا ذاكرة بين الاستدعاءات
إشارة أنك تحتاجه
- RAG
- المستخدمون يسألون عن وقائع خاصّة بالشركة
- فاين-تيون
- صيغة المخرج أو النبرة خاطئة باستمرار
- Prompt engineering
- أول نموذج أوّلي، قبل البنية
ما يرفع الفاتورة
ما تكلفه التطبيق الحقيقي فعلًا
لا نعطي نطاقات في المقالات لأن التباين حقيقي. المحرّكات بترتيب التأثير: مدى فوضى البيانات المصدر (هذا يهيمن)، عدد المصادر المتمايزة التي يجب توحيدها (كلّ مصدر pipeline استيعاب خاص به)، صرامة نموذج الصلاحيات (فلترة الاسترجاع لكل مستخدم عمل هندسي)، هل يجب على المساعد اتخاذ إجراءات أم فقط الإجابة، وكم حِملًا إنتاجيًا عليه أن يحتمل.
النمط الذي نراه: العملاء يقلّلون من شأن العمل على البيانات ويبالغون في شأن العمل على الذكاء الاصطناعي. النموذج هو الجزء السهل. الجزء الصعب تحويل محتواك المتناثر، غير المتّسق، نصف المفهرس، إلى شيء يستطيع pipeline استرجاع أن يستعمله فعلًا. الرقم الحقيقي يأتي في نهاية مراجعة الـ30 دقيقة، بعد أن ننظر إلى مصادرك الفعلية، لا قبلها.
الأسئلة الشائعة
ما تسأله الشركات قبل بناء أوّل مساعد RAG.
كيف يختلف RAG عن استخدام ChatGPT فقط؟
ChatGPT (وأي مساعد عام) يعرف فقط ما كان في بيانات تدريبه، إضافةً إلى ما تلصقه في محادثة واحدة. RAG يربط المساعد بمعرفتك الخاصة: يجيب عن عقودك، سياساتك، تذاكرك، منتجاتك، مع استشهادات بالفقرة المصدر فعلًا. ChatGPT مساعد عام. RAG يحوّل نموذجًا إلى مساعدك أنت.
هل RAG أفضل من الفاين-تيون؟
يحلّان مشكلات مختلفة. RAG يغيّر ما يعرفه النموذج. الفاين-تيون يغيّر كيف يكتب ويفكّر. معظم المساعدين في الإنتاج يستعملون الاثنين: RAG لتثبيت النموذج في معرفتك الحيّة، فاين-تيون لتثبيت النبرة وصيغ المخرجات المنظّمة. الاكتفاء بالفاين-تيون للمعرفة خطأ شائع: يجمّد لقطة تتقادم في أسابيع.
كم يستغرق مشروع RAG؟
نموذج أوّلي يعمل ويسترجع من مصدر واحد يمكن أن يخرج في أسابيع قليلة. نظام إنتاج يدير مصادر متعدّدة، صلاحيات، مراقبة، وتقييم جودة يستغرق أطول، أساسًا لأن العمل على البيانات حقيقي. النموذج والبنية هما الجزء السريع. تنظيف، هيكلة، وتقطيع محتوى المصدر، هذا ما يحدّد الإيقاع.
من أيّ نوع من المصادر يقرأ RAG؟
أيّ شيء يمكنك استخراج نصّ منه: PDF، Word، صفحات wiki، مقالات قاعدة المعرفة، تذاكر دعم، ملاحظات CRM، سجلات ERP، SharePoint داخلي، Notion، Confluence، أرشيف الإيميل. السؤال الأصعب: الصلاحيات والطزاجة. من يُسمح له برؤية ماذا، وكم يمكن أن تكون الإجابة قديمة. كلاهما قابل للحلّ، لكنّهما يشكّلان المعمارية.
هل يمكن لـ RAG أن يهلوس؟
نعم، أقلّ من نموذج خام، لكنّه قد يفعل. سيناريوهان: الاسترجاع فوّت الفقرة الصحيحة فملأ النموذج الفراغ؛ أو الاسترجاع وجد شيئًا يبدو مرتبطًا لكنّه ليس كذلك. الأنظمة الجيّدة تخفّف هذا بـ prompts صارمة ('أجب فقط من الفقرات، ارفض إن لم تكن هناك')، استشهادات قابلة للنقر، وحلقة تقييم تكتشف الانحدارات. الهلوسة لا تختفي، لكنها تصبح قابلة للتدقيق.
هل يمكن لـ RAG أن يعمل على بنية تحتية خاصة؟
نعم. النموذج، خدمة الـembedding وقاعدة المتجهات يمكن أن تعمل كلها على بنية تحتية خاصة إذا تطلّبت إقامة البيانات أو الامتثال ذلك. المقايضة: عمل هندسي. الخدمات المُدارة أسرع في الإطلاق، البنية المخصّصة تعطيك التحكّم. نساعد العملاء على اختيار النقطة الصحيحة على هذا الطيف، بناءً على حساسية البيانات الفعلية، لا على المسرحة.
تفكّر في بناء مساعد RAG؟
احجز مراجعة 30 دقيقة. ننظر إلى مصادرك الفعلية، حالة استخدامك الحقيقية، وكيف يبدو pipeline مفصّل عليها. تغادر بتوصية في صفحة واحدة مخصّصة لبياناتك وقيودك، حتى لو لم تتعاقد معنا.