DocETL: عزّز معالجة المستندات الخاصة بك باستخدام مسارات LLM العاملة
DocETL هو نظام مفتوح المصدر مصمم لتبسيط وتعزيز معالجة البيانات، خاصة للمهام المعقدة المتعلقة بالمستندات. باستخدام قوة نماذج اللغة الكبيرة (LLMs)، يتيح DocETL للمستخدمين إنشاء مسارات عاملة لمهام مثل استخراج المعلومات والتحويل والتحميل، مما يبسط عمليات ETL التقليدية المرهقة. تقدم هذه المدونة نظرة عامة شاملة على DocETL وميزاته وإعداده وكيف يمكن أن يحدث ثورة في سير عمل معالجة المستندات الخاصة بك.
الميزات الرئيسية لـ DocETL
-
واجهة مستخدم تفاعلية (DocWrangler): يقدم DocETL واجهة مستخدم سهلة الاستخدام تسمى DocWrangler تتيح هندسة المطالبات التكرارية وتطوير خطوط الأنابيب. هذه الميزة مفيدة بشكل خاص لتجربة المطالبات المختلفة، وبناء خطوط الأنابيب خطوة بخطوة، وتصور النتائج في الوقت الفعلي. بمجرد الانتهاء من ذلك، يمكن تصدير تكوين خط الأنابيب للاستخدام في الإنتاج.
-
حزمة Python للإنتاج: بالإضافة إلى واجهة المستخدم التفاعلية، يوفر DocETL أيضًا حزمة Python تمكن من تشغيل خطوط الأنابيب من سطر الأوامر أو مباشرة داخل كود Python. وهذا يجعل من السهل دمج DocETL في سير العمل الحالي وأتمتة مهام معالجة المستندات.
-
تكامل LLM: يتكامل DocETL بسلاسة مع LLMs مثل ChatGPT وClaude، مما يوفر للمستخدمين أدوات للاستفادة من قدراتهم لإنشاء وتنفيذ خطوط الأنابيب. يتوفر “موجه كبير” على موقع DocETL لتوجيه LLMs في إنشاء خطوط الأنابيب بناءً على أوصاف المهام.
-
مشاريع وموارد المجتمع: أنشأ مجتمع DocETL العديد من المشاريع والموارد التي توضح تنوع الأداة، بما في ذلك مولدات المحادثة وتطبيقات تحويل النص إلى كلام وأدوات استخراج موضوعات نصوص YouTube. تتوفر أيضًا موارد تعليمية وتعمق في عوامل تشغيل محددة مثل عامل التشغيل Resolve.
البدء مع DocETL
يوفر DocETL طريقتين أساسيتين للبدء: استخدام واجهة المستخدم التفاعلية (DocWrangler) واستخدام حزمة Python.
-
DocWrangler (موصى به للتطوير): DocWrangler مثالي لتطوير خطوط الأنابيب بشكل تكراري. يسمح للمستخدمين بما يلي:
- تجربة المطالبات المختلفة وعرض النتائج في الوقت الفعلي.
- بناء خطوط الأنابيب تدريجياً.
- تصدير تكوينات خطوط الأنابيب النهائية لنشر الإنتاج.
يمكن الوصول إلى DocWrangler على docetl.org/playground أو تشغيله محليًا باستخدام Docker أو الإعداد اليدوي.
-
حزمة Python (للاستخدام في الإنتاج): لاستخدام DocETL كحزمة Python، اتبع الخطوات التالية:
- المتطلبات الأساسية: Python 3.10+ ومفتاح OpenAI API (أو ما يعادله لـ LLM الذي اخترته).
- التثبيت:
pip install docetl - التكوين: قم بإنشاء ملف
.envباستخدام مفتاح OpenAI API الخاص بك:OPENAI_API_KEY=your_api_key_here
راجع الوثائق والبرامج التعليمية للحصول على أمثلة تفصيلية لاستخدام حزمة Python الخاصة بـ DocETL.
خيارات الإعداد المحلية
يقدم DocETL خيارين لإعداد DocWrangler محليًا:
-
الخيار أ: استخدام Docker (موصى به للبدء السريع): هذه هي أسرع طريقة لتشغيل DocWrangler. اتبع الخطوات التالية:
- قم بإنشاء ملفات
.envو.env.localمع التكوينات المطلوبة (كما هو موضح في الوثائق). - قم بتشغيل
make dockerلإنشاء الصورة وبدء تشغيل الحاوية. - ستكون واجهة المستخدم متاحة على
http://localhost:3000. للتنظيف، استخدمmake docker-clean.
- قم بإنشاء ملفات
-
الخيار ب: الإعداد اليدوي (التطوير): يُفضل هذا الخيار للتطوير أو إذا لم يكن Docker مرغوبًا فيه. الخطوات هي:
- استنساخ المستودع:
git clone https://github.com/ucbepic/docetl.git - قم بإعداد متغيرات البيئة في ملفات
.envو.env.local. - تثبيت التبعيات:
make installوmake install-ui. - ابدأ خادم التطوير:
make run-ui-dev. - قم بزيارة
http://localhost:3000/playgroundللوصول إلى واجهة المستخدم.
- استنساخ المستودع:
تكامل AWS Bedrock
يدعم DocETL التكامل مع AWS Bedrock. لتمكينه:
- قم بتكوين بيانات اعتماد AWS باستخدام
aws configure. - اختبر بيانات الاعتماد الخاصة بك باستخدام
make test-aws. - قم بالتشغيل مع دعم AWS باستخدام:
أو مع Docker Compose:AWS_PROFILE=your-profile AWS_REGION=your-region make docker
تذكر أن نماذج Bedrock مسبوقة بـAWS_PROFILE=your-profile AWS_REGION=your-region docker compose --profile aws upbedrock.في التكوين.
خاتمة
DocETL هي أداة قوية لإنشاء وتنفيذ خطوط أنابيب معالجة المستندات المعقدة باستخدام LLMs العاملة. توفر واجهة المستخدم التفاعلية وحزمة Python المرونة لكل من بيئات التطوير والإنتاج. مع مجتمعه المتنامي والوثائق الشاملة ودعم LLMs المختلفة والأنظمة الأساسية السحابية مثل AWS Bedrock، يستعد DocETL ليصبح حجر الزاوية لأي شخص يسعى إلى أتمتة وتعزيز سير عمل معالجة المستندات الخاصة به.
المصدر: ucbepic
مقالات ذات صلة
التعليقات
لا توجد تعليقات بعد. كن أول من يعلق!
جاري تحميل التعليقات...