الذكاء الاصطناعي
فالكون بيرسيبشن.. نموذج ذكاء اصطناعي متعدد الوسائط لفهم العالم المرئي
أعلن معهد الابتكار التكنولوجي في أبوظبي عن إطلاق نموذج “فالكون بيرسيبشن” (Falcon Perception)، وهو نموذج ذكاء اصطناعي متعدد الوسائط يهدف إلى تمكين الآلات من رؤية البيئة المادية وفهمها بكفاءة تضاهي النماذج الأكبر حجماً، وذلك ضمن مساعي المعهد لتعزيز القدرات السيادية في مجال الذكاء الاصطناعي.
ويتميز النموذج الجديد بحجم مدمج لا يتجاوز 600 مليون معلمة، مما يقلل من المتطلبات الحاسوبية بشكل ملحوظ مقارنة بالأنظمة المنافسة، مع الحفاظ على أداء تنافسي في مهام تجزئة العناصر البصرية، وفهم المحتوى المرئي المعقد، وتحليل الوثائق.
دمج الرؤية واللغة في بنية موحدة
يعتمد “فالكون بيرسيبشن” على دمج قدرات الرؤية الحاسوبية ومعالجة اللغة ضمن بنية نموذجية واحدة، بدلاً من الاعتماد على مكونات منفصلة كما هو شائع في الأنظمة التقليدية. ويسمح هذا التصميم للنموذج بمعالجة الصور والنصوص بشكل متكامل، مما يمكنه من تحليل المشاهد التي تحتوي على مئات العناصر في وقت واحد، والرد على استفسارات المستخدمين بلغة طبيعية لتحديد أو عد العناصر داخل الصور بدقة.
وتأتي هذه الميزات لتلبية احتياجات القطاعات التي تتطلب تشغيل الذكاء الاصطناعي في بيئات العالم الحقيقي، مثل الروبوتات الصناعية، وأنظمة التصنيع الذكي، والبنية التحتية الذكية، حيث تكون كفاءة الحوسبة وزمن الاستجابة عوامل حاسمة.
أداء ينافس النماذج العالمية
وفقاً للبيانات التقنية المعلنة، يحقق النموذج نتائج متقاربة مع أنظمة رائدة طوّرتها شركات عالمية كبرى، بما في ذلك نموذج “SAM3” من شركة “ميتا” الأمريكية، ونماذج “Qwen” التابعة لمجموعة “علي بابا” الصينية، وذلك في معايير تقييم رئيسية مثل تجزئة الكائنات (SaCO) وتحليل الوثائق (OmniDocBench).
وفي هذا السياق، صرّحت الدكتورة نجوى الأعرج، الرئيس التنفيذي لمعهد الابتكار التكنولوجي، بأن النموذج يجسّد رؤية المعهد في تطوير حلول ذكاء اصطناعي متقدمة وقابلة للتطبيق العملي، مشيرة إلى أن إعادة تصميم بنية نماذج الرؤية واللغة تسهم في تعزيز كفاءة الأنظمة متعددة الوسائط ودعم نشرها عبر قطاعات صناعية متنوعة.
من جهته، أوضح الدكتور حكيم حسيد، كبير الباحثين بالمعهد، أن الهدف من التطوير كان تحدي الفكرة القائلة بأن أنظمة الرؤية الحاسوبية تحتاج بالضرورة إلى هياكل معقدة متعددة المراحل، مؤكداً أن إثبات قدرة نموذج مكثف واحد على تنفيذ مهام الإدراك بكفاءة يمهد الطريق لجيل جديد من الأنظمة القابلة للتطوير.
إتاحة المصدر المفتوح
يُذكر أن “فالكون بيرسيبشن” يمثل أول نموذج ضمن عائلة “فالكون” يُصمم خصيصاً لمهام الإدراك متعدد الوسائط في البيئات الكثيفة. وقد أعلن المعهد عن عزمه طرح النموذج كمصدر مفتوح عبر منصة “Hugging Face”، تماشياً مع التزامه بدعم مجتمع الباحثين وتعزيز التعاون في تطوير تقنيات الذكاء الاصطناعي.
المصدر: معهد الابتكار التكنولوجي (TII) – أبوظبي.





