الجمعة
2024/04/12
آخر تحديث
الجمعة 12 أبريل 2024

2022: سنة الذكاء الاصطناعي

31 دجمبر 2022 الساعة 20 و25 دقيقة
2022: سنة الذكاء الاصطناعي
طباعة

مع انتهاء كل عام، غالبا ما ننظر إلى الوراء قليلا ونبدأ في تقييم أهم الابتكارات التقنية التي ظهرت على مدار تلك السنة، وغالبا ما يكون الاختيار صعبا من بين مجموعة تقنيات متنافسة على القدر نفسه من الأهمية، لكن الوضع مختلف هذا العام 2022، لأنه على مدار الاثني عشر شهرا الماضية، تصدرت فئة واحدة من التقنيات عناوين الأخبار أكثر من مرة، والأهم أنها كانت متاحة للاستخدام بصورة كبيرة للمجتمع وللأشخاص العاديين، تلك الفئة كانت بلا شك هي الذكاء الاصطناعي وتطبيقاته المختلفة، وخاصة الذكاء الاصطناعي التوليدي (Generative AI).

وحتى إذا لم يكن المصطلح مألوفا لك، فعلى الأغلب أنك شاهدت إحدى الصور أو اللوحات الفنية التي غمرت مواقع التواصل الاجتماعي خلال العام التي أنتجتها أنظمة قائمة على هذا النوع من الذكاء الاصطناعي. ربما سمعت بالأنظمة التي ذاع صيتها، مثل "دالي-2 (DALL-E 2)" و"ستيبل ديفيوجن (Stable Diffusion)" و"ميدجيرني (Midjourney)"، ومؤخرا روبوت الدردشة "شات جي بي تي (ChatGPT)". الميزة الأساسية في تلك الأنظمة أنها سهلة الاستخدام ولأول مرة تنتج لنا صورا ولوحات فنية وإجابات مذهلة، حتى إن البعض اعتبرها كما لو كانت مزيجا من البرمجيات والسحر كما قال آرثر سي كلارك ذات مرة.

عام الذكاء الاصطناعي
البداية كانت في شهر أبريل/نيسان الماضي، عندما ظهر نظام تحويل النصوص إلى صور "دالي-2 (DALL-E 2)"، وانتشرت حينها صورة رائد فضاء يمتطي حصانا على مواقع التواصل الاجتماعي، وهو نسخة حديثة من نظام "دالي" الذي أطلقته منظمة أبحاث الذكاء الاصطناعي "أوبن إيه آي (OpenAI)" للتجربة العامة.

بحلول نهاية شهر سبتمبر/أيلول الماضي، أعلنت المنظمة أن مستخدمي نظام "دالي" وصلوا لأكثر من 1.5 مليون مستخدم نشط، يعملون على إنشاء أكثر من مليونَي صورة يوميا، سواء كانوا من الفنانين أو المخرجين الإبداعيين أو المهندسين المعماريين، مع أكثر من 100 ألف مستخدم يشاركون الصور الناتجة وملاحظاتهم مع فريق عمل "دالي"(1).

قبل ذلك، في يوليو/تموز الماضي، ظهر نظام "ميدجيرني (Midjourney)" للتجربة العامة، وهو مشابه لما يقدمه نظام "دالي" من تحويل الكلمات إلى صور، وفي غضون وقت قصير وصل عدد مستخدمي النظام إلى مليونَي مستخدم، والآن وصل الرقم لأكثر من 6.6 ملايين مستخدم.

ثم في شهر أغسطس/آب ظهر نظام "ستيبل ديفيوجن"، وهو نموذج مفتوح المصدر طرحته الشركة الناشئة "ستابيليتي إيه آي (Stability AI)" المتخصصة في الذكاء الاصطناعي للجمهور مجانا. وبحلول أكتوبر/تشرين الأول، امتلك تطبيق الويب "دريم ستوديو (DreamStudio)" الخاص بالشركة أكثر من 1.5 مليون مستخدم، ووصل عدد مستخدمي كل خدمات النظام لأكثر من 10 ملايين مستخدم يوميا(2).

ثم بدأ التنافس في الاشتعال، ففي سبتمبر/أيلول كشفت شركة "ميتا (Meta)"، المالكة لفيسبوك وإنستغرام، عن نظام ذكاء اصطناعي لإنشاء مقاطع الفيديو القصيرة من النصوص المكتوبة(3). ثم بعدها بشهر دخلت جوجل على الخط وأعلنت عن نظام الفيديو الجديد "إماجين (Imagen)" لتوليد مقاطع الفيديو القصيرة أيضا من الكلمات المكتوبة(4).

وبنهاية شهر نوفمبر/تشرين الثاني، أعلنت منظمة "أوبن إيه آي" عن إطلاق روبوت المحادثة الجديد "شات جي بي تي (ChatGPT)"، وهو روبوت دردشة (Chatbot) جديد يعتمد على الذكاء الاصطناعي لإجراء محادثات مع البشر، والهدف أن تبدو تلك المحادثات طبيعية ولا يعرف الشخص أنه يتحدث مع روبوت، وهو يعتبر من "نماذج اللغة الكبيرة" التي تتعلم عبر تحديد المليارات من الأنماط المميزة في الطريقة التي يربط بها الأشخاص الكلمات والأرقام والرموز لتتمكن من إنشاء النصوص وتوليد الردود بمفردها(5).

بعد مرور أسبوع واحد فقط على إطلاقه، وصل عدد مستخدمي الروبوت إلى مليون مستخدم، ولندرك مدى ضخامة هذا الرقم، دعنا نقارنه بشركات عملاقة في بدايتها، فمثلا احتاجت منصة فيسبوك 10 شهور كاملة لتصل لرقم مليون مستخدم، بينما احتاج تطبيق إنستغرام لشهرين ونصف، واحتاجت نتفليكس لثلاث سنوات ونصف.

كل هذا التطور السريع في فترة زمنية قصيرة، وكل تلك الأرقام الضخمة في الاستخدام جلبت معها ردود فعل متباينة للغاية، ما بين مؤيد ومعارض، بين من يرى أن تلك الأدوات الجديدة تملك الموهبة الفنية وستقضي على وظائف إبداعية كثيرة، كالفنانين والكُتّاب وغيرهم، ومن يعتقد أنها مجرد أدوات تقلّد ما يقدمه الإنسان وربما تعزز قدرتها لكنها لا يمكن أن تحل محله.

لكن هذا يعود بنا مرة أخرى للسحر، في الوقت الحالي يبدو أنك تملك صندوقا سحريا صغيرا. هذا أمر رائع بالطبع إن كنت ترغب فقط في الاستمرار في عملية إنشاء الصور، ولكن ليس إن كنت بحاجة إلى شريك مبدع حقا، بمعنى إن كنت ترغب في خلق قصص فنية وبناء عوالم جديدة، فسيحتاج شريكك إلى مزيد من الوعي بما يخلقه فعلا، لكن تلك هي المشكلة الأساسية: لا تزال هذه النماذج الأولية لا تملك أي فكرة عما تفعله حقا.

صندوق سحري
عند استخدام أي نظام من أنظمة الذكاء الاصطناعي التوليدي، كل ما عليك هو أن تكتب وصفا قصيرا لما تفكر به، ثم تنتظر بضع ثوانٍ لتحصل على النتيجة. في "ميدجيرني" مثلا، يمكن أن تحتوي تلك الكلمات على أسلوب فنان معين، تخبر فيه الذكاء الاصطناعي أن يقلّده، أو غيرها من المتطلبات التي ترغب في أن تراها في الصورة، عند تجربتنا للنظام كتبنا له: "ذكاء اصطناعي يتحكم بالعالم"، وكانت هذه هي النتيجة!

هذا ما تراه أنت أمامك، لكن داخل ذلك الصندوق السحري يحدث أمر مختلف وأكثر تعقيدا. تتكون نماذج الذكاء الاصطناعي التي تحول النص إلى صورة من جزئين أساسيين، الأول هو شبكة عصبية مدربة على إقران صورة بنص مكتوب يصف تلك الصورة، وشبكة أخرى مدربة على إنشاء صور من الصفر. الفكرة الأساسية هنا هي توليد الشبكة العصبية الثانية لصورة تقبلها الشبكة العصبية الأولى كمطابق للنص الذي أدخله المستخدم.

الإنجاز المميز وراء تلك النماذج الجديدة هو في طريقة إنشاء تلك الصور، استخدم الإصدار الأول من نظام "دالي"، في عام 2020، التقنية التي يعمل بها مولّد النصوص "GPT-3″، إذ كان ينتج صورا عبر التنبؤ بالبيكسل التالي في الصورة كما لو كان يتنبأ بالكلمات التالية في جملة مكتوبة، نجح الأمر ولكنه لم يكن جيدا أو مبهرا، ولم تكن الصور بالجودة المطلوبة.

بينما يستخدم الإصدار الثاني "دالي-2" ما يُعرف باسم "نموذج الانتشار (Diffusion model)"، وهي ببساطة شبكات عصبية مدربة على تنقية الصور عبر إزالة الضوضاء الناتجة من وحدات البيكسل التي تضيفها عملية التدريب الأولى. تتضمن تلك العملية جمع الصور وتغيير عدد قليل من وحدات البيكسل فيها في وقت واحد، عبر عدّة خطوات، حتى تُمسح الصور الأصلية ولا يتبقى لك سوى وحدات عشوائية من البيكسل(6).

بعدها تتدرب الشبكة العصبية على عكس تلك العملية والتنبؤ بالشكل الذي ستبدو عليه نسخة الصورة الأوضح. النتيجة النهائية هي أنك إذا أعطيت نموذج الانتشار فوضى من وحدات البيكسل، فسيحاول أن يعطيك صورة أكثر نقاء. ضع تلك الصورة النقية مرة أخرى في النموذج، وسوف ينتج لك صورة أكثر وأكثر نقاء. كرر الأمر لعدد كافٍ من المرات وستحصل على صورة عالية الجودة(7).

الميزة في نماذج تحويل النص إلى صور هي أن تلك العملية التي شرحناها تعتمد على مولّد النصوص "GPT-3" الذي يحاول مطابقة كلمات المستخدم بالصور التي ينتجها نموذج الانتشار، وهو ما يدفع بدوره نموذج الانتشار نحو الصور التي يعتبرها مولّد النصوص متوافقة مع النص. لكن تلك النماذج لا تربط بين النص المكتوب والصور بالاعتماد على نفسها، أو بفضل قدرتها على معرفة ما معنى تلك الصور أو النصوص بالضبط، لأنها تتدرب على مجموعة بيانات ضخمة تُعرف باسم "LAION"، تهدف إلى إتاحة نماذج تعلم الآلة ومجموعات البيانات الضخمة واسعة النطاق لعامة الناس، والتي تحتوي على مليارات من النصوص والصور من شبكة الإنترنت(8). لذا ما ينتجه النموذج التوليدي هو صور جديدة تشبه مليارات الصور الموجودة فعلا على الإنترنت، وبهذا ربما لن ينتج عن تعلم الآلة سوى الصور التي تحاكي ما تعلمه النموذج في الماضي.

استخدامات حقيقية

لكن على كل الأحوال، تلك النماذج الأولى قد تكون مجرد البداية، لأن استخدام الذكاء الاصطناعي التوليدي قد يدخل في إنتاج تصميمات لأي شيء مستقبلا، من تصميم المباني إلى الأدوية الجديدة.

فمثلا، نظام الذكاء الاصطناعي "ألفافولد (AlphaFold)"، من شركة "ديب مايند (DeepMind)" التي تملكها جوجل، الذي يمكنه التنبؤ بالبنية ثلاثية الأبعاد للبروتينات، وهي مفتاح معرفة وظائفها؛ فتح المجال لأنواع جديدة من الأبحاث في علم الأحياء الجزيئية؛ ما يساعد الباحثين على فهم كيفية عمل الأمراض، وكيفية صنع وإنتاج أدوية جديدة لعلاج تلك الأمراض. وفي شهر يوليو/تموز الماضي، استخدم الباحثون نظام "ألفافولد" للتنبؤ ببنية أكثر من 220 مليون بروتين يأتي من نحو مليون فصيلة مختلفة، لتغطي تقريبا كل بروتين معروف على كوكب الأرض(9).

وفي نوفمبر/تشرين الثاني، كشفت "ميتا" عن نموذج "ESMFold"، وهو نموذج أسرع كثيرا في التنبؤ ببنية البروتين، ويمكنه التنبؤ ببنية نحو 600 مليون بروتين من البكتيريا والفيروسات والكائنات الحية الدقيقة الأخرى(10). يمكنك اعتباره نوعا من الإكمال التلقائي للبروتينات، والذي يستخدم تقنية تعتمد على النماذج اللغوية الكبيرة مثل نموذج "GPT-3".

يستفيد علماء الأحياء وشركات تصنيع الأدوية بالفعل من تلك الموارد المهمة المتاحة للجميع، والتي جعلت البحث عن بنية البروتينات الجديدة بنفس سهولة البحث على الإنترنت. وعلى امتداد خط تطوير الأدوية، توجد حاليا المئات من الشركات الناشئة التي تستكشف طرقا جديدة لاستخدام الذكاء الاصطناعي لتسريع عملية اكتشاف الأدوية، وحتى تصميم أنواع جديدة منها لم تكن معروفة سابقا.

من المهم أن نؤكد أنظمة الذكاء الاصطناعي التي نرى سحرها اليوم هي نتاج عقود من التطور الثابت في أبحاث المجال، وتطبيقاته، بالحد الذي مكننا من تدريب الشبكات العصبية وتغذيتها بكميات هائلة من البيانات المتاحة حاليا. صحيح أن الأمر لا يتعلق بالسحر أو بالمبالغات المعتادة بأن الذكاء الاصطناعي تطور لدرجة مرعبة وسيأخذ مكاننا أو وظائفنا، لكن من المؤكد أنه سيحدث تغييرا كبيرا في المجتمعات وفي الاقتصاد وفي كل شيء في حياتنا، تماما مثلما فعلت تقنيات أخرى سبقته، سواء كانت أجهزة الحاسوب أو الإنترنت أو الهواتف الذكية أو شبكات التواصل الاجتماعي.


مصادر:

1) DALL·E Now Available Without Waitlist
2) Stability AI Raises Seed Round at $1 Billion Value
3) Introducing Make-A-Video: An AI system that generates videos from text
4) Imagen Video
5) روبوت المحادثة "ChatGPT".. ثورة الذكاء الاصطناعي تخرج من المختبر إلى الحياة العامة
6) How diffusion models work: the math from scratch
7) How DALL-E 2 Actually Works
8) LAION
9) ‘The entire protein universe’: AI predicts shape of nearly every known protein
10) AlphaFold’s new rival? Meta AI predicts shape of 600 million proteins
المصدر : الجزيرة