صحيفة أخبار اليوم- إمداداتها ضرورية لتدريب الآلات التي تصنع النماذج اللغوية الكبرى.. صراع عالمي على البيانات بوصفها غذاء الذكاء الاصطناعي التوليدي

إمداداتها ضرورية لتدريب الآلات التي تصنع النماذج اللغوية الكبرى..

صراع عالمي على البيانات بوصفها غذاء الذكاء الاصطناعي التوليدي

2023-08-29 01:30:14 أخبار اليوم/ متابعات

في ظل التقدم المستمر في الذكاء الاصطناعي، لا سيما التوليدي منه، صارت هذه التكنولوجيا أشبه بالغول الذي لا يشبع. ولأن هذا الغول يتغذى على البيانات، أخذت الشركات تتدافع من أجل الاستحواذ على ما يكفي منها بغية تدريب نماذجها الذكية. ولكن بئر البيانات ربما ينفد، أو يتراجع إلى أقصى حد أقله، أو ربما تقرر الجهة المالكة منع استغلاله. في تقرير نشرته قبل أيام، تتحدث "إيكونوميست" عن الصراع العالمي الشرس على البيانات الذي يغذيه التطور السريع للذكاء الاصطناعي، والمعارك القانونية التي يشعلها الاغتراف من البيانات من دون إذن مسبق ضارباً بحقوق الملكية الفكرية عرض الحائط، مشيرة إلى ضرورة التوصل إلى حلول مبتكرة للمضي قدماً.

تذكر المجلة أنه منذ وقت ليس بعيداً، طرح محللون متخصصون في التكنولوجيا أسئلة عن قدرة الذكاء الاصطناعي على إنهاء أبدي لمسار "أدوبي"، Adobe الشركة الأميركية الشهيرة صناعة برمجيات الحواسيب المتخصصة في الطباعة والتصميم والأنيميشين والغرافيكس، إذ بدا أن التطبيقات الذكية الجديدة على شاكلة "دال- إي- 2" dall-e 2 و"ميدجورني " Midjourney التي تتمتع بالقدرة على إنشاء صور عالية الجودة لكل ما يوصف لها كتابة، ستجعل عروض تحرير الصور من "أدوبي" عديمة الفائدة. وفي أبريل (نيسان) الماضي، نشر الموقع الإلكتروني المتخصص في الأخبار المالية والاقتصادية، "سيكينغ ألفا" Seeking Alpha مقالة بعنوان "هل يقضي الذكاء الاصطناعي" على أدوبي؟

وعلى النقيض من ذلك، تشرح "إيكونوميست"، توسلت "أدوبي" قاعدة بياناتها الخاصة التي تحوي مئات ملايين الصور المخزنة كي تطور مجموعتها الخاصة من أدوات الذكاء الاصطناعي "فايرفلاي" Firefly . منذ إطلاقه في مارس (آذار) الماضي، استعان مستخدمون بذلك البرنامج الذكي في صنع ما يربو على مليار صورة، بحسب دانا راو، واحدة من المسؤولين التنفيذيين في الشركة. وعلى ذلك النحو، تفادت "أدوبي" اللجوء إلى التنقيب في البيانات الموضوعة على الإنترنت في بحثها عن الصور اللازمة، خلافاً للشركات المنافسة، مما أدى إلى نجاحها في تحاشي النزاع المتصاعد حول حقوق الملكية الفكرية الذي صار ملازماً لهذه الصناعة الآن. بالنتيجة، ارتفع سعر سهم "أدوبي" بـ36 في المئة منذ إطلاق "فايرفلاي".

ووفق المجلة، يعبر الفوز الذي ظفرت به "أدوبي" عن نقطة أوسع تتعلق بالتنافس على الهيمنة ضمن سوق أدوات الذكاء الاصطناعي السريعة التطور، إذ تعتمد النماذج الضخمة التي تشغل الموجة الأخيرة التي حملت تسمية الذكاء الاصطناعي "التوليدي" generative ai ، على قدر مهول من البيانات. وبعدما ساعدت نفسها فعلاً عن طريق الإنترنت، ومن دون الحصول على إذن غالباً، تبحث شركات الذكاء الاصطناعي الآن عن مصادر جديدة علها تلبي حمى تغذية النماذج الذكية بالبيانات. في الوقت نفسه، تبحث الشركات التي تملك مجموعة ضخمة من المعلومات عن أفضل السبل للاستفادة منها. وفي الوقت نفسه، يستمر الاستيلاء على البيانات في السير قدماً.

في البحث عن الكتب المرجعية

بحسب "إيكونوميست"، إن المكونين الأساسيين لأي نموذج من الذكاء الاصطناعي هما أولاً مجموعات البيانات التي يخضع النظام للتدريب عليها، وثانياً قوة المكونات إلكترونية، خصوصاً الرقائق الإلكترونية التي يكتشف النموذج من خلالها العلاقات في مجموعات البيانات. إلى حد ما، من المستطاع الاستعاضة بأحد هذين المكونين كبديل عن الآخر. ومثلاً، من الممكن إدخال تحسينات على النموذج الذكي عن طريق إمداده بمزيد من البيانات، أو تعزيز قوة المعالجة. ومع ذلك، أصبح العنصر الأخير صعباً بسبب النقص في شرائح الذكاء الاصطناعي المتخصصة، مما دفع مطوري النماذج إلى التركيز بشكل مضاعف على البحث عن البيانات.

في الواقع، يتزايد الطلب على البيانات بسرعة كبيرة إلى حد أن مخزون النصوص العالية الجودة المتاحة لتدريب النماذج الذكية الاصطناعية ربما يستنفد بحلول عام 2026، وفق تقديرات خلصت إليها المؤسسة البحثية "إيبوك أي آي" Epoch ai . ومن المتوقع، بحسب تقرير المجلة، تدريب نماذج الذكاء الاصطناعي التي صدرت أخيراً من شركتي "غوغل" و"ميتا" [مالكة فيسبوك]، العملاقتين في مجال التكنولوجيا، على أكثر من تريليون كلمة. وبالمقارنة، يبلغ مجموع الكلمات الإنجليزية في الموسوعة الإلكترونية المفتوحة "ويكيبيديا" حوالي أربعة مليارات كلمة.

كذلك تؤكد المجلة نفسها أن حجم مجموعات البيانات مهم، لكن كلما تحسنت نوعية البيانات، أعطت نموذجاً ذكياً أكثر تطوراً. وتتدرب النماذج اللغوية الكبرى التي ظهرت حتى الآن على النصوص كي تتوصل إلى كتابة مقاطع طويلة وجيدة ودقيقة في وقائعها، وفق ما يشير إليه راسل كابلان من الشركة الناشئة "سكيل أي آي " Scale ai المتخصصة في البيانات. وبالتالي، حينما تتغذى النماذج بتلك المعلومات فالأرجح أنها ستعطي نتائج عالية الجودة أيضاً. وبالمثل، تقدم روبوتات الدردشة الذكية إجابات أفضل حينما يطلب منها شرح عملها خطوة بخطوة، مما يزيد الطلب على مصادر كالكتب المرجعية. كذلك تحظى مجموعات المعلومات المتخصصة بالتقدير لأنها تسمح "بصقل" النماذج الذكية كي تتناسب مع التطبيقات الذكية المتخصصة. مثلاً، إن استحواذ "مايكروسوفت" على "جيت هاب" GitHub الذي يعتبر مستودعاً لشيفرات برمجيات الكمبيوتر، مقابل 7.5 مليار دولار عام 2018 قد ساعدها في تطوير أداة ذكاء اصطناعي لكتابة التعليمات المتعلقة بالبرمجيات.

وتوضح "إيكونومسيت" أنه مع تصاعد الطلب على البيانات، بات الوصول إليها أكثر صعوبة، إذ يطالب صنّاع المحتوى الآن بتعويض عن المواد التي أعطيت إلى نماذج الذكاء الاصطناعي. سبق أن أقيمت دعاوى متعلقة بانتهاك حقوق الملكية الفكرية ضد مطوري نماذج ذكية في أميركا. ومثلاً، تقدمت مجموعة من المؤلفين، من بينهم الممثلة الكوميدية سارة سلفرمان بدعوى قضائية ضد شركة "أوبن أي آي" Openai ، صانعة روبوت الدردشة الذكي "تشات جي بي تي " Chatgpt ، وضد شركة "ميتا". وحذت حذو أولئك المؤلفين مجموعة من الفنانين الذين احتجوا هذه المرة ضد شركتي "ستابيلتي أي آي" Stability ai و"ميدجورني" اللتين تطوران أدوات تحويل النصوص إلى صور.

وبحسب تقرير "إيكونوميست"، جاءت النتيجة على هيئة موجة من الصفقات مع تسابق شركات الذكاء الاصطناعي على الوصول إلى مصادر البيانات والاستحواذ عليها. في يوليو (تموز) الماضي، وقعت "أوبن أي آي" صفقة مع وكالة الأنباء "برس أسوسييشن" تسمح لها بالوصول إلى أرشيفها الإخباري. كذلك عمدت أخيراً إلى توسيع اتفاق مع "شاتر ستوك"، الشركة المتخصصة في تقديم خدمات التصوير الفوتوغرافي، وقد أبرمت "ميتا" صفقة معها أيضاً. وفي الثامن من أغسطس (آب) الجاري، أفيد بأن "غوغل" قيد نقاشات مع الشركة المتخصصة في تسجيل الموسيقى "يونيفرسال ميوزك" بغية الحصول على تراخيص تتيح الاستعانة بأصوات الفنانين في تغذية أداة ذكاء اصطناعي تسمح للمستخدمين بكتابة الأغاني. وانتشرت إشاعات حول اقتراب مختبرات الذكاء الاصطناعي من هيئة الإذاعة البريطانية (بي بي سي) لتحقيق هدف مماثل. ويتمثل الهدف المفترض الآخر في "جيستور " jstor ، المكتبة الرقمية للمجلات الأكاديمية العالمية.

واستطراداً، تلفت مجلة "إيكونوميست" إلى أن الجهات المالكة للمعلومات تستفيد من امتلاكها قدرة أكبر على المساومة. مثلاً، إن منتدى المناقشة عبر الإنترنت "ريديت " Reddit ، وموقع "ستاك أوفر فلو" Stack Overflow الذي يقدم أسئلة وأجوبة عن برمجيات الكمبيوتر، قد زادا من كلفة الوصول إلى بياناتهما. في الواقع، يكتسي الموقعان قيمة خاصة لأن المستخدمين "يؤيدون" الإجابات المفضلة، مما يساعد النماذج الذكية في معرفة أي من المعلومات تعتبر الأنسب لاستخدامها في ردودها.

في مسارٍ موازٍ، اتخذ موقع التواصل الاجتماعي "تويتر" المعروف الآن باسم منصة "إكس" X )) تدابير تهدف إلى الحد من قدرة روبوتات الدردشة الذكية على الاغتراف من بيانات الموقع، وقد لجأ الآن إلى فرض رسوم مالية على أي جهة ترغب في الوصول إلى بياناته. ويعتزم إيلون ماسك، مالك المنصة المعروف بتقلباته المزاجية، تطوير مشروعه المتخصص في الذكاء الاصطناعي عبر الاستفادة من البيانات الموجودة على تلك المنصة.

حدود متلاعبة بآفاق مفتوحة

وفق شرح قدمه تقرير "إيكونوميست" نفسه، لا يدخر مطورو النماذج الذكية جهداً في تعزيز جودة البيانات التي في حوزتهم أصلاً، إذ توظف مختبرات كثيرة للذكاء الاصطناعي جيوشاً ممن يعملون على تعريف مجموعات البيانات المطلوبة في أداء مهمات على غرار تصنيف الصور وتقييم الإجابات. وتتسم بعض جوانب هذا العمل بالتعقيد، إلى حد أن إعلاناً في شأن إحدى هذه الوظائف يطلب حاصلين على درجة ماجستير أو دكتوراه في علوم الحياة. وفي المقابل، ثمة جوانب كثيرة من تلك الأعمال تعتبر عادية أيضاً، لذا تسند إلى أشخاص في بلاد أخرى مثل كينيا حيث العمالة رخيصة.

في مسار متصل، تعكف شركات متخصصة في الذكاء الاصطناعي على جمع البيانات عن طريق تفاعلات المستخدمين مع أدواتهم، وفق ما تشرح "إيكونوميست" في المقالة عينها، موضحة أن كثيراً من هذه الأدوات يتميز بخاصية "التغذية الراجعة " Feed Back ، بحسب تسميتها التقنية، ومن خلالها يحدد المستخدمون المخرجات المتولدة المفيدة.

[تعتمد آلية التغذية الراجعة على الربط بين المُدخلات والمخرجات في منظومة معينة. مثلاً، يجب أن تتدفق مياه إلى خزان ما إلى نقطة الامتلاء، بعدها، يتوجب وجود تغذية راجعة كي توقف ذلك التدفق، ثم تعيد التدفق حينما ينخفض مستوى المياه تحت مستويات محددة].

ومثلاً، يتيح منشئ تحويل النص إلى صورة من "فايرفلاي" للمستخدمين انتقاء خيار من بين أربعة خيارات. كذلك يقترح "بارد " Bard ، روبوت الدردشة من "غوغل"، ثلاث إجابات. وفي مقدور مستخدمي "تشات جي بي تي" رفع الإبهام تأييداً لإجاباته أو توجيهها نحو الأسفل اعتراضاً. في المستطاع تغذية هذه المعلومات مرة أخرى كمدخلات في النموذج الأساسي، وتشكيل ما يسميه دو كيلا، المؤسس المشارك للشركة الناشئة "كونتكسشويل أي آي"، "دولاب موازنة البيانات" [إشارة إلى طريقة عمل التغذية الراجعة]. وكذلك يشير كيلا إلى دليل أقوى على جودة إجابات روبوت الدردشة، يتمثل في لجوء المستخدمين إلى نسخ النص ولصقه في مكان آخر. مثلاً، ساعدت هذه المعلومات "غوغل" في إدخال تحسينات سريعة على أداتها الخاصة بالترجمة.

ولكن تشير المجلة إلى مصدر واحد للبيانات ما زال متروكاً من دون الاستفادة منه، يتجسد في المعلومات الموجودة داخل شبكة جمهور شركات التكنولوجيا. تملك شركات عدة، غالباً عن غير قصد، كميات مهولة من البيانات المفيدة، بدءاً بمحاضر مراكز الاتصال وصولاً إلى سجلات إنفاق العملاء. تمتلك تلك المعلومات قيمة خاصة بسبب فائدتها في ضبط النماذج الذكية المستخدمة لأغراض تجارية محددة، على غرار مساعدة العاملين في مركز الاتصال على تقديم الإجابات عن الاستفسارات، أو إيجاد محللين لطرق زيادة حجم المبيعات.

ومع ذلك، فإن استخدام تلك الموارد الغنية بالمعلومات لا يشكل دوماً خطوة سهلة، إذ يشير روي سينغ من شركة "باين" Bain الاستشارية إلى أن معظم الشركات لم تهتم تاريخياً بأنواع مجموعات البيانات الضخمة، إنما غير المنظمة التي من شأنها أن تكون مفيدة جداً في تدريب أدوات الذكاء الاصطناعي. هكذا، نجد مجموعات من البيانات الضخمة منتشرة غالباً عبر أنظمة رقمية مختلفة، لكنها مدفونة في خوادم الشركة بدلاً من وضعها سُحُب المعلومات [أي قواعد البيانات الضخمة المتخصصة والمثبتة على الإنترنت].

في مسار موازٍ، يتضح أن الإفراج عن هذه المعلومات سيساعد الشركات، في رأي "إيكونوميست"، على صنع أدوات ذكاء اصطناعي متخصصة كي تستطيع تلبية حاجاتها بشكل أفضل. وفي ذلك الإطار، تقدم الشركتان التكنولوجيتان العملاقتان "أمازون" و"مايكروسوفت" أدوات لمساعدة الشركات في تحسين إدارة مجموعات البيانات غير المنظمة، على غرار ما تنهض به "غوغل". وكذلك تنقل المجلة عن كريستيان كلاينرمان من الشركة المتخصصة في البيانات "سنوفلايك " Snowflake ، أن الشركات تزدهر حيث يتطلع العملاء إلى "هدم صوامع البيانات" [بمعنى سعي الجمهور إلى الوصول لأقصى كمية ممكنة من البيانات بغية استخدامها في صنع محتويات جديدة].

وفي الحقيقة، تتدافع الشركات الناشئة في سياق التنافس على تلك المساحة. في أبريل 2023، جمعت قاعدة البيانات "ويفييت" Weaviate 50 مليون دولار وبلغ تقييمها 200 مليون دولار. وبعد أسبوع بالكاد، استطاعت الشركة المنافسة "باين كون " PineCone ، أن تجمع 100 مليون دولار ووصل تقييمها حتى 750 مليون دولار. في وقت سابق من الشهر الجاري، جمعت "نيون " Neon ، علماً أنها شركة ناشئة أخرى لإدارة قواعد البيانات، تمويلاً إضافياً قدره 46 مليون دولار. أمام هذا المشهد، يبدو أن هذا التدافع على البيانات ما زال في بدايته ليس إلا، وفق خلاصة أوردتها المجلة في ختام تقريرها نفسه.

* (إندبندت عربية)

المقالات

سيف محمد الحاضري

عشرة ترليونات ريال لكهرباء عدن وعدن مازالت بلا كهرباء!!!

خالد الرويشان

قمة البحرين.. هوامش سريعة عن النائمين في المنامة! مفارقات مضحكة وعجائب مبكية!

علي أحمد العِمراني

غياب اليمن في قمة المنامة!

تحقيقات

كيف تحوّلت مؤسسات صنعاء إلى “فقَّاسة صراع” الأجنحة داخل جماعة الحوثي؟ (تحقيق حصري)

حوّل خلاف موالين لجناحين (متشددين) متعارضين داخل جماعة الحوثي المسلحة “جلسة مقيّل” خاصة- بالعاصمة اليمنية صنعاء خلال عيد الأضحى المبارك- إلى توتر كاد يوصل إلى “اقتتال” في “مجلس” مليء بالأسلحة والقنابل ا� مشاهدة المزيد

المحرر السياسي

الرئاسي والحكومة.. أسود على الجيش نعام على المليشيات

2022-11-30 09:33:59

الوطن يغرق على نغم في ضفاف النيل

2022-11-14 05:01:41

تصنيف مليشيات الحوثي منظمة إرهابية بين التنفيذ والتضليل

2022-10-30 05:01:32

حوارات

وزير الدفاع يتحدث عن الحرب العسكرية ضد ميليشيا الحوثي ويكشف سر سقوط جبهة نهم والجوف ومحاولة اغتياله في تعز ولقائه بطارق صالح وتخادم الحوثيين والقاعدة وداعش

كشف وزير الدفاع الفريق ركن محسن محمد الداعري، ملف سقوط جبهتي نهم والجوف، بقبضة ميليشيا الحوثي، للمرة الأولى منذ تعيينه في منصبه. وأشاد الداعري، في حوار مع صحيفة "عكاظ" بالدعم بالدور المحوري والرئيسي الذي لعبته السعودية � مشاهدة المزيد

إمداداتها ضرورية لتدريب الآلات التي تصنع النماذج اللغوية الكبرى.. صراع عالمي على البيانات بوصفها غذاء الذكاء الاصطناعي التوليدي