في عصر التحولات الرقمية، أصبحت الدراسات الإنسانية تعتمد بشكل متزايد على استخراج المعرفة من النصوص الرقمية لتعزيز الفهم والبحث. يستكشف هذا المقال منهجاً مبتكراً يستخدم نماذج اللغة المتقدمة لاستخراج المعرفة من النصوص المدونة بتنسيق TEI/XML، مع التركيز على أعمال الشاعر الإيطالي الشهير جاكومو ليوباردي. يهدف البحث إلى إنشاء رسوم بيانية المعرفة (KGs) التي تتمتع بتنسيق قابل للقراءة من قبل الآلات من نصوص غير منظمة، مما يسهل استكشاف العلاقات بين المعلومات وانفتاحها على موارد خارجية. سنبحث في منهجية مبتكرة تربط بين نماذج اللغة الكبيرة والخوارزميات التقليدية لاستخراج العلاقات، موضحةً الفوائد التي تحققها هذه العناصر عند التعامل مع النصوص الأدبية الإيطالية. من خلال دراسة حالة خاصة لأعمال ليوباردي، نقدم رؤية جديدة حول كيفية تعزيز استخراج المعرفة ودعمه للبحوث الأدبية.
تقديم البحث في استخراج المعرفة من النصوص الأدبية
يتناول هذا البحث مسألة استخراج المعرفة من النصوص الأدبية المرمزة بـ TEI/XML، ويركز بشكل خاص على أعمال الشاعر الإيطالي جياتشومو ليوباردي. يشتهر ليوباردي بلغته الشعرية الغنية وأفكاره العميقة، مما يجعله أحد أبرز الكتاب في الأدب الإيطالي. تم استخدام نموذج لغوي متعدد اللغات، مثل ChatGPT، في استخرج التراكيب اللغوية من النصوص الأدبية، وهذه العملية تهدف لإنتاج رسوم بيانية للمعرفة قابلة للقراءة الآلية. يعد هذا البحث خطوة مهمة نحو تحسين طرق الوصول إلى المعلومات من المجموعات الأدبية الكبيرة، ويوفر قاعدة قوية لتعزيز البحث العلمي في مجالات العلوم الإنسانية الرقمية.
النهج التجريبي لخلق رسوم بيانية المعرفة
يتضمن النهج التجريبي في هذا البحث استخدام بيانات من 41 ملف TEI/XML مستندة إلى خطابات ليوباردي. يتم تحويل النصوص غير المنظمة إلى تنسيقات شبه منظمة تسهل تفسيرها بواسطة نماذج اللغة العامة الموجودة مسبقًا. يركز البحث على تطوير نظام يستفيد من النماذج اللغوية الكبيرة ونماذج استخراج العلاقات التقليدية، حيث يتم دمج تقنيتي استخراج الكيانات واستخراج العلاقات لتحقيق نتائج دقيقة ومتسقة. يضيف البحث أيضًا آلية تصفية قائمة على التشابه لضمان الحفاظ على الاتساق الدلالي في النتائج المستخرجة، مما يؤدي في النهاية إلى تحسين جودة الرسوم البيانية للمعرفة المستخلصة.
التحديات والفرص في استخراج المعرفة من النصوص التاريخية
تستخلص الطرق التقليدية لخلق الرسوم البيانية للمعرفة العديد من الفوائد، ولكنها تواجه أيضًا تحديات خاصة عند التعامل مع النصوص التاريخية. تظهر صعوبات في تحديد الكيانات وإسقاط العلاقات بينهما بسبب الفرق في اللغة والأسلوب مقارنة بالنصوص الحديثة. من الضروري تطوير نماذج مخصصة تأخذ بعين الاعتبار خصوصيات النصوص التاريخية وتنوعها اللغوي. يسلط البحث الضوء على أهمية معالجة هذه التحديات لتحقيق الفوائد الكاملة لاستخراج المعرفة من الأدب التاريخي، مثل كشف الحضارات والثقافات من خلال فهم أعمال الكتاب القدماء مثل ليوباردي.
نتائج البحث والقياس الكمي للجودة
عند مقارنة النهج المقترح بقاعدة نموذجية بسيطة، أظهرت النتائج تحسنًا ملحوظًا في دقة المعرفة المستخرجة. كان للرسوم البيانية الناتجة عدد أقل من العلاقات، لكنها كانت أغنى دلاليًا، حيث ركزت بشكل رئيسي على الأنشطة الأدبية والصحة لليوباردي. هذا يعكس الأهمية الكبيرة للمعرفة المستخرجة لفهم حياة وأعمال الكاتب. يستخدم research الأرقام والنسب كمقياس للأداء، مما يمنح الباحثين القدرة على معرفة فعالية الأساليب المختلفة وتطبيقها على نصوص أدبية أخرى.
البحوث المستقبلية وتوسيع نطاق البحث
بناءً على النتائج المحققة، يقترح البحث إمكانية توسيع مجال الدراسة ليشمل نصوص أدبية أخرى وأنواع مختلفة من الأدب. تعتبر النماذج اللغوية الكبيرة أداة قوية تتيح الفرصة لاستكشاف المزيد حول النصوص الثقافية والتراثية. يمكن أن تساهم نتائج هذا البحث في تعزيز جهود الباحثين في المجال الرقمي الإنساني، من خلال إتاحة وسائل أكثر فعالية لاستكشاف وفهم النصوص الأدبية، من خلال إنتاج قواعد بيانات شاملة وذكية تعزز من إمكانية البحث والتواصل بين المعرفة التاريخية والعصرية. علاوة على ذلك، يجب النظر في تطوير نماذج جديدة تأخذ في الاعتبار الظواهر الثقافية والاجتماعية المختلفة التي تمثلها النصوص الأدبية الكلاسيكية.
التحديات في استخراج الكيانات من النصوص الإنسانية
تعتبر عملية استخراج الكيانات (Entity Extraction) من النصوص الأدبية والتاريخية أمرًا معقدًا نظرًا للتحديات اللغوية والاصطلاحية التي تتطلبها مثل هذه النصوص. تسعى العديد من الدراسات لتطوير أدوات متخصصة في هذا المجال، إلا أن معظمها يواجه قيودًا ملحوظة، بما في ذلك التركيز على نصوص اللغة الإنجليزية فقط وعدم توفر مجموعات بيانات محددة لمجالات معينة. مثلاً، استخدمت العديد من الدراسات أدوات مثل DBpedia Spotlight على مجموعات نصية معينة، ومع ذلك، لم تتناول هذه الأعمال بشكل كثيف كيفية استخراج العلاقات بين الكيانات، مما يعتبر عنصراً أساسياً لبناء قواعد بيانات معرفة موثوقة (Knowledge Graphs – KGs).
من جهتهم، تناولت دراسات أخرى استخراج العلاقات (Relationship Extraction – RE) من خلال تحسين الوصول إلى مجموعات النصوص الأدبية والتاريخية. مثلاً، اقترحت دراسة Reinanda وزملائه (2013) نهجًا هجينًا يجمع بين العثور على الارتباطات وRE لبناء شبكات من الكيانات، وكان هذا مفيدًا في الوثائق التاريخية والسياسية. ومع ذلك، واجه هذا النهج صعوبات في التعامل مع التعقيدات النادرة في مجالات اللغة المتنوعة مثل العلوم الإنسانية. تبين أن الأساليب المستخدمة، مثل قياسات التواقت الإحصائية والنماذج الحديثة، قاصرة في توصيل العلاقات الأكثر دقة واستنادًا إلى الأحداث.
هناك أيضًا محاولات لاستخراج المعلومات المفتوحة (Open Information Extraction – Open IE) والتي تسعى لاستخراج علاقات أكثر تعقيدًا دون الاعتماد على مفردات أو أنطولوجيات محددة مسبقًا. ومع ذلك، تبين أن ذلك لا يؤدي إلى نتائج دقيقة عندما يُطبق على نصوص تاريخية، حيث تكون اللغة معقدة ومتعددة الاستخدامات. تكمن التحديات الحية في القدرة على التعامل مع الكيانات والعمليات المختلفة وإنتاج علاقات غنية بحيث تتناسب مع التعقيدات اللغوية للنصوص المستهدفة.
الدراسة الحالة: استكشاف نصوص ليوبرادي
من أجل اختبار الفرضيات السابقة، استُخدمت نصوص الشاعر الإيطالي الشهير غياكومو ليوبرادي كنموذج دراسي. تحتوي منصات مثل مكتبة “LiberLiber” و”Wikisource” على مجموعة متنوعة من نصوص ليوبرادي الرقمية. هذه النصوص هامة لأنها تشمل مراسلاته الخاصة والتي تحتوي على معلومات دقيقة تشمل الحقائق والنظرات الأدبية التي قد لا تكون متوفرة في قواعد بيانات خارجية مثل ويكيبديا. تسلط الدراسة الضوء على أهمية استخدام خوارزميات استخراج المعرفة لاستكشاف الشبكة الكاملة من الكيانات والعلاقات المشار إليها في مراسلات ليوبرادي.
جمع المكتبة الرقمية في جامعة كامبريدج مجموعة من المخطوطات؛ تشمل 41 مخطوطًا: 36 رسالة وقطعتين من “مقالات الترجمات” من لغات كلاسيكية. إن تحليل هذه النصوص يمثل تحديًا لفهم كل ما تحتويه من معاني وعلاقات. حيث تقوم الدراسة بمعالجة هذه البيانات من خلال تحليل النصوص والتعرف على الكيانات وكذلك تنظيم المعلومات في شكل منظم. وكانت الفكرة الرئيسية للطريقة البحثية هي تحويل مخرجات النصوص إلى شكل يمكن استخدامه في بناء قاعدة بيانات معرفة.
يقوم البرنامج بتحليل ملفات TEI/XML لاستخراج البيانات والمعلومات الوصفية. يعمل هذا البرنامج بكفاءة مع مكتبة Python lxml التي تسمح بالتعامل مع معلومات XML بسهولة. تم استخراج المعلومات الأساسية مثل معرّف الوثيقة، والعنوان، والتاريخ، وغيرها من البيانات للوصول إلى المعلومات بشكل منهجي.
الطرق المنهجية المستخدمة في استخراج المعرفة
بنيت الخطوات المنهجية في هذه الدراسة على مراحل متعددة لاستخرام المعرفة وفقًا لتقنية معالجة النصوص. تبدأ العملية بمسح النصوص الرقمية لكتابات ليوبرادي الموجودة في مكتبة كامبريدج الرقمية. تشير الطريقة المعتمدة إلى توظيف النماذج اللغوية الذكية للمساعدة في تسهيل استخراج المعلومات وتنظيمها في شكل يمكن التعامل معه. تتضمن الخطوات الأولية تجميع واستخراج النصوص إلى تنسيق JSON من خلال استخدام ChatGPT، والذي يقوم بتحليل الكيانات والعلاقات بما يتناسب مع السياق الأدبي والتاريخي.
يعتمد نموذج ChatGPT في استخراج العلاقات بين الكيانات عن طريق إنشاء ثلاثيات من نوع [الموضوع، الفعل، الكائن]، مما يفيد في توضيح العلاقات المختلفة دون الحاجة إلى بنية معروفة مسبقًا. يجري تحليل النتائج من الخطوة السابقة باستخدام نموذج seq2seq لاستنتاج علاقات بيانية تم ربطها بمخطط ويكي بيانات. تستفيد هذه الدراسات من أداة REBEL، وهي نموذج تم تدريبه على Wikipedia الإنجليزية، والتي تدعم عملية استخراج الأسماء مقابل استخدام طرازات موجهة دوليًا.
تُعتبر عملية تصفية النتائج الناتجة عن هذه النماذج ضرورية لتصفية النتائج غير الدقيقة وضمان تطابق العلاقات مع البيانات المنطقية. يعتمد هذا على دقة النماذج المستخدمة ومقدرتها على معالجة البيانات بشكل دقيق.
نموذج استخراج العلاقات والعلاقات الكيانية
تتطلب عملية استخراج العلاقات بين الكيانات نموذجًا يتيح تصنيف هذه العلاقات وفقًا لمفردات أو تصورات خارجية. هذا النموذج يقوم بتحويل البيانات المستخرجة من نماذج مثل ChatGPT إلى صيغة نصية بسيطة، التي تسهل التعرف على العلاقات وخصائصها. في هذه المرحلة، يتم تحويل المخرجات الناتجة عن ChatGPT من شكل JSON إلى نص عادي، مما يسهل عملية استخراج العلاقات. على سبيل المثال، يتم تحويل الثلاثية [“Paolina Leopardi”, “:locationOfWriting”, “Recanati”] تلقائيًا إلى نص بسيط، حيث يتم تجميع العناصر مع إضافة فراغات لتنظيمها. هذا يعد خطوة حاسمة لأنه يُمكّن نموذج استخراج العلاقات من فهم المحتوى ومعالجة النصوص الطبيعية.
عند إدخال نص مثل “Paolina Leopardi location of writing Recanati” إلى نموذج مثل REBEL، يُنتج النموذج قاموسًا يحتوي على خصائص مثل “head” و “tail” و “type”، حيث تشير “head” إلى الكيان الأول و “tail” إلى الكيان الثاني. من خلال استخدام خصائص من Wikidata، يتمكن النموذج من استخراج العلاقات وفقًا لمجموعة محددة مسبقًا، مما يتيح إمكانية استخدام قواعد منطقية مثل التماثل أو عدم التماثل في العلاقات. يعتبر نموذج REBEL ذو مزايا عديدة، منها تيسير إنشاء قاعدة بيانات معرفية قابلة للتشغيل بين الأنظمة المختلفة.
استخراج العلاقات باستخدام نموذج seq2seq
تتضمن عملية استخراج العلاقات باستخدام نموذج seq2seq معالجة النصوص باستخدام المخرجات الناتجة من ChatGPT. يتم تحقيق ذلك عن طريق إعادة تشكيل البيانات في شكل يمكن للنموذج معالجته خارجيا. تعتبر مشكلة التصحيح والضبط لهذه البيانات أساسية، حيث يمكن للنموذج إنتاج ثلاثيات قد تكون صحيحة من الناحية النحوية ولكن غير دقيقة من الناحية الدلالية. للحد من هذه الإشكالية، يُستخدم نموذج REBEL المخصص للعمليات اللغوية الطبيعية والذي تم تدريبه على نصوص مشابهة مثل ويكيبيديا. ومع ذلك، فإن هذا النموذج يحتاج إلى تحسينات إضافية عندما يتعلق الأمر بالنصوص التي تحتوي على معلومات معقدة.
بينما يتم استخدام الخاصية “المرتبطة بالأخ” في Wikidata كخاصية متناظرة، يُمكن استخدام نفس العلاقة بطرق مختلفة لتعزيز قاعدة البيانات. على سبيل المثال، إذا تم استخراج ثلاثية تشير إلى “Giacomo Leopardi” و”Paolina Leopardi” كأخوة، فإن العلاقة المتناظرة يمكن أن تساعد في تعزيز البيانات بطرق غير تقليدية، مما يجعل المعلومات أكثر ثراءً. من خلال إدخال مزيد من التفاعلات والقيود المنطقية مثل عدم التماثل، يمكن استكشاف الرسوم البيانية الناتجة بشكل أعمق.
عملية تصفية البيانات باستخدام SBERT
تتمثل إحدى التحديات الرئيسية في نموذج REBEL في احتمال إنتاج ثلاثيات غير دقيقة بسبب تكوينه على نصوص ويكيثيرا. لتقليل الأخطاء، توجد حاجة إلى خطوة تصفية تساهم في الحفاظ على عدم التناقض بين المعلومات المستخرجة. يتم استخدام نموذج SBERT، الذي يقوم بترميز النصوص الطويلة وتحويلها إلى استجابات في شكل متجهات. يهدف هذا إلى ضمان تمييز الثلاثيات ذات المعاني المتباينة واستبعادها من قاعدة البيانات.
عند تطبيق نموذج SBERT على مخرجات استخراج الثلاثيات، يتم تطبيق عتبة على التشابه الزاوي between الصيغ المتجهة للثلاثيات المستخرجة. تم استخدام عتبة 0.9 والتي تضمن الاحتفاظ بالثلاثيات المتشابهة بشكل وثيق، مما يقلل من الأخطاء. من خلال هذه العملية، يتحقق من أن الجودة دائمة وتظل توافق المعطيات مستمرة، مما يؤدي إلى تعزيز قاعدة البيانات المعرفية.
توليد الرسم البياني RDF وربط الكيانات
تدخل البيانات المستخرجة إلى مرحلة إضافية تتمثل في دمج الثلاثيات مع بيانات التعريف من النسخة المُعدلة. تُستخدم العديد من الأنتولوجيات التي تم تحديدها مسبقًا، مما يجعل من الممكن تكامل المعلومات بشكل أكثر فعالية. يتم تمثيل الوثيقة باستخدام فئة E31_Document. علاوة على ذلك، يُستخدم مصطلح Dublin Core لتفصيل خصائص الوثيقة مثل العنوان والتاريخ واللغة.
يتم تمثيل كل ثلاثية في قاعدة بيانات RDF باستخدام تقنية إعادة التوصيف. تتضمن كل ثلاثية عنصرًا يمثل بيانًا يتضمن تصنيفًا لكل من الموضوع والفعل والمصدر. يُتيح ذلك تسهيل الرجوع إلى البيانات المرتبطة وبالتالي تعزيز فائدة قاعدة البيانات. من خلال تطوير اتصالات قوية مع عناصر في Wikidata، يمكن تحسين القدرة على مفهوم التجسيد وغير ذلك من التفاعلات المعقدة.
نتائج تقييم جودة قاعدة البيانات المعرفية
عند تقييم جودة قاعدة البيانات المستخرجة، تم اعتماد نظام مقارنة مبني على نموذج بسيط للاستخراج متعدد اللغات. وقد أظهرت نتائج التجارب أن تحسين النتائج من خلال استخدام REBEL وتقنيات التصفية قد ساعد في التحقق من صحة البيانات وزيادة الدقة. بشكل خاص، أظهرت النتائج المقارنة أن دقة الثلاثيات المقبولة كانت أعلى بشكل ملحوظ.
تم قياس نسبة الدقة الدلالية واستمرارية البيانات، وقد تبين أن جميع المعايير المتعلقة بالنصوص المعقدة قد تم تلبيتها بشكل جيد. هذا يؤكد أن استخدام نماذج الذكاء الاصطناعي التوليدية مثل ChatGPT مع أدوات استخراج العلاقات يزيد من كفاءة عملية بناء قاعدة بيانات معرفة لقضايا أدبية معقدة. هذا النوع من المزيج يمكن أن يطرح فرصًا جديدة في مجالات البحث الأدبي وتطوير علوم المعلومات.
أداء نموذج mREBEL وعوامل التحدي
يعتمد الأداء المورد بنموذج mREBEL على عدة عوامل رئيسية توضح سبب تفوقه وتحدياته عند التعامل مع نصوص متنوعة. يبدأ هذا التحليل بالتأكيد على أن mREBEL تم تدريبه بشكل أساسي لاستخراج ثلاثيات [موضوع، فعل، كائن] من مقتطفات صغيرة في ويكيبيديا، مما يجعله يواجه صعوبات كبيرة عندما يتم تطبيقه على نصوص أطول وأكثر تعقيدًا مثل رسائل الشاعر الإيطالي جيامباتيستا ليوباردي. يتضح من هذا أن إعداد النموذج وتدريبه قد لا يتناسب مع تعقيدات النصوص التاريخية أو الأدبية التي تحتوي على لغة وصيغ غير مألوفة.
على سبيل المثال، يشتمل نص ليوباردي على استخدامات معينة للألفاظ والعلاقات التي يصعب على نموذج mREBEL معرفتها بدقة. فغير أن سياق الخطاب قد يختلف، إلا أن بعض الكلمات، مثل كلمة “مدالية” التي تشير في رسالته إلى عملة بدلاً من وسام، تعزز من عمق التحديات التي يواجهها النموذج في فهم النصوص القديمة. هذه الفجوة تؤكد على الحاجة الملحة لتطوير نماذج قادرة على التعامل مع تعقيد اللغة في فترات زمنية مختلفة.
بالإضافة إلى ذلك، تم إجراء دراسة تقليل القياس لمعرفة مدى جودة استخراج البيانات عند كل خطوة من خطوات العملية. أظهرت النتائج أن معدلات الدقة المعنوية كانت أقل عند استخدام mREBEL مقارنةً بـ ChatGPT، مما يسلط الضوء على أهمية تحسين طرق استخراج العلاقات وتكيف النماذج مع النصوص المتخصصة. استنتج أن هذه التحديات تعكس العائق المحدد في فهم اللغة التاريخية وفتح مدى أكبر من الفهم للمكونات الأدبية الدقيقة والروابط بينها.
استراتيجية استخراج المعرفة وتحسين الدقة
أثبت استخدام استراتيجية استخراج المعرفة المقترحة في هذا السياق نجاحًا كبيرًا، حيث يُظهر أن الجمع بين نماذج اللغة المتعددة اللغات وتقنيات استخراج العلاقات يمكن أن يعزز من جودة المعرفة المستخلصة. تتجلى الفكرة في إدراك كيف يمكن لنموذج مُصمم خصيصًا والمعزز بتقنيات متقدمة أن يزيد من الدقة في استخراج الحقائق والمعلومات المتعلقة بالنصوص الأدبية.
الأداء العالي للنموذج تمثل في دقة تبلغ 0.67 وموثوقية عالية تصل إلى 0.93، مما يجعل من هذه الطريقة أفضل من الأساليب الأخرى التي تعتمد فقط على التدريب على مصادر المعلومات العامة مثل ويكيبيديا. يتجلى الاختلاف واضحًا عندما يتمكن النموذج من استخراج بيانات RDF بدقة أكبر، حيث يسمح له باستخدام خاصية Wikidata لتسهيل استفسارات SPARQL واستفادة أكبر من الخصائص المنطقية مثل التناظر والتبعثر.
من ناحية أخرى، تعزز هذه الاستراتيجية من وضوح وموثوقية عملية استخراج المعرفة. ولذا، ينبثق أهمية استخدام بيانات LLM التي تم توليدها بشكل صحّي والدقة في القيم المستخرجة، حيث يتم التحقق من التجانس والتصادم بين مقاييس البيانات المدخلة والنواتج. هذا يعزز فهم المستخدمين لكيفية استخراج المعلومات من خلال الرسائل المعنية. يدعو ذلك إلى الحفاظ على عملية مستدامة متوائمة مع المعرفة التاريخية والأدبية للنصوص التي يتم تحليلها.
تحديات ومخاطر الاعتماد على نماذج الذكاء الصناعي
رغم التقدم الموجود في تقنيات استخراج المعرفة، إلا أن الاعتماد على نماذج مثل ChatGPT يتطلب التعامل بحذر، إذ يمكن أن تؤدي التوليدات الزائفة إلى أخطاء في البيانات المستخرجة. هذا الضعف قد يحدث بسبب فقدان الدقة عند معالجة البيانات عن طريق مجموعة من الأدوات التي لم يتم تصميمها معًا. بهذه الطريقة، تتجلى الحاجة إلى إشراك الإشراف البشري في خطوات معينة من عملية الاستخراج لتقليل الأخطاء وتقديم نتائج ذات موثوقية أعلى.
لديها أيضًا تأثيرات على كيفية تعامل الباحثين مع نتائج التشغيل الحي، مما يحتم استخدام استراتيجيات محكمة وقوائم تحقق للمعلومات المستخرجة. ومن خلال الانتباه إلى هذه التحديات، يصبح من الممكن تحسين النتائج من خلال خطوات مدروسة تشكل طيفاً من الخيارات المتاحة.
أخيرًا، سيكون من المفيد تطوير أطر معيارية لاختبار الطرق المستعملة لاستخراج المعرفة مع التركيز على اعتبارات وإمكانيات البيانات الخاصة، مما يساعد على تأطير مقابل صحي للسماح بتحقيق نتائج مثلى في المستقبل.
التوسع في استراتيجيات استخراج المعرفة للأدب الإيطالي
يتطلع البحث المتقدم في هذا المجال إلى فتح الأفق التكنولوجي لفهم النصوص الأدبية بشكل أكبر. فهناك خطط لتوسيع مجموعة البيانات المستخدمة، وهذا يتضمن البحث عن جمل جديدة تُعبّر عن معاني أكثر دقة. يتوجب على ذلك تحديد تناقضات الخصائص والمعايير في شبكات المعرفة المكتسبة من خلال إدراج المعايير المرتبطة بأدب ليوباردي.
بالإضافة إلى ذلك، من الضروري بناء أسس معيارية لاستكشاف استخدامات إضافية للنماذج المستخدمة، مع التفكير في كيفية استخدام الفهم اللغوي من نماذج الذكاء البديل للإجابة على استفسارات معقدة. هذه المنهجية تتضمن بناء نظم متكاملة تنظم معلومات تم الحصول عليها مسبقًا بهدف فهم العلاقات بين المِنصَات الثقافية والنصوص أدبية بشكل متقن.
خلال هذه الفرضيات، سيكون مفيدًا توظيف أدوات دعم البرمجيات الدقيقة لإجراء استفسارات عدوانية على مجموعات البيانات الأدبية، مما يعزز وجود قاعدة بيانات غنية بمعلومات أكاديمية لأدب ليوباردي. هذا المجهود يمثل استثماراً لفرص دراسات مستقبلية تستهدف تعزيز أداء النماذج ومنحها قدرات استقصائية أكبر على النصوص الأدبية التاريخية.
أهمية استخراج المعرفة في العلوم الإنسانية الرقمية
أصبح استخراج المعرفة من النصوص الرقمية أمرًا حيويًا في مجال العلوم الإنسانية الرقمية. يتطلب الأمر التعامل مع مجموعات ضخمة من المواد الثقافية والتراثية، مما يساهم في تعزيز البحث والتفهم. تعد الأعمال الأدبية التي كتبها غياكومو ليوبرادي مثالاً بارزًا على هذا التحدي، حيث يُعتبر ليوبرادي واحدًا من أهم الكتاب في الأدب الإيطالي. وُلد ليوبرادي في مدينة ريكانيتي الصغيرة في إيطاليا عام 1798، وهو كاتب مشهور بشعره الذي ترجم إلى أكثر من عشرين لغة. مع توفر أكثر من 15,000 نسخة رقمية من مخطوطاته في العديد من المنصات الاجتماعية، يصبح من الضروري استخدام تقنيات فعالة لاستخراج المعرفة لفهم محتوى أعماله بشكل أفضل.
تعتبر الطرق المستخدمة في استخراج المعرفة ضرورية عندما نتعامل مع مجموعات تاريخية كبيرة من النصوص الأدبية. فعلى الرغم من وجود رسومات معرفية عامة مثل ويكيداتا وDBpedia، فإن هذه الرسوم قد لا تشمل جميع الكيانات والعلاقات المشار إليها في نصوص معينة. على سبيل المثال، قد لا تحتوي معلومات كاتب موجود في ويكيداتا على تفاصيل مهمة حول حياته الشخصية أو علاقاته. هذا النقص في البيانات يجعل تقنيات استخراج المعرفة ضرورية لكشف كيانات جديدة وحقائق لا توجد في البيانات المفتوحة المتصلة.
التحديات في تمثيل المعرفة على الويب الدلالي
يمثل تمثيل المعرفة تحديًا كبيرًا عند مواجهة مجموعة واسعة من النصوص. على الرغم من فائدة الرسوم المعرفية مثل ويكيداتا، فقد تكون هناك كيانات محددة ترتبط بالأعمال الأدبية القديمة غير مُدرجة ضمن هذه الرسوم. ولذا يجب استخدام طرق استخلاص المعلومات والكيانات لإيجاد معلومات جديدة حول كتّاب التاريخ ومؤلفاتهم. هذه التحديات تشمل كتابة نصوص بلغة متعددة والبحث عن استنتاجات تتعلق بالأحداث والشخصيات التي لا تتواجد عادة على الشبكة.
يتطلب استخراج المعرفة الفعال من المواد التاريخية تقدير بنية النصوص، بما في ذلك العوامل الأدبية والثقافية. يتضمن ذلك إنشاء رسوم بيانية دلالية تعبر عن العلاقات بين الشخصيات والأحداث في سياقاتها المختلفة. بالنظر إلى أعمال ليوبرادي، يمكن للباحث أن يكتشف من خلال هذه الرسوم الدلالية الروابط المحورية التي لم يتم التطرق لها في الرسوم المعرفية العامة.
توظيف نماذج اللغات الكبيرة في استخراج المعرفة
تؤدي نماذج اللغة الكبيرة دورًا حاسمًا في تعزيز إمكانيات استخراج المعرفة، حيث يمكنها إجراء عمليات استدلال معقدة. تسهل هذه النماذج معالجة النصوص الأدبية الكبيرة واستخراج المعلومات المفيدة. باستخدام تقنيات تعلم الآلة، يصبح بإمكان نماذج اللغة معالجة النصوص واستخراج الحقائق والشخصيات، مما يساهم في تطوير الرسوم البيانية المعرفية. على سبيل المثال، يمكن استخدامها للحصول على أنماط من الهوية الأدبية للكتاب وكيفية ارتباط أعمالهم بفترات زمنية معينة أو أحداث ثقافية.
يؤكد العديد من الدراسات دور نماذج اللغات الكبيرة في تحسين جودة البيانات المستخلصة. على سبيل المثال، يمكن استخدام أدوات مثل ChatGPT لرسم روابط بين الشخصيات في نصوص ليوبرادي والكشف عن تفاصيل حياتية لم تُعرف بعد، وهو ما قد يسهم في إثراء البحث الأدبي ودراسات التاريخ الثقافي. بل الأهم من ذلك، أنه يمكن لهذه النماذج التعامل مع بيانات متعددة اللغات، مما يمكنها من فهم السياقات الثقافية الغنية المرتبطة بالنصوص التاريخية.
تطبيقات عملية لاستخراج المعرفة في الأدب والفنون
توجد العديد من التطبيقات العملية لاستخراج المعرفة، لا سيما في مجالات الأدب والفنون. يمكن للباحثين في العلوم الإنسانية الرقمية الاستفادة من أدوات مثل تقنيات استخراج الكيانات، مما يساعد في التعرف على الشخصيات والأماكن والأحداث المذكورة في النصوص. كما أن تطبيقات التحليل الدلالي تسمح ببناء علاقات بين النصوص المختلفة، مما يعزز الفهم العميق للأعمال الأدبية ويتيح للباحثين تقديم رؤى جديدة حول النصوص المعروفة.
علاوة على ذلك، يمكن لمشاريع مثل دراسة حياة الفنانين اعتماد الأطر التكنولوجية المستندة إلى استخراج المعرفة لفهم وتحليل أعمال الفنانين التاريخيين مثل ليوبرادي. وذلك من خلال الربط بين أعمالهم ورؤى مبتكرة في مجال الفن والنقد. تعزز هذه الممارسات من قدرة النظم الأكاديمية على بناء معرفة غنية ومتضافرة عبر استعمال التكنولوجيات الحديثة.
بهذا الشكل، يتمكن الباحثون من تعزيز وصول المعرفة وتسليط الضوء على الأمور التي كانت مغفلة من قبل. الأمر الذي يفتح باب النقاش في مجالات جديدة وهو أمر مفيد للحفاظ على التراث الثقافي والفني ويؤكد على أهمية تطبيق التكنولوجيا في البحث الأكاديمي.
تقنيات تحويل المعلومات النصية غير المهيكلة إلى رسوم بيانية للمعرفة
تتطلب عملية تحويل المعلومات النصية غير المهيكلة إلى رسوم بيانية للمعرفة استخدام تقنيات متعددة، منها الربط بين الكيانات واستخراج العلاقات. الربط بين الكيانات (Entity Linking) هو تقنية تهدف إلى تحديد الإشارات إلى شخصيات أو مفاهيم معينة في النصوص، وتحديد المدخل المناسب في قاعدة المعرفة التي ينبغي الربط بها. أما استخراج العلاقات (Relation Extraction)، فإنه يعمل على تحديد ما إذا كان يتم ربط كيانين بعلاقة معينة، والتي عادة ما تُعرف باستخدام مفردات أو علم أونطولوجيا معينة. مع تقدم نماذج اللغة، تم إحداث تقدم كبير في هذا المجال حيث يمكن الآن استخراج معلومات ذات معنى من النصوص بشكل أكثر فعالية.
على سبيل المثال، تم إدخال نماذج اللغة المدربة مسبقًا، مثل REBEL، التي أثبتت فاعليتها في استخراج الثلاثيات [الفاعل، الفعل، المفعول به] من النصوص الإنجليزية باستخدام خصائص ويكيداتا. بالإضافة إلى ذلك، تم تطوير طراز متعدد اللغات يحمل اسم mREBEL، ما يزيد من مرونة التقنية لتحويل نصوص مختلفة اللغات إلى رسوم بيانية للمعرفة. يمكن القول إن التطورات في هذا المجال تتيح للأبحاث أن تتقدم نحو فهم أعمق وأكثر تعقيدًا للنصوص الأدبية والتاريخية.
أهمية نماذج اللغة الكبيرة في استخراج المعرفة
ساهمت نماذج اللغة الكبيرة بشكل غير مسبوق في تحسين استخراج المعرفة من النصوص. تعتمد هذه النماذج على تقنيات مثل التعلم القليل (Few-shot Learning) الذي يسمح بنقل المعرفة من تطبيقات الأحجام الكبيرة إلى مجالات أكثر تخصصًا مثل الأدب والفنون. على سبيل المثال، استخدم Xu وآخرون أساليب استخراج العلاقات باستخدام نماذج اللغة الكبيرة، مما يبرز قدرتها على أداء استخراج المعرفة باستخدام بيانات تدريب محدودة. كما أن تطوير تقنيات مثل إنشاء استعلامات دقيقة للتوجيه يساعد على تحسين دقة الاستخراج من خلال إعادة صياغة الطلبات بشكل متكرر.
ومع ذلك، لا تزال هناك قيود، حيث إن نماذج اللغة الكبيرة تنتج تمثيلات نصية، وليس رسوم بيانية معرفية حقيقية. لتحقيق انتقال فعال من الثلاثيات التي يتم توليدها بواسطة نماذج اللغة إلى رسوم بيانية للمعرفة، يجب ربط الكيانات والعلاقات بقاعدة المعرفة. يتطلب ذلك تطبيق طرق فعالة لاستخراج العلاقات لضمان الربط الدقيق للموارد الخارجية مع الخصائص المناسبة في الأونطولوجيات.
التطبيقات المحددة في مجال العلوم الإنسانية الرقمية
تتوافق أهداف البحث مع تطبيق تقنيات استخراج المعرفة على النصوص الأدبية، مع التركيز على ترميز TEI/XML الخاص بالنصوص الإيطالية. هذا النهج يتعامل مع التحديات المتعلقة بكيفية استخراج تمثيلات شكلية وقابلة للقراءة الآلية من النصوص الأدبية. يهدف البحث إلى تضييق الفجوة بين الدراسات التي تعتمد على نماذج اللغة الكبيرة وطرق الربط واستخراج العلاقات في مجال العلوم الإنسانية الرقمية من خلال تنفيذ نظام يمكن من التعامل مع النصوص الأدبية المكتوبة بلغة أدبية تاريخية.
يتمثل الابتكار في هذا الاتجاه في استغلال قدرات ChatGPT لتحويل النصوص غير المهيكلة إلى صيغ شبه مهيكلة، مما يجعل فهمها سهلاً من قبل النماذج المدربة مسبقًا. بالإضافة إلى ذلك، تتجه الدراسة نحو تحقيق غايتين رئيسيتين؛ أولاً، معالجة النصوص بطريقة فعالة لتحقيق استخراج دقيق للمعرفة. وثانياً، تقديم منهجية تجمع بين تقنيات النماذج اللغوية الكبيرة والطرق التقليدية لاستخراج العلاقات لتحسين النتائج المستخرجة من النصوص الأدبية، مثل رسائل جياكومو ليوباردي.
التحديات والقيود في استخراج المعرفة للنصوص الأدبية والتاريخية
تظل هناك تحديات كبيرة في مجال استخراج المعرفة من النصوص التاريخية والأدبية، بما في ذلك صعوبات التعامل مع التنوع اللغوي، ارتفاع معدلات أخطاء التعرف الضوئي على الأحرف (OCR)، والنصوص المدخلة غير النظيفة. تحتاج تقنيات الربط واستخراج العلاقات إلى نماذج جديدة مصممة خصيصًا للتعامل مع هذه التحديات، حيث إن النماذج العامة غالبًا ما لا تكون فعّالة في معالجة النصوص المتخصصة.
أظهرت الدراسات السابقة مثل تلك التي أجراها روناندا وزملاؤه أن استخدام أساليب مبتكرة مثل الجمع بين إيجاد الترابط واستخراج العلاقات قد ساهم في بناء شبكات كائنات ترتبط مستندات تاريخية، لكن النماذج قد تواجه صعوبة في التقاط العلاقات الضمنية والشائكة. هذا يتطلب مقاربة شمولية وأكثر دقة لعملية الاستخراج، بحيث تشمل الأساليب الإحصائية والنماذج القائمة على التعلم الآلي.
التوجهات المستقبلية في أبحاث استخراج المعرفة
تتجه الأبحاث نحو تطوير نماذج متخصصة تتناسب مع الاحتياجات الخاصة للنصوص الأدبية والتاريخية. يُعتبر إنشاء معايير معيارية ومصادر متاحة للجميع خطوة مهمة نحو توحيد كيفية استخراج المعرفة وتمثيلها عبر مشاريع مختلفة. من خلال معالجة الفجوات الحالية، يمكن تعزيز التفاعل الفعال بين المتخصصين في العلوم الإنسانية وتقنيات التعلم الآلي، مما يؤدي إلى بناء نماذج قادرة على فهم التاريخ البشري والتفاعلات الأدبية بطريقة أكثر تعقيدًا.
كما يمكن للأبحاث المستقبلية أن تستفيد من تقنيات مثل تعلم الآلة القائم على السياق والمشاريع التعاونية عبر الأونطولوجيات المتعددة الجوانب لتعزيز قدرة الباحثين على استكشاف كميات ضخمة من البيانات. هذه المشاريع ستحتاج إلى تجمع بين مختلف التخصصات لضمان أن تكون النتائج دقيقة وقابلة للاستخدام في مجالات متعددة، من الأدب إلى التاريخ إلى الفنون البصرية، مما يسهل الوصول إلى المعلومات بطريقة شاملة.
التناغم بين مخرجات المعرفة والأنطولوجيات الخارجية
تعتبر عملية التناغم بين مخرجات المعرفة (knowledge graphs) والأنطولوجيات الخارجية مثل ويكيداتا (Wikidata) محورًا مهمًا في تطوير الأنظمة المعرفية الذكية. فالأنطولوجيات تقدم هيكلًا مرجعيًا يمكن للنماذج المختلفة الاعتماد عليه لفهم العلاقات بين الكيانات المختلفة. على الرغم من الجهود المستمرة، لا تزال هناك تحديات كبيرة في مجالات ربط الكيانات (entity linking) ورسم الأنطولوجيات (ontology mapping). تتضمن هذه التحديات غالبًا التعقيدات المتعلقة بتنوع مصادر البيانات وأشكالها، بالإضافة إلى تباين معاني الكلمات التي قد تؤدي إلى سوء فهم المعلومات المدمجة. على سبيل المثال، قد يحتوي نص ما على مصطلحات متعددة المعاني، مما يصعب عملية التعرف على الكيان المطابق في ويكيداتا.
بالإضافة إلى ذلك، تعتبر قدرة موديلات اللغة الكبيرة (LLMs) بمثابة أداة واعدة لتحسين العمليات في استخراج العلاقات (relationship extraction)، إلا أن فعاليتها في استخراج الرسومات RDF من النصوص التاريخية لا تزال تحتاج إلى المزيد من البحث والاستكشاف. يتطلب العمل مع النصوص التاريخية مزيدًا من الفهم حول السياق الثقافي والتاريخي الذي يتم فيه استخدام المصطلحات والأسماء، مما قد يؤدي إلى تحديات إضافية.
الأدوات المستخدمة لجمع البيانات المعرفية
يتطلب استخراج المعرفة بنجاح من النصوص ضغط بيانات ضخم وتنظيمها. في هذا السياق، تعتبر المنصات مثل LiberLiber وWikisource وBiblioteca Italiana مصادر قيمة تحتوي على نصوص مترجمة رقميًا لأعمال الشاعر الإيطالي جياكومو ليوباردي. تتيح هذه المنصات الوصول إلى مجموعة متنوعة من المعلومات التي يمكن أن تكون معقدة للتنقل فيها دون دعم من الخبراء في المجال. من بين هذه الأعمال، تتميز مجموعة جامعة كامبريدج للكتب الرقمية (CUDL) باحتوائها على 41 مخطوطة تتضمن رسائل شخصية تتعلق بيوباردي ورؤيته الأدبية.
على سبيل المثال، تحتوي مجموعة CUDL على رسائل تتناول مواضيع متعددة، مثل أعمال ليوباردي الأدبية وصحته بالإضافة إلى مهنته كمحرر. تحوي المجموعة العديد من الرسائل الموجهة إلى أنتونيو فورتوناتو ستيلا، وهو ناشر قام بطباعة العديد من نصوص ليوباردي. بالإضافة إلى ذلك، تحتوي الرسائل على معلومات قد لا تتواجد في ويكيداتا، مما يجعلها مصدرًا غنيًا للبيانات. استخدام خوارزميات استخراج المعرفة لاستكشاف شبكة الكيانات والعلاقات المرتبطة في مثل هذه الوثائق يمثل تحديًا مثيرًا.
المنهجية لاستخراج المعرفة
يهدف هذا البحث إلى استخراج المعرفة الهيكلية في شكل رسومات معرفية من مجموعة البيانات المستندة إلى ملفات TEI/XML للأعمال الأصلية لليوباردي. لتحقيق ذلك، تم هيكلة خط أنابيب الاستخراج في عدة خطوات. في البداية يتم معالجة ملفات TEI/XML عبر سكربت يقوم بتحليل XML لاستخراج البيانات الوصفية والنصوص ذات الصلة. على سبيل المثال، تتضمن البيانات الوصفية الاعتراف بوثيقة محددة، والمستودع، والعنوان، وتاريخ النشر، والمرسل، والمستقبل. يتم استخدام مكتبة Python lxml لهذا الغرض.
بعد هذه المرحلة، يتم استخدام موديلات لغوية مختلفة لتوليد ثلاثيات RDF/XML من النص غير الهيكلي، حيث تتطلب العملية خطوات متعددة تشمل استخراج الكيانات المختلفة وعلاقاتها. تشمل الخوارزميات المستخدمة في هذه العملية تجميع بيانات البدء (zero-shot triple extraction) باستخدام موديلات مثل ChatGPT-4. في هذه المرحلة، يتم إنتاج ثلاثيات نصية دون تحديد مخطط معين للعلاقات، مما يعطي حرية أكبر في استخراج البيانات.
استخراج العلاقات باستخدام نموذج seq2seq
تُعتبر خطوة استخراج العلاقات باستخدام نموذج seq2seq عنصرًا حاسمًا في العملية. في هذه المرحلة، يتم تحويل النتيجة الأولية للاستخراج إلى نص عادي لتسهيل عملية معالجة البيانات. يتسنى من خلال هذه الخطوة ربط كل علاقة تم استخراجها مع مجموعة من الخصائص المحددة مسبقًا في ويكيداتا. وهذا يسمح بتعزيز تحليل العلاقات المعقدة، حيث يمكن للنموذج تحديد ما إذا كانت العلاقة تتبع خصائص معينة مثل التماثل أو عدم التماثل.
تعتبر هذه الخطوات ضرورية لإنشاء رسم معرفي يمكن الاستعلام عنه باستخدام قواعد البيانات باللغة SPARQL. عن طريق ربط الأسماء بجمعيات مختلفة مثل VIAF وGeoNames، يمكن أيضًا إجراء مراجع إضافية للكيانات المؤكدة في ويكيداتا. وهذا أيضًا يُساهم في دمج البيانات بشكل أكثر كفاءة ويسهل توسيع نطاق المخططات المعرفية التي تشمل خصائص جديدة وعلاقات ذات مغزى.
الجيل التلقائي للثلاثيات باستخدام نموذج Seq2seq
يعتبر جيل الثلاثيات خطوة مهمة في معالجة اللغة الطبيعية، حيث يتم إنشاء هذه الثلاثيات تلقائيًا باستخدام نموذج Seq2seq مبني على البنية العصبية. يُعتبر هذا النموذج قادرًا على تحويل النصوص المكتوبة باللغة الطبيعية إلى هيكل بيانات يمكن فهمه ومعالجته، ولكنه لا يكون خاليًا من التحديات. تتطلب هذه العملية وجود مكون ثالث يهدف إلى تقليل مخاطر الأخطاء التي قد تحدث أثناء عملية الجيل. هذا المكون له دور أساسي في فلترة الثلاثيات التي تم إنشاؤها، لضمان الدقة والتماسك قبل دمجها في قاعدة المعرفة (KG). يتم تطبيق نماذج معتمدة على التعلم العميق، مثل REBEL، المعتمدة على BERT وتدريبها على محتوى من ويكيبيديا. ومع ذلك، نجد أن هذا النموذج ليس مُحسنًا لمعالجة النصوص التي تحتوي على معرفة واقعية معقدة، مثل رسائل الشاعر الإيطالي جي أكومو ليوبراردي.
واحدة من أبرز المشاكل التي يواجهها نموذج REBEL هي نوعية الثلاثيات التي يولدها. على سبيل المثال، يمكن أن يتم إنتاج علاقة غير دقيقة، حيث يمكن أن تتغير ثلاثية مثل [“Giacomo Leopardi”، “:sentLetterTo”، “Antonio Fortunato Stella”] إلى شكل آخر غير دقيق مثل [“Giacomo Leopardi”، “relative”، “Antonio Fortunato Stella”]. هذا يظهر أهمية وجود عملية الفلترة التي تقي من إنتاج مثل هذه الثلاثيات التي تكون لغة سليمة لكنها المعنى غير دقيقة.
من أجل تحسين الدقة، تم دمج مكون فلترة ثالث يعتمد على نموذج SBERT. يقوم SBERT بتحويل الجمل إلى تمثيلات عددية (أو “embeddings”) تمثل المعنى في فضاء خطي. يساعد هذا الفلتر في إزالة الثلاثيات ذات المعاني المختلفة من المخرجات. يتم تحويل الثلاثيات المستخرجة من كل من ChatGPT وREBEL إلى سلاسل نصية ويتم تطبيق عتبة معينة لتقييم التشابه بين التمثيلات. باعتماد عتبة مرتفعة، تم الحفاظ على ثلاثيات قائمة على علاقات شديدة التشابه فيما يتعلق بالمعنى، مما ساهم في تقليل حدوث الأخطاء.
نموذج RDF وتوليد الرسوم البيانية
مع اكتمال استخراج الثلاثيات، يتم دمجها مع بيانات التعريف (metadata) الخاصة بنسخة TEI/XML لتشكيل قاعدة المعرفة. يتم استخدام نماذج ومفردات مراقبة معروفة في مجال البيانات المفتوحة (LOD)، مما يسهل تنظيم البيانات بطريقة مُعترف بها على نطاق واسع. على سبيل المثال، يتم تمثيل الوثيقة باستخدام فئة E31_Document من نموذج CIDOC-CRM، ما يُظهر هيكلية واضحة للعلاقة بين المحتوى الرقمي وبيانات التعريف.
بما أن البيانات يتم تمثيلها باستخدام RDF reification، تُظهر كل ثلاثية كعنصر من نوع rdf:Statement، الذي يتضمن تسميات تمثل اللغة الطبيعية لكل ثلاثية إضافة إلى أربع خصائص رئيسية: rdf:subject، rdf:predicate، rdf:object، وdcterms:source. يعمل هذا التمثيل على تسهيل ربط الكيانات والممتلكات بالموارد في ويكيداتا، مما يعزز من إمكانية التحليل والاستنتاج المعتمد على البنية المعرفية المستخرجة.
تُعتبر أهمية نموذج RDF في إمكانية دمج البيانات غير المتجانسة من مصادر متعددة وتحقيق التكامل من خلال نماذج معروفة ودقيقة. تدعم خصوصاً قاعدة المعرفة المُنتجة استعلامات SPARQL، مما يُشرع الأبواب أمام بحوث متقدمة وتحليلات متطورة، تتيح الاستفادة من العلاقات المضمنة في نظام ويكيداتا. مؤخرًا، تم الإفراج عن تمثيل Turtle للقاعدة المعرفية المستخرجة، مما يُعزز من إمكانية الوصول إليها لجمهور الباحثين والمطورين.
تقييم جودة قاعدة المعرفة المستخرجة
يندرج تقييم جودة قاعدة المعرفة تحت فئة أساسية نظرًا لأهمية الدقة والاتساق في تصنيف المعلومات المستخرجة. تم مقارنة نظام استخراج المعرفة الخاص بنا بنموذج بسيط قائم على البيانات، وهو المسمى mREBEL، والذي يُعتبر الوحيد المتاح لتقييم نماذج الاستخراج في السياق الأدبي الإيطالي التاريخي. القاعدة لم يتم تدريبها بشكل كافٍ على مثل هذه النصوص الأدبية، مما أدى إلى تحقيق أداء أقل بكثير عند تطبيقه على رسائل ليوبراردي المعقدة.
استخدمت مجموعة متنوعة من المقاييس لتقييم جودة قاعدة المعرفة، مثل الدقة الدلالية والنمطية. يُحسب المقاس الأول من خلال تحديد النسبة بين الثلاثيات التي تعكس حقائق واقعية إلى إجمالي عدد الثلاثيات. بينما يتم قياس الاتساق بناءً على نسبة التصريحات غير المتناقضة إلى إجمالي التصريحات. من الواضح أن الحالة الطموحة تتطلب وضع معايير عالية للدقة، حيث يجب أن تكون الكيانات المستخدمة في الثلاثيات غير غامضة، ويجب أن تعكس العلاقات الحقيقة بين الكيانات بشكل دقيق.
يشير التحليل إلى أن تطبيق نموذج REBEL، جنباً إلى جنب مع استراتيجية الفلترة المعتمدة، قد أظهر تحسينات كبيرة في الدقة والاتساق للأبعاد المختلفة لقاعدة المعرفة المستخرجة. بينما أظهر النموذج الأساسي أداءً أقل في حالة النصوص الطويلة والمعقدة، فإن استخدام استراتيجيات مرنة في استخراج الكيانات والعلاقات قد ساعد في تحقيق نتائج أفضل. مما يعكس أن التطوير والاستثمار في هذه النماذج أمر حيوي للوصول إلى نتائج دقيقة وموثوقة.
استخدام نماذج اللغة لاستخراج المعرفة
في السنوات الأخيرة، تم استخدام نماذج اللغة الكبيرة (LLMs) بشكل متزايد في معالجة اللغات الطبيعية، وخاصة في مجال استخراج المعلومات والمعرفة من النصوص. يعد نموذج اللغة المتعدد اللغات، الذي تم تدريبه على توجيه التعليمات، أداة فعالة في تعزيز عملية استخراج المعلومات من النصوص الأدبية. من خلال هذه النماذج، تم تنفيذ تقنيات استخرج العلاقات والمعرفة، مما أتاح إنشاء رسوم بيانية للمعرفة (KG) مرتبطة بمواضيع معينة، مثل الأدب الإيطالي. يقدم هذا الاستخدام ميزة كبيرة في الدقة وجودة المعلومات المستخرجة، حيث تستخدم الموارد مثل Wikidata لتعزيز دقة استخراج البيانات. على سبيل المثال، استطاع الباحثون استخراج روابط بين الكيانات الأدبية وجمع معلومات عن حياة المؤلفين، مما يجعل هذه الطريقة ذات قيمة عالية في الأبحاث الأدبية.
أنواع الكيانات والعلاقات في الرسوم البيانية للمعرفة
تعتبر الرسوم البيانية للمعرفة أداة قوية لتخزين وتنظيم المعلومات بشكل يسمح بإجراء استفسارات دقيقة حول الموضوعات المختلفة. من خلال استخدام بروتوكول SPARQL، فإن هذه الرسوم يمكن استجوابها لتحديد الأنواع الأكثر شيوعًا من الكيانات والعلاقات. على سبيل المثال، تم استخراج الجمل الرئيسية التي تربط بين الكيانات الأدبية وحياة الكاتب، مما يوضح كيف تتداخل هذه الجوانب مع بعضها البعض. تشير النتائج إلى أن العلاقات المتعلقة بالنشاط الأدبي للكاتب كانت الأكثر شيوعًا، تليها العلاقات المتعلقة بالصحة، وهو موضوع مركزي في حياة العديد من الكتاب. يعكس هذا التركيز التفاعل بين الصحة النفسية والإبداع الأدبي، مما يسهل فهم العلاقة بين تجربة الكاتب وأعماله الأدبية.
دمج النماذج اللغوية مع تقنيات استخراج العلاقات
تمثل تقنية دمج نماذج تعليم اللغة مع أساليب استخراج العلاقات خطوة متقدمة في تحسين دقة استخراج المعلومات من النصوص. من خلال استخدام تقنيات مثل REBEL، أصبح بالإمكان استخراج معلومات دقيقة وموثوقة بمعدل دقة للنماذج يصل إلى 0.67. يعتمد هذا النجاح على الجمع بين الفهم اللغوي الطبيعي الذي توفره نماذج اللغة والمعلومات الهيكلية المتاحة في مصادر مثل Wikidata. يعتبر هذا المزيج ذا قيمة لأنه يعزز من القدرة على إجراء استفسارات دلالية، مما يساعد في استنتاج العلاقات بشكل منطقي، مثل التناظر أو الانتقالية في الخصائص.
شفافية وموثوقية عملية استخراج المعرفة
من النقاط القوية في هذا النهج هو قدرته على تعزيز الشفافية والموثوقية لعملية استخراج المعرفة. تعتبر نماذج seq2seq، مثل mREBEL، قادرة على استخراج بيانات متعددة من النصوص، ولكنها قد تفتقر إلى الشفافية في كيفية الوصول إلى نتائج معينة. في المقابل، يمنح النظام المستخدمين رؤية أوضح للبيانات المستخرجة من خلال تنظيمها في بيانات RDF مدعومة بالنص الأصلي. هذا التنسيق لا يوفر فحسب، رؤية واضحة لعملية الاستخراج، بل يعزز من قدرة العلماء على التحقق من صحة المعلومات المستخرجة. النقطة المهمة هنا هي أن كل جملة RDF تتماشى مع جملة نصية طبيعية يتم استخراجها من النص الأصلي، مما يرتقي بجودة ورؤية عمليات الاستخراج.
تحديات وقيود الطريقة المستخدمة
على الرغم من الفوائد العديدة، توجد تحديات وقيود لاستراتيجية استخراج المعرفة هذه. على سبيل المثال، يعتمد الأسلوب المستخدم على البيانات الاصطناعية التي تم إنشاؤها بواسطة نموذج ChatGPT، مما قد يفضي إلى ما يعرف بـ “هلاوس النموذج”، وهو ما يمكن أن يتسبب في أخطاء متكررة في النتائج. كما أن التعقيد في دمج عدة أدوات يجعل النظام عرضة لأخطاء متعددة في كل مرحلة من مراحل المعالجة، لذا من الضروري دمج الإشراف البشري في بعض خطوات الاستخراج لتحسين دقة النتائج.
خطط للتطوير المستقبلي
يعد تطوير منهجية لاكتشاف معلومات جديدة ضمن قاعدة المعرفة المكتسبة من النقاط الهامة في العمل المستقبلي. ينبغي أن يأخذ هذا العمل بعين الاعتبار الخصائص والقيود والأنماط في Wikidata وعلى كيف يمكن تطبيق هذا النظام لتوليد المعرفة في مجالات أدبية أخرى. بالإضافة إلى ذلك، سيكون من الضروري بناء مقاييس معيارية لتقييم مختلف مهام استخراج المعرفة بناءً على نصوص أدبية محددة، مما سيعزز من فعالية الأنظمة المستخدمة في هذا المجال. ومن خلال تحسين نماذج اللغة الكبيرة مثل ChatGPT لأداء مهام الاستخراج المعرفي بناءً على مخططات مرجعية معينة، يمكن تقييم تطبيقات النماذج المدربة على التعليمات بشكل أكثر شمولاً.
نموذج اللغة الكبير واستخداماته في استخراج المعلومات
إن نماذج اللغة الكبيرة مثل ChatGPT والأدوات الأخرى القابلة للتطبيق تُعد من التطورات المذهلة في مجال معالجة اللغة الطبيعية. تتضمن هذه النماذج معلومات هائلة وقدرات متقدمة تمكنها من توليد نصوص تشبه النصوص البشرية. ومع ذلك، تبرز أمور مهمة عند النظر في دقتها وفعاليتها في سياقات معينة، مثل استخراج المعلومات. وفقًا لدراسة حديثة، ليس من المثالي الاعتماد على نماذج اللغة الكبيرة كأداة فعّالة لاستخراج المعلومات من نصوص، بل تظهر النتائج أنها تعتبر أفضل كأداة لإعادة تصنيف العينات الصعبة.
تتطرق العديد من الدراسات إلى النقاط الضوئية التي يجب الانتباه إليها عند استخدام نماذج اللغة الكبيرة. على سبيل المثال، على الرغم من قدرتها العالية على معالجة البيانات، فإن الاستجابة على أسئلة مركّبة جدًا أو الأسئلة التي تتطلب سياقاً معرفياً عميقاً قد تكون محدودة. إن النماذج تحتاج إلى بيانات مغذية بشكل كبير لتحسين قدراتها في هذه المجالات. بالإضافة إلى ذلك، يتضح أنه كلما زادت تعقيدات المادة المطلوب استخراجها، كلما زاد ضرورة استخدام تقنيات إضافية مثل إعادة التصنيف.
مؤخراً، تم إجراء أبحاث أخرى تشير إلى أهمية استخدام نماذج مثل BERT وSentence-BERT في مجال استخراج المعلومات. هذه النماذج توفر اجتماعات متلاحقة مما يساعد على التعامل مع التعقيدات اللغوية بشكل أكثر فعالية. لذا، من المهم فهم مدى فائدة التقنيات المختلفة في سياقات معينة قبل تطبيقها بشكل عشوائي.
التحديات في معالجة اللغة الطبيعية للتراث الثقافي
عند محاولة تطبيق أدوات معالجة اللغة الطبيعية في مجالات مثل التراث الثقافي، تظهر العديد من التحديات الفريدة. تتنوع هذه التحديات من القضايا البسيطة مثل فهم السياق، إلى مسائل أكثر تعقيداً مثل الفهم العميق للخطاب الثقافي والتاريخي. تقنيات مثل استخراج الكيانات وتصنيف النصوص تتطلب دقة عالية نظرًا لأن أخطاء بسيطة يمكن أن تؤدي إلى نتائج مضللة.
تعتبر التعقيدات الثقافية والمعرفية جزءاً أساسياً من التراث الثقافي، لذا يتطلب الأمر دمج الفهم السياقي مع النماذج اللغوية. فعلى سبيل المثال، قد يؤدي تحليل نص أدبي من القرن السابع عشر باستخدام نموذج حديث إلى إساءة فهم الرسائل الثقافية الغائبة. لذلك، من الضروري تطوير أدوات تتفهم الفروق التاريخية والثقافية الفريدة عند معالجة النصوص المتعلقة بالتراث.
أيضاً، تواجه نماذج اللغة الطبيعية مشكلة توافر البيانات، حيث غالباً ما تكون النصوص القديمة أو المنقحة غير متاحة بالصيغة الرقمية، مما يجعل من الصعب تدريب نماذج فعّالة. ومن هنا تأتي أهمية التعاون بين علماء الحاسب والمختصين في التراث من أجل إنشاء قواعد بيانات تعكس التنوع الثقافي والأدبي.
تحسين جودة الرسوم البيانية المعرفية مع النماذج اللغوية الكبيرة
تعتبر الرسوم البيانية المعرفية من الأداوات الحيوية في تنظيم وتحليل المعلومات. وتحسين جودتها يعد أحد أهم اتجاهات البحث في مجال تكنولوجيا المعلومات. تعتمد الرسوم البيانية المعرفية على الربط بين المعلومات وخلق علاقات جديدة، مما يساعد في تعزيز الاستعلام واستخراج المعرفة. هنا يُبرز البحث الحديث كيف يمكن للنماذج اللغوية الكبيرة تحسين هذا النوع من البيانات.
يمكن أن تلعب نماذج مثل BERT دورًا رئيسيًا في تحديد العلاقات بناءً على المعلومات المكتسبة من مجموعات بيانات ضخمة. يتطلب الأمر استكشاف الأنماط في البيانات لتكوين روابط ومعرفة جديدة. مثلاً، إذا استخدمت نموذجاً لفهم النصوص المرتبطة بعمل فني معين، فإن استخدام الرسوم البيانية المعرفية قد يمكن من ربط الفنانين بالأعمال الفنية والمفاهيم الفنية ذات الصلة.
مع تزايد الاهتمام بموضوع جودة المعلومات في الرسوم البيانية المعرفية، تظهر الحاجة إلى تقنيات جديدة يمكن أن تدمج نماذج اللغة لتحديد جوانب مثل الدقة والمصداقية. فعلى سبيل المثال، إنشاء نماذج لتقييم المعلومات والتأكد من موثوقيتها يعتبر خطوة مهمة في تطوير نظام معلوماتي يعتمد على البيانات الكبيرة.
الأفق المستقبلي لنماذج اللغة الكبيرة والتقدم في الذكاء الاصطناعي
يبدو أن المستقبل يحمل الكثير من الفرص والتحديات بالنسبة لنماذج اللغة الكبيرة وابتكارات الذكاء الاصطناعي. مع التطورات السريعة في هذا المجال، تُعتبر التفاؤلات كبيرة حول إمكانية تحسين أداء هذه النماذج في مختلف التطبيقات، بدءًا من الأعمال الأدبية إلى مجالات التطبيقات التجارية والطبية.
فيما يتعلق بإمكانية التطور من خلال الدمج بين النماذج القائمة وبيئات التعلم العميق، لن يكون فقط تحسين دقة النماذج الحالية فحسب، بل يمتد ليشمل ابتكار نماذج جديدة تُركز على التعلم من سياقات محددة. المهمة هنا تكمن في فهم كيف يمكن أن تتكامل المعرفة العامة مع المعرفة المتخصصة في مجالات معينة مثل الطب، الآداب، أو الاقتصاد.
الأبحاث لا تقتصر على تحسين الأداء فقط، بل تستهدف أيضًا القضايا الأخلاقية المرتبطة باستخدام الذكاء الاصطناعي، مثل الشفافية والتحيز. الفهم الجيد للتوجهات الأخلاقية سيشكل اتجاهات البحث والتطوير في هذا المجال في السنوات القادمة، مما يعزز من قبول ومصداقية تلك الأدوات في المجتمع.
رابط المصدر: https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2024.1472512/full
تم استخدام الذكاء الاصطناعي ezycontent
اترك تعليقاً