عمادة الدراسات العليا | الأبحاث | تحليل المشاعر للأحداث الترفيهية

عمادة الدراسات العليا

تفاصيل الوثيقة

نوع الوثيقة	:	رسالة جامعية
عنوان الوثيقة	:	تحليل المشاعر للأحداث الترفيهية SENTIMENT ANALYSIS FOR ENTERTAINMENT EVENTS
الموضوع	:	كلية الحاسبات وتقنية المعلومات
لغة الوثيقة	:	العربية
المستخلص	:	الهدف الرئيسي من هذه الرسالة هو معالجة مهمة تحليل المشاعر للمدونات العربية. من خلال استخدام نهج التعلم الآلي الخاضع للإشراف. رصد وتحليل المعلومات المنتشرة على تويتر يمكن الحصول على تقدير دقيق لموقف المستخدم ومشاعره تجاه هذه الأحداث. تمت تغطية هذه المهمة على نطاق واسع بلغات متعددة، معظمها باللغة الإنجليزية، في حين أن العمل باللغة العربية محدود. أسباب ذلك هي التحديات النحوية والتركيبية التي تطرحها اللغة العربية وندرة البيانات العربية الموسومة والمتاحة للجمهور. وبالتالي، فإن تطبيق حلول لمعالجة هذه المسالة يتضمن العديد من التحديات، بعضها خلق موارد البيانات النصية المصنفة، وفحص تقنيات التعلم الآلي المختلفة، والتحري عن واستخراج مجموعة من الميزات التي تعمل بشكل أفضل في مجال تحليل المشاعر. تحقيقا لهذه الغاية، ستتم مراجعة الأسئلة البحثية الأربعة التي تم تناولها في هذه الرسالة: س١) كيف يمكن إنشاء ذخيرة بيانات نصية تحتوي على آراء عامة تجاه الأحداث الترفيهية في المملكة العربية السعودية؟ س٢) ما هي طريقة التعلم الآلي الأكثر فعالية في تنفيذ تحليل المشاعر تجاه الأحداث الترفيهية في المملكة العربية السعودية؟ س٣) ما هي مجموعة الميزات الدلالية المستخرجة في مجال تحليل المشاعر؟ س٤) كيف تمثل الميزات الدلالية لتحسين أداء النموذج؟ • نتائج الرسالة الرئيسية - تطوير الموارد: لقد أنشأنا مجموعة من النصوص العربية التي تم الحصول عليها من تويتر كواحدة من أشهر منصات التدوين المصغر. بسبب بنية البيانات والطبيعة في تويتر، كانت مهمة تحدي تنظيف وتجهيز وحفظ كمية معقولة من البيانات النصية مهمة صعبة. كانت مهمة توسيم او تحشية البيانات واحدة من التحديات الرئيسية. عملية التوسيم مكلفة ومهمة تستغرق وقتًا طويلاً، حيث يعمل مستخدمان عربيان لتوسيم المجموعة. تم إنشاء 2769 تغريده موسمه الى (إيجابية، سلبية، محايدة). - استخراج الميزات والخصائص: قمنا بتنفيذ نموذج خط الأساس الخاص بنا باستخدام خوارزمية MNB. لقد استخدمنا مجموعة من الميزات القائمة على العد، ونماذج n-gram (unigram, bigram, trigram) and TF-IDF كانت التجربة على مستوى التصنيف (ثنائي ومتعدد). حقق أداء النموذج نسبة 88٪ في التصنيف الثنائي و80٪ في التصنيف متعدد الطبقات باستخدام نموذج . unigram إحدى نتائج هذه التجربة المبدئية هي أن عدم التوازن الطبقي يؤثر على أداء الخوارزمية حيث أن خوارزميات التعلم تحتاج إلى مجموعة متوازنة من البيانات لكل قطبية لإنتاج نتائج ثابتة. في التجارب المتقدمة، تم أخذ المزيد من استخلاص الميزة مع مراعاة تمثيل الكلمات إلى جانب حقيبة كلمات n-gram models وTF-IDF؛ كان ذلك عبارة عن نمذجة العبارات. توضح التجربة أن نمذجة العبارات جنبًا إلى جنب مع n-gram تؤثر على أداء النموذج حيث تشير تلك الكلمات التي تظهر في كثير من الأحيان معًا إلى "المعنى" الدلالي المختلف الذي يؤثر على قدرة النموذج للتنبؤ بدقة أكثر. قمنا بالبحث في استخدام خصائص تضمين الكلمات لاستخراج الخصائص النحوية والدلالية من الكلمات. قمنا بتطوير نموذجين لتمثيل ناقلات، CBOW و SG وتم تدريب كلا النموذجين على أساس مجموعة مختلفة المعايير. قدم نموذج skip-gram توقعات أفضل للكلمات. ومع ذلك، فإن تضمين الكلمة كخاصية دلالية لا يعزز دقة المصنّفين نظرًا لوجود مجموعة تدريبية صغيرة في متناول اليد. للتغلب على هذه المشكلة، قمنا بزيادة حجم البيانات، ومع ذلك يبقى أداء الخوارزمية ثابتًا. وبالتالي، كان التضمين المتولد على (العبارات الجذعية والمتمثلة) إجراء آخر تم اتخاذه لتعزيز اكتشاف الأنماط على مجموعة بيانات التدريب. تحسين الحل المقترح أداء الخوارزمية على كلا حزم البيانات ومع ذلك، فإن النتائج على مجموعة البيانات الكبيرة أسفرت عن أداء أعلى. أجابت نتائج هذه التجارب على سؤال البحث الثالث. • خوارزميات التعلم الآلي: تم فحص ثلاثة خوارزميات مختلفة وتمت مقارنة نتائجها مع بعضها البعض بناءً على طريقتين أساسيتين للتقييم. الأول هو التحقق من الصحة المتقاطع الذي ينطبق لضمان تدريب النموذج على جميع أجزاء البيانات وحساب متوسط النتائج. والثاني هو اختبار النماذج على مجموعة من البيانات للتأكد من دقة البيانات القائمة على البيانات غير المرئية لضمان قدرة النماذج على التعميم. أداء MNB يتفوق على SVM خوارزمية LRبمتوسط دقة يبلغ 91٪ على مجموعة البيانات المحجوبة بينما حقق MNB وSVM نتائج مماثلة على التحقق المتقاطع بدقة 87٪. ومع ذلك، فإن نتائج نماذج الخوارزميات باستخدام السمات الدلالية على مجموعة صغيرة، تعلن أن SVM يسجل نتائج مماثلة بنسبة 89٪ مثل LR على مجموعة التثبيت. ومن المثير للاهتمام أن أداء LR يظل ثابتًا كما كان من قبل من خلال إضافة خصائص تضمين الكلمات بدقة مماثلة على نتائج التحقق المتقاطع، حيث كانت الدقة 86٪. والمثير للدهشة، أن SVM حقق دقة أعلى قبل استخدام الخصائص الدلالية للكلمة. انخفض أداء النموذج عند تطبيقه على مجموعة كبيرة في التحقق المتقاطع، حيث سجل LR 85٪ وسجل SVM 84٪. ومن المثير للاهتمام، أن أداء الخوارزميتين قد زاد على مستوى الوقف حيث حقق 90٪ من الدقة. في الرد على السؤال الثاني من البحث، كان أداء مصفوفة التعلم الآلي من MNB جيداً بالمقارنة مع الخوارزميات الأخرى التي تم فحصها لمهمة تصنيف المشاعر. بالنسبة لسؤال البحث الرابع، يمكن لتضمين الكلمات التقاط الخصائص الدلالية للكلمات في السياق، ولكنه يتطلب استخدام مجموعة تدريب كبيرة. • المساهمة الرئيسية للرسالة: - ساهمت الدراسة في تعزيز موارد المشاعر النصية العربية. - وضعت الدراسة تصنيف المشاعر العربية من خلال تعلم خوارزميات مختلفة لإجراء دراسة مقارنة بشأن الدقة في أداء مهمة التصنيف. - عرضت الدراسة مجموعة من السمات الإعلامية على النموذج المطور. حيث تم تطبيق خوارزميات مصمّمة مختلفة ومراقبتها وفقًا لمجموعات الخصائص المختلفة. بحثت الدراسة في تمثيلات الكلمات المختلفة التي يمكن التقاط العلاقة بين الكلمات وكان فحص طرق دمج الكلمات كميزة دلالية في أداء النموذج المتقدم أحد الإسهامات الرئيسية لهذا العمل
المشرف	:	د. فهد صالح العتيبي
نوع الرسالة	:	رسالة ماجستير
سنة النشر	:	1440 هـ 2018 م
تاريخ الاضافة على الموقع	:	Sunday, December 2, 2018

الباحثون

اسم الباحث (عربي)	اسم الباحث (انجليزي)	نوع الباحث	المرتبة العلمية	البريد الالكتروني
وجدان مزاحم باجابر	Bajaber, Wejdan Mzahm	باحث	ماجستير

الملفات

اسم الملف	النوع	الوصف
43839.pdf	pdf

الرجوع إلى صفحة الأبحاث