پايان نامه : بهبود مدل کاربر در وبسايت بصورت خودکار با استفاده از معناشناسی با مفاهيم خاص دامنه
مباحثي كه دراين پروژه مطرح شده عبارتند از:
چکیده
گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار می¬رود. برای مقابله با این مشکل، سیستم¬های شخصی¬سازی وب ارائه شده¬اند که محتوا و سرویس¬های یک وب¬سایت را با افراد براساس علایق و رفتار گردشی آن¬ها سازگار می¬کنند. یک مولفه¬ی اساسی در هر سیستم شخصی¬سازی وب، مدل کاربر آن است. محتوای صفحات یک وب¬سایت را می¬توان به منظور ایجاد مدل دقیق¬تری از کاربر مورد استفاده قرار داد، اما رویکردهای مبتنی بر کلمات کلیدی نگرش عمیقی از وب¬سایت ندارند. اخیرا تحقیقاتی برای ترکیب کردن معنای موجود در وب¬سایت در نمایش کاربران آن انجام شده است. تمامی این تلاش¬ها یا از یک رده¬بندی یا واژگان شناختی خاص و دست ساخته و یا از واژگان¬شناختی¬های عمومی مانند WordNet برای نگاشت مشاهده صفحات به عناصر معنایی استفاده می¬کنند. با این وجود ساختن یک سلسله مراتب از مفاهیم بصورت دستی زمان¬بر و هزینه¬بر است. از سوی دیگر منابع معنایی لغوی عمومی از پوشش کم عبارات خاص دامنه رنج می¬برند. در این پایان نامه ما قصد داریم که هر دوی این نقص¬ها را برطرف کنیم. دستاورد اصلی ما این است که مکانیسمی برای بهبود نمایش کاربر در وب¬سایت بصورت خودکار و با استفاده از یک منبع معنایی لغوی جامع معرفی می¬کنیم. ما از Wikipedia، بزرگ¬ترین دایره¬المعارف امروزی به عنوان یک منبع غنی معنایی برای بهبود ساخت خودکار مدل برداری از علایق کاربر بهره¬برداری می¬کنیم. معماری ارائه شده شامل تعدادی مولفه است که عبارتند از: پیش پردازش اولیه، استخراج مفاهیم دامنه¬ی وب سایت، استخراج کلمات کلیدی از وب¬سایت، سازنده¬ی بردار کلمات کلیدی و نگاشت کلمات کلیدی به مفاهیم. دستاورد مهم دیگر استفاده از ساختار وب سایت برای محدود کردن خودکار مفاهیم خاص دامنه می¬باشد. سرانجام، آخرین دستاورد آن یک روش جدید نگاشت کلمات کلیدی به مفاهیم است. ارزیابی های ما نشان می¬دهد که روش پیشنهادی همراه با منبع معنایی لغوی جامع آن کاربران را بصورت موثرتری نسبت به روش کلمات کلیدی و نیز روش¬های بر مبنای WordNet نمایندگی می¬کند.
1- مقدمه
مقدمه:
1-1- دلايل نياز به شخصی سازی وب
1-1-1- گرانبار شدن اطلاعات
1-1-2- نیاز به جذب مشتری پابرجای برای وب سایت
1-2- تعریف شخصی سازی وب
1-3- فواید سیستم شخصی سازی وب
1-4- تفاوت شخصی سازی وب با تطبیق طرح کلی سایت
1-5- طبقه بندی عملکردهای اصلی شخصی سازی وب
1-6- نیازمندیهای اصلی سیستم شخصی سازی وب
1-7- رویکرد های موجود در شخصی سازی وب
1-8- نقش وب کاوی کاربرد وب در شخصی سازی وب
1-9- نیاز به استفاده از محتوا در شخصی سازی وب
1-10- نیاز به استفاده از معنا در شخصی سازی وب
1-11- هدف پروژه
1-12- نحوه ی گردآوری مراجع
1-13- رویکرد بکار رفته در تحقیق
1-14- ساختار پایان نامه
مراجع
2- مطالب پیش زمینه
مقدمه
2-1- شخصی سازی وب براساس وب کاوی کاربرد وب
2-1-1- آماده سازی و مدلسازی داده
2-1-1-1- منابع و انواع داده
2-1-1-1-1- داده های کاربرد
2-1-1-1-1-1- فرمت های ثبت
2-1-1-1-1-2- منابع داده های کاربرد
2-1-1-1-2- داده های محتوا
2-1-1-1-3- داده های ساختار
2-1-1-1-4- داده های کاربران
2-1-1-2- آماده سازی و پیش پردازش داده ها
2-1-1-2-1- پاکسازی داده ها
2-1-1-2-2- شناسایی کاربر
2-1-1-2-3- تشخیص مشاهده صفحه
2-1-1-2-4- تشخیص جلسه ی کاربر
2-1-1-2-5- تکمیل مسیر
2-1-1-2-6- تشخیص تراکنش
2-1-1-2-7- پیش پردازش نهایی داده های کاربرد
2-1-1-2-8- یکپارچه سازی داده ها از منابع گوناگون
2-1-2- کشف الگو از داده های کاربرد وب
2-1-2-1- سطوح و انواع تحلیل
2-1-2-2- وظایف داده کاوی بر روی داده های کاربرد وب
2-1-2-2-1- کاوش قواعد انجمنی
2-1-2-2-2- کشف الگوهای ترتیبی
2-1-2-2-3- خوشه بندی
2-1-3- استفاده از الگوهای کشف شده جهت شخصی سازی وب
2-1-4- زمینه های تحقیقاتی شخصی سازی وب
2-2- منابع معنایی لغوی
2-2-1- فرهنگ لغت
2-2-2- فرهنگ های جامع
2-2-3- واژگان شناختی و رده بندی
2-2-3-2- رده بندی
2-2-3-3- واژگان شناختی ها و رده بندی های موجود
2-2-3-3-1- واژگان شناختی های مربوط به یک دامنه ی خاص
2-2-3-3-2- واژگان شناختی های عمومی
2-2-3-3-2-1- CYC و OpenCYC
2-2-3-3-2-2- WordNet
2-2-3-3-2-3- دایرکتوری های وب
2-2-3-4- زبان های نمایش واژگان شناختی
2-2-4- فرهنگ های عمومی
2-2-4-1- Wikipedia
2-2-4-1-1- نقاط ضعف و قوت Wikipedia
2-2-4-1-2- ساختار Wikipedia
2-2-4-1-3- انواع اطلاعات معنایی لغوی در Wikipedia
2-2-5- نتیجه گیری
مراجع
3- کارهای انجام شده در زمینه مدلسازی کاربر در شخصی سازی وب با استفاده از محتوای وب
مقدمه 85
3-1- تکنیک های مورد استفاده
3-1-1- تکنیک tf-idf
3-1-2- تکنیک تحلیل معنایی پنهان
3-1-3- تکنیک های مربوط به محاسبه ی ارتباط معنایی دو کلمه
3-1-3-1- معیارهای ارتباط معنایی مهم در ساختارهای سلسله مراتبی
3-1-3-1-1- رویکردهای مبتنی بر مسیر
3-1-3-1-2- رویکردهای مبتنی بر محتوای اطلاعات
3-1-3-1-3- رویکردهای مبتنی بر همپوشانی متن
3-1-3-2- رویکردهای محاسبه ی ارتباط معنایی دو کلمه برای روابط غیر رابطه ی هست
3-1-3-3- کارهای انجام شده در مورد محاسبه ی ارتباط معنایی دو کلمه در Wikipedia
3-2- رویکردهای انجام شده در زمینه ی مدلسازی کاربر در وب سایت با استفاده از محتوای صفحات
3-2-1- رویکردهای بر مبنای کلمات کلیدی
3-2-2- رویکردهای معنایی
3-2-2-1- روش های آماری
3-2-2-2- روش های مبتنی بر سلسله مراتب
جمع بندی
مراجع
4- روش پیشنهادی
مقدمه
4-1- تعریف مساله
4-2- طراحی روش جدید
4-2-1- مولفه ی پیش پردازش اولیه ی ثبت
4-2-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت
4-2-3- مولفه ی استخراج مفاهیم دامنه از وب سایت
4-2-4- مولفه ی سازنده ی بردار کلمات کلیدی
4-2-5- مولفه ی نگاشت
4-6- دیاگرام های UML قسمت های اصلی سیستم
4-7- بررسی تطابق طرح پیشنهادی با صورت مساله
جمع بندی
مراجع
5- جزئیات پیاده سازی
مقدمه
5-1- مولفه ی پیش پردازش اولیه ی ثبت
5-1-2- نحوه ی دریافت ثبت وب سرور
5-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت
5-3- مولفه ی استخراج مفاهیم دامنه از وب سایت
5-4- مولفه ی سازنده ی بردار کلمات کلیدی
5-5- مولفه ی نگاشت
5-6- پیاده سازی آزمایشات
جمع بندی
مراجع
6- ارزیابی روش پیشنهادی
مقدمه
6-1- مجموعه داده ها
6-2- پارامترهای ارزیابی
6-3- بررسی درستی مولفه های سیستم
6-4- آزمایشات انجام شده
6-4-1- سخت افزار مورد استفاده
6-4-2- نتایج آزمایشات
6-4-3- تحلیل نتایج آزمایشات
جمع بندی
مراجع
7- نتیجه گیری و کارهای آینده
مقدمه
7-1- نتایج حاصل از پروژه
7-2- دستاوردهای پروژه
7-3- کارهای آینده
مراجع
واژه نامه
شکل 2-1- مولفه های برون خطی آماده سازی داده و کشف الگو
شکل 2-2- مولفه برخط شخصی سازی وب
شکل 2-3- تراکنش HTTP
شکل 2-4- URL و URI
شکل 2-5- مکان های جمع آوری داده های کاربرد وب
شکل 2-6- مثالی از مدل کردن رفتار گردشی کاربر با زنجیره ی مارکف
شکل 2-7- مثالی از مدل کردن رفتار گردشی در یک درخت تجمعی
شکل 2-8- مثالی از استخراج پروفایل های تجمعی کاربرد از خوشه های تراکنش ها
شکل 2-9- بخشی از زمینه های تحقیقاتی شخصی سازی وب
شکل 2-10- نمونه ای از واژگان شناختی
شکل 2-11- نمونه ای از یک رده بندی
شکل 3-1- استفاده از SVD برای تجزیه ماتریس D * T
شکل 3-2- مفسر معنایی سیستم ESA
شکل 3-3- ماتریس SESSION-PAGE VIEW
شکل 3-4- تولید C-LOG
شکل 4-1- معماری کلی سیستم پیشنهادی
شکل 4-2- جزئیات مولفه ی استخراج کلمات کلیدی
شکل 4-3- شبه کد مولفه استخراج کلمات کاندیدا
شکل 4-4- شبه کد مولفه رتبه بندی کلمات کاندیدا
شکل 4-5- جزئیات مولفه ی استخراج مفاهیم دامنه
شکل 4-6- شبه کد بخش فیلتر کردن کاندیدا
شکل 4-7- شبه کد مولفه سازنده بردار کلمات کلیدی
شکل 4-8- شبه کد مولفه ی نگاشت
شکل 4-9- CLASS DIAGRAM مولفه های اصلی سیستم
شکل 4-10- SEQUENCE DIAGRAM بخش اصلی سیستم
فهرست جدول ها
جدول 2-1- مثال هایی از ارتباطات لغوی در WORDNET
جدول 2-2- منابع اطلاعات معنایی لغوی در WIKIPEDIA
جدول 2-3- مقایسه ی انواع منابع معنایی لغوی جهت استفاده در شخصی سازی وب
جدول 4-1- بردارهای کلمات کلیدی صفحات وب سایت مثال1
جدول 4-2- بردارهای کلمات کلیدی جلسه ی داده شده در مثال1
جدول 4-3- کلمات کلیدی و وزن های فرضی آنها در مثال 2
جدول 4-4- مفاهیم موجود در صفحات جلسات کاربر به همراه وزن های آنها در مثال 2
جدول 5-1- ساختار دستور CUSTOMLOG
جدول 5-2- ساختار دستور LOGFORMAT
جدول 6-1- نتایج آزمایشات انجام شده بر روی 100 جلسه ی تصادفی