این پایان نامه در قالب فرمت word قابل ویرایش ، آماده پرینت و ارائه به عنوان پروژه پایانی میباشد.
فهرست مطالب
فصل اول پیشگفتار 1
1-1- مقدمه 2
1-3- تحلیل احساس در متن 6
1-4- اهداف رساله 8
1-5- روش کار 9
1-6- ساختار پایان نامه 9
فصل دوم کارهای انجام شده 10
2-1- مقدمه 11
2-2- تعریف مسئله 11
2-3- گام اول تحلیل احساس در متن 12
2-4- روشهای مبتنی بر خصیصههای N-gram 13
2-5- الگوریتمهای انتخاب خصیصه 18
فصل سوم روش پیشنهادی 22
3-1- پیش گفتار 23
3-2- منابع مورد نیاز 23
3-3- روش پیشنهادی اول 25
3-3-1. پیش پردازش اسناد 26
3-3-2. برچسب گذاری ادات سخن 29
3-3-3. استخراج بردار خصیصهها و ترکیب خصیصهها 30
3-3-4. اعمال الگوریتم انتخاب خصیصه 33
3-4- روش پیشنهادی دوم 34
3-5- روش پیشنهادی سوم 37
3-5-1. استخراج پلاریته کلمات و فیلتر بردار خصیصه 38
فصل چهارم پیاده سازی و نتایج گرفته شده 47
4-1- مقدمه 48
4-2- مجموعه دادهها 48
4-3- طبقهبندی دادهها 48
4-4- نتایج روش اول 49
4-5- نتایج روش دوم 52
4-6- نتایج روش سوم 53
4-7- مقایسه روش پیشنهادی با روشهای قبل 53
8-4- نتایج اعمال روش پیشنهادی برای زبان فارسی..........................................................................................................................54
4-9- کارهای آینده 58
مراجع و منابع 59
فهرست الگوریتم ها
ALGORITHM 1 DOCUMENTS_TO_MODEL 33
ALGORITHM 2 DOCUMENTS_TO_MODEL2 35
ALGORITHM 3 POLARITY_FILTER 40
فهرست تصاویر
شکل 1-1 دسته بندی متون 5
شکل 1-2 تحلیلگر احساس در سطح کلمه 7
شکل 1-3 تحلیلگر احساس در سطح جمله 7
شکل 1-4 تحلیلگر احساس در سطح سند 8
شکل 2-1 مهمترین الگوریتم های انتخاب خصیصه تک متغیره 19
شکل 2-2 مهمترین روش های انتخاب خصیصه چند متغیره 21
شکل 3-1 SENTIWORDNET 22
شکل 3-2 شمای کلی روش پیشنهادی اول 26
شکل 3-3 شمای پیش پردازش اسناد 27
شکل3-4 برچسب گذار استنفورد 30
شکل3-5 مجموعه خصیصههای پیشنهادی برای تحلیل احساس 32
شکل 3-6 شمای کلی روش پیشنهادی دوم 36
شکل 3-7 شمای کلی روش سوم. 38
شکل3-8 شمای کلی روش پیشنهادی 43
شکل3-9 برچسب گذار زبان فارسی 44
شکل3-10 مجموعه خصیصههای پیشنهادی برای تحلیل احساس متون فارسی 45
فهرست جداول
جدول 2-1 مجموعه خصیصهها N-GRAM و مثال برای هر خصیصه 15
جدول 2-2 مجموعه کاملی از خصیصه ها N-GRAM 16
جدول 3-1 لیست STOPWORDS 28
جدول 3-2 مثال برای رفع ابهام با استفاده از برچسب ادات سخن 31
جدول 3-3 کلمات هم معنای GREAT 35
جدول 3-3 محاسبه تفاضل نسبی پلاریتی کلمات 39
جدول 3-5 مثال خصیصه استخراج شده از متن. 45
جدول 4-1 مجموعه داده های مورد استفاده در این رساله 49
جدول 4-2 تعداد خصیصههای پس از اعمال الگوریتم انتخاب خصیصه 50
جدول 4-3 مقایسه روش های پیشنهادی 50
جدول 4-4 مقایسه نتایج روش پیشنهادی با روش پیشین 52
جدول 4-5 تعداد کل خصیصه ها بدون اعمال الگوریتم انتخاب خصیصه 53
جدول 4-6 مقایسه نتایج روش پیشنهادی با روش ارائه شده توسط عباسی و همکارانش 54
جدول 4-7 مقایسه نتایج روش پیشنهادی با روش ارائه شده توسط آگاروال و میتال. 54
جدول4-8- نتایج طبقهبندی متون فارسی 57
فصل اول پیشگفتار
1-1- مقدمه
برخی نویسندگان داده کاوی را به عنوان ابزاری برای جستجو کردن اطلاعات سودمند در حجم زیادی از داده ها تعریف می کنند. برای انجام فرایند داده کاوی با زمینه های گوناگون تحقیقی مواجه میشویم، مانند پایگاه داده، یادگیری ماشین و آمار. پایگاه دادهها برای تحلیل کردن حجم زیادی از دادهها ضروری هستند. یادگیری ماشین، یک ناحیه هوش مصنوعی است که با ایجاد تکنیکهایی امکان یادگیری به وسیله تحلیل مجموعههای دادهای را به کامپیوترها میدهند. تمرکز این روشها روی داده سمبولیک است و با آنالیز دادههای تجربی سر و کار دارد. پایه آن تئوری آماری است. در این تئوری عدم قطعیت و شانس به وسیله تئوری احتمال مدل میشوند. امروزه بسیاری از روشهای آماری در زمینه داده کاوی استفاده میشوند. میتوان گفت که متن کاوی از تکنیکهای بازیابی اطلاعات، استخراج اطلاعات همچنین پردازش کردن زبان طبیعی استفاده میکند و آنها را به الگوریتمها و متدهای داده کاوی، یادگیری ماشین و آماری مرتبط میکند. با توجه به ناحیههای تحقیق گوناگون، بر هر یک از آنها میتوان تعاریف مختلفی از متن کاوی در نظر گرفت در ادامه برخی از این تعاریف بیان میشوند:
متن کاوی = استخراج اطلاعات: در این تعریف متن کاوی متناظر با استخراج اطلاعات در نظر گرفته میشود (استخراج واقعیتها از متن).
متن کاوی = کشف داده متنی: متن کاوی را میتوان به عنوان متدها و الگوریتمهایی از فیلدهای یادگیری ماشین و آماری برای متنها با هدف پیدا کردن الگوهای مفید در نظر گرفت. برای این هدف پیش پردازش کردن متون ضروری است. در بسیاری از روشها، متدهای استخراج اطلاعات، پردازش کردن زبان طبیعی یا برخی پیش پردازشهای ساده برای استخراج داده از متون استفاده میشود، سپس میتوان الگوریتمهای داده کاوی را بر روی دادههای استخراج شده اعمال کرد.
متن کاوی = فرایند استخراج دانش: که در بخش قبلی به طور کامل توضیح داده شده است و در اینجا دیگر بیان نمیشود. در این تحقیق ما بیشتر متن کاوی را به عنوان کشف داده متنی در نظر میگیریم و بیشتر بر روی روشهای استخراج الگوهای مفید از متن برای دستهبندی مجموعه های متنی یا استخراج اطلاعات مفید، تمرکز میکنیم.
در دنياي کنوني مشکل کمبود اطلاعات نيست، بلکه مشکل کمبود دانشي است که از اين اطلاعات مي توان بدست آورد. ميليونها صفحه ي وب، ميليونها کلمه در کتابخانههاي ديجيتال و هزاران صفحه اطلاعات در هر شرکت، تنها چند دست از اين منابع اطلاعاتي هستند. اما نميتوان به طور مشخص منبعي از دانش را در اين بين معرفي کرد. دانش خلاصهي اطلاعات است و نيز نتيجه گيري و حاصل فکر و تحليل بر روي اطلاعات.
داده کاوي، يک روش بسيار کارا براي کشف اطلاعات از دادههاي ساختيافتهاي که در جداول نگهداري ميشوند، است. داده کاوي، الگوها را از تراکنشها، استخراج ميکند، داده را گروهبندي ميکند و نيز آنرا دستهبندي ميکند. بوسيلهي داده کاوي ميتوانيم به روابط ميان اقلام دادهاي که پایگاه داده را پر کردهاند، پي ببريم. در عين حال ما با داده کاوي مشکلي داريم و آن عدم وجود عاميت در کاربرد آن است. بيشتر دانش ما اگر به صورت غير ديجيتال نباشند، کاملاً غير ساختيافته اند. کتابخانههاي ديجيتال، اخبار، کتابهاي الکترونيکي، بسياري از مدارک مالي، مقالات علمي و تقريباً هر چيزي که شما ميتوانيد در داخل وب بيابيد، ساختيافته نيستند. در نتيجه ما نميتوانيم آموزههاي داده کاوي را در مورد آنها به طور مستقيم استفاده کنيم. با اين حال، سه روش اساسي در مواجهه با اين حجم وسيع از اطلاعات غير ساختيافته وجود دارد که عبارتند از: بازيابي اطلاعات، استخراج اطلاعات و پردازش زبان طبیعی.
بازیابی اطلاعات: اصولاً مرتبط است با بازيابي مستندات و مدارک. کار معمول دربازیابی اطلاعات اين است که با توجه به نياز مطرح شده از سوي کاربر، مرتبط ترين متون و مستندات و يا در واقع بقچهي کلمه را ازميان ديگر مستندات يک مجموعه بيرون بکشد. اين يافتن دانش نيست بلکه تنها آن بقچهاي از کلمات را که به نظرش مرتبطتر به نياز اطلاعاتي جستجوگر است را به او تحويل ميدهد. اين روش به واقع دانش و حتي اطلاعاتي را برايمان به ارمغان نميآورد.
پردازش زبان طبیعی: هدف کلی پردازش زبان طبیعی رسیدن به یک درک بهتر از زبان طبیعی توسط کامپیوترهاست. تکنیکهای مستحکم و سادهای برای پردازش کردن سریع متن به کار میروند. همچنین از تکنیکهای آنالیز زبان شناسی نیز برای پردازش کردن متن استفاده میشود.
استخراج اطلاعات: هدف روشهای استخراج اطلاعات، استخراج اطلاعات خاص از سندهای متنی است. استخراج اطلاعات ميتواند به عنوان يک فاز پيش پردازش در متنکاوی بکار برود. استخراج اطلاعات عبارتند از نگاشت کردن متنهای زبان طبیعی (مثلا گزارشها، مقالات journal، روزنامهها، ایمیلها، صفحات وب، هر پایگاه داده متنی و.....) به یک نمایش ساختیافته و از پیش تعریف شده یا قالبهایی که وقتی پر میشوند، منتخبی از اطلاعات کلیدی از متن اصلی را نشان میدهند. یکبار اطلاعات استخراج شده و سپس اطلاعات میتوانند در پایگاه داده برای استفادههای آینده، ذخیره شوند.
1-2- کاربردهای متن کاوی
در این قسمت تعدادی از کاربردهای متنکاوری را بیان خواهیم کرد. امروزه با وجود حجم زیادی از اطلاعات متنی، متنکاوی از جمله روش های تحقیقی-تجاری میباشد که از اهمیت ویژهای برخوردار است. همه شرکتهای تجاری، تولید کنندگان کالاها، ارائه کنندگان خدمات و سیاستمداران قادرند با بهرهگیری از فرایند متنکاوی دانش مفیدی را به عنوان بازخورد از کالا، خدمات و عملکرد خود دریافت کنند. از جمله کاربردهای متن کاوی میتوان به موارد زیر اشاره نمود:
1.شناساییspam: آنالیز کردن عنوان و محتوای یک ایمیل دریافتی، برای تشخیص اینکه آیا ایمیل میتواند spam باشد یاخیر.
2 .نظارت :یعنی نظارت کردن رفتار شخص یا گروهی از انسانها به صورت پنهان. پروژهای به نام ENCODA تلفن، اینترنت و دیگر وسایل ارتباطی را برای شناسایی تروریسم نظارت میکند.
3. شناسایی نامهای مستعار: نامهای مستعار در مراقبتهای پزشکی برای شناسایی تقلبها آنالیز میشوند. برای مثال یک صورت حساب ممکن هست با نام John Smith، J. Smith و Smith, John ارائه شود. از این طریق یا با استفاده از روشهای دیگری مطالبه کنندگان امکان سوءاستفاده را خواهند یافت و مطالبات حق بیمه زیادی تحت نامهای مستعار مختلف دریافت میکنند. استفاده از متنکاوی برای تشخیص این نامهای مستعار میتواند در یافتن تقلب به شرکتهای بیمه کمک فراوانی کند.
4.خلاصه سازی: منظور از خلاصه سازي، روند استخراج و ارائه مجموعهاي مفاهيم پايهاي از متن، تنها در چند خط است. اين کار ميتواند بررسي محتويات مستندات را براي کاربران سادهتر کند و آنها را در مسير رسيدن به آنچه نياز دارند، سرعت بخشد.
5. روابط میان مفاهیم: از جمله واقعيتهايي که مي توان از يک مجموعه متون دريافت، ارتباط و وابستگي برخی مفاهيم با مفاهيم ديگراست. اين واقعيات به طور مثال ميتواند بگويد که پديدار شدن بعضي کلمات ممکن است که وابسته باشد به ظاهر شدن بعضي ديگر از کلمات. منظور اين است که هرگاه مجموعه ي اول کلمات را ببينيم، ميتوانيم انتظار داشته باشيم که مجموعهي دوم لغات را نيز در ادامه مشاهده خواهیم کرد. اين مفهوم نيز از داده کاوي در ديتابيس به امانت گرفته شده است.
6. یافتن وتحلیل رفتارها: برای شرح این کاربرد فرض کنيد که مدير يک کمپاني تجاري هستيد. مشخصاً شما بايد همواره بر فعاليتهاي رقيبانتان نظارت داشته باشيد. اين ميتواند هر نوع اطلاعاتي باشد که شما از اخبار، معاملات بورس و يا از مستندات توليد شده توسط همان کمپاني رقيب گرفتهايد. امروزه اطلاعات به طور فزآيندهاي در حال افزايش است، مديريت تمامي اين منابع دادهاي قطعاً تنها به کمک چشمان ممکن نيست. متنکاوی اين امکان را ميدهد که به طور اتوماتيک رفتارها و تغييرات جديد را بيابيد. در واقع آنچه اصولاً بايد از متنکاوي انتظار برود اين است که به شما بگويد چه اخباري در ميان گسترهاي از اخبار به آنچه مي خواهيد مرتبط است و در اين ميان کدام خبر جديداست، چه پيشرفتهايي در زمينهي کاري شما صورت مي گيرد و علايق و رفتارهای فعلي چگونه است و با چه روندي تغيير ميکند. با استفاده از اين اطلاعات، مديران قادرند از اطلاعات کشف شده براي بررسي وضعيت رقيب سود جويند.
7. تحلیل احساس : در این کاربرد هدف از متن کاوی تشخیص احساس نویسنده متن است. درجه رضایت یا خوشحالی و ناراحتی نویسنده تشخیص داده میشود. این رساله به بررسی متن کاوی به منظور تحلیل احساس موجود در متون خواهد پرداخت، لذا در ادامه با جزئیات بیشتری تحلیل احساس در متون را بررسی خواهیم کرد.
همه اطلاعات متنی را میتوان به دو دسته:حقایق و عقاید دسته بندی کرد. حقایق عبارات علمی و عملی درباره موجودیتها، رویدادها و ویژگیهای آنها هستند که بصورت عینی و واقعی در دنیای بیرون وجود دارند یا به وقوع پیوستهاند. عقاید عبارات غیر عینی و ذهنی هستند که نظرات، ارزیابیها یا احساسات افراد را درباره یک موجودیت، رویداد و ویژگیهای آنها بیان میکنند [23]. شکل 1-1 مثالی را برای هر کدام بیان میکند. در این رساله تنها به یک جنبه از این مفهوم یعنی احساسات خواهیم پرداخت.