View
79
Download
16
Category
Preview:
DESCRIPTION
جستجو در اينترنت با استفاده از زبان طبيعي فارسي. دكتر محسن كاهاني گروه مهندسي كامپيوتر دانشگاه فردوسي مشهد kahani@um.ac.ir http://www.um.ac.ir/~kahani. فهرست مطالب. مقدمه پردازش زبان طبيعي ويژگيهاي زبان فارسي ساختار سيستم پياده سازي سيستم نتايج. مقدمه. گسترش كاربرد هاي اينترنت - PowerPoint PPT Presentation
Citation preview
اينترنت در اينترنت جستجو در جستجواز استفاده از با استفاده با
طبيعي طبيعي زبان زبانكاهاني دكتردكترفارسيفارسي كاهاني محسن محسن
كامپيوتر مهندسي كامپيوتر گروه مهندسي گروه
مشهد فردوسي مشهد دانشگاه فردوسي دانشگاه
kahani@um.ac.ir
http://www.um.ac.ir/~kahani
مطالب مطالب فهرست فهرست
مقدمهمقدمه طبيعي زبان طبيعي پردازش زبان پردازش فارسي زبان فارسي ويژگيهاي زبان ويژگيهاي سيستم سيستم ساختار ساختار سيستم سازي سيستم پياده سازي پيادهنتايجنتايج
مقدمهمقدمه
اينترنت هاي كاربرد اينترنت گسترش هاي كاربرد گسترش مطالب با هاي سايت مطالب افزايش با هاي سايت افزايش
تجارتي، ) تجارتي، ) عمومي اطالع اطالع عموميوبالگ و سرگرمي وبالگ رساني، و سرگرمي ((رساني،
آكادميك غير كاربران آكادميك افزايش غير كاربران افزايش با عادي كاربران آشنايي با عدم عادي كاربران آشنايي عدم
جبري هاي جبري گزاره هاي گزاره اينترنت در جستجو اينترنت مشكل در جستجو مشكل
حل حل راه راه
طبيعي جمالت طبيعي پذيرش جمالت پذيرش ) توسط) اي ( محاوره توسط) اي محاوره
جستجو جستجو موتورهاي موتورهاي ) از ) محدود پشتيباني ( فقط از ) محدود پشتيباني فقط
انگليسي انگليسي زبان زبان
پروژه پروژه انگيزه انگيزه
بزبان سايتهاي بزبان افزايش سايتهاي افزايشفارسيفارسي
فارسي كاربران فارسي افزايش كاربران افزايشزبانزبان
اينترنت در جستجو اينترنت مشكل در جستجو مشكلعادي كاربران عادي براي كاربران براي
زبان زبان پردازش پردازش((NLPNLP ) )طبيعيطبيعي در مطرح هاي مقوله از در يكي مطرح هاي مقوله از يكي
» مصنوعي» «هوش مصنوعي» هوش
نرم و كامپيوترها از استفاده نرم روند و كامپيوترها از استفاده روندتر افزارها افزارها راحت استفاده تر بسمت راحت استفاده بسمت
((User FriendlyUser Friendlyكاربر)كاربر)
گفتار گفتار پردازش پردازش
نوشتار نوشتار پردازش پردازش
در مطرح علوم و در مفاهيم مطرح علوم و مفاهيمNLPNLPPhonologicalPhonological : در اصوات در : تشيخص اصوات تشيخص
لغات لغات MorphologicalMorphological :ها واژك « و لغت ها: علم واژك « و لغت علم
كند . تجزبه را كلمات كه كند . « تجزبه را كلمات كه »SyntacticSyntactic : گرامري و نحوي گرامري : شناخت و نحوي شناختSemanticSemantic : مفهوم و لغات مفهوم : معناي و لغات معناي
تركيبي تركيبي عبارات عباراتPragmaticPragmatic : كه علم از باالتري كه : سطح علم از باالتري سطح
در جمله يك متفاوت معناي در دربارة جمله يك متفاوت معناي دربارةكند . مي قضاوت مختلف كند .متون مي قضاوت مختلف متون
WorldWorld : در شخص كه كلي در : اطالعات شخص كه كلي اطالعاتشامل . داند مي ارتباط شامل . برقراري داند مي ارتباط برقراري
مي نيز ديگران عقايد و اهداف مي شناخت نيز ديگران عقايد و اهداف شناختشود .شود .
زبان زبان ويژگيهاي ويژگيهاييكديگر فارسيفارسي به فارسي زبان در يكديگر حروف به فارسي زبان در حروف
شوند مي شوند چسبيده مي چسبيده محل به بسته متفاوتي محل اشكال به بسته متفاوتي كلمهكلمهاشكال فاصله با كلمات فاصله چداسازي با كلمات چداسازي
و قيد جمله اجزاء ترتيب و درباره قيد جمله اجزاء ترتيب درباره. ندارد وجود خاصي .محدوديت ندارد وجود خاصي free free ) )محدوديت
orderorder)) استثنائات استثنائات وجود امكان) زياد زياد وجود امكان) مثال مثال
و جمع فاعل براي مفرد فعل و آوردن جمع فاعل براي مفرد فعل آوردن ((بالعكسبالعكس
كوچك و بزرگ حروف وجود كوچك عدم و بزرگ حروف وجود عدم((casecase))
عبارات بين نشانگر وجود عبارات عدم بين نشانگر وجود عدم اسمياسمي
سيستم سيستم ساختار ساختار
عبارت ورودي
فيلترها
عبارت منظم
كننده آناليزنحوي
) پارسر)
جبري كننده عبارت تبديلجبري عبارت
كامل درخت
كننده آناليز محتوايي
لغات مجموعه)lexicon( قواعد
خاص
درخت پارس شده
پردازش پيش
پردازش پردازش پيش پيش
عبارت ورودي
2فيلتر 3فيلتر
عبارت 4فيلتر 1فيلتر
منظم
11فيلتر فيلتر شروع
كردن مشخصTockon خالص هاي افعال شمردن
جملهتنظيم فعل
اعمال 1قاعده
د جو
ول
فعو
يرپ
ش پي
ز ا
يهپا
اعمال 2قاعده
حروف تصحيح
پايان
كنار : : هدف هدف جمله هر كنار فعل جمله هر فعلجمله آخر و جمله خود جمله اجزاي آخر و جمله خود اجزاي
باشدباشد
تك تك ::11قاعده قاعده تك به را تك جمله به را جمله
كه اي كه جمله اي جملهاش اش فعل فعل
است است آخرش آخرش. كند مي .تبديل كند مي تبديل
جمالت جمالت ::22قاعده قاعده توصيفي توصيفي پيروي پيرويجمله دل در جمله كه دل در كهباشند آمده باشند پايه آمده پايهجمالت دل از جمالت را دل از را
مي خارج مي پايه خارج پايه كند.كند.
22فيلتر فيلتر
موجود هدف: هدف: جمله در موجود مفعول جمله در مفعولتركيبات به نسبت و تركيبات باشد به نسبت و باشد
باشد داشته تقدم باشد اضافي داشته تقدم اضافيجمله • اجزاي ترتيب جمله تنظيم اجزاي ترتيب تنظيم
زبان free orderfree orderبعلت ) بعلت ) زبان بودن بودنفارسي( فارسي(
33فيلتر فيلتر
تغييرواژك هدف: هدف: و تغييرواژك تطابق و تطابقبراساس ورودي براساس هاي ورودي هاي
lexiconlexiconلغاتلغاتها )تنظيم تنظيم • ها )جداكننده white whiteجداكننده
spacesspaces )يك لغات ميان يك( در لغات ميان درجملهجمله
ها تنظيم تنظيم • ها جداكننده در در جداكنندهمركب مركب كلمات كلمات
44فيلتر فيلتر
از tokentokenحذف حذف هدف : هدف : كه از هايي كه هاييپروژه پروژه ديد به ))ديد توجه به با توجه lexiconlexiconبا
اند ( ( اند غيرالزم غيرالزمفيلتر ) • خاص عملكرد لحاظ به سرهم پشت حروف فيلتر ) حذف خاص عملكرد لحاظ به سرهم پشت حروف 11حذف
) اند شده (توليد اند شده توليد
از • خاصي از اسامي خاصي داشته lexiconlexiconاسامي مشخصي خصوصيت داشته كه مشخصي خصوصيت كهمثال ) ، مثال )باشند ، (nullnullباشند (قيد( ) اش : NNقيد( ) نوع كه اي اش : كلمه نوع كه اي و NNكلمه و باشد باشد
عملگرش و باشد قيد اش عملگرش خاصيت و باشد قيد اش حذف nullnullخاصيت باشد تهي حذف و باشد تهي و. شود .مي شود مي
لغات لغات فرهنگ ((LexiconLexicon ) )فرهنگنوع كلمه خصوصيت عملگر
N آن ضمير اشاره
N من ضمير شخصي
N نيز حذفي
PP در And
Pss و And
N اثرات حذفي
Vp مي خواهم
Vt باشد
SI درمورد
SI بدون Not
ترمينالها - ترمينالها - گرامر گرامرPssPss: : غيرپايه دوجمله بين مجاز ربط غيرپايه حروف دوجمله بين مجاز ربط حروفپيرو پيرو ، ،PstPst : : ( كه پايه جمله بعد ربط كه ) حرف پايه جمله بعد ربط ((حرفPttPtt : : )... و ) پيرو جمله دو بين ربط ...(حرف و ) پيرو جمله دو بين ربط حرفSt1St1 : : ( ، مقاله ، كتاب جستجو ، ) نوع مقاله ، كتاب جستجو (( .... ....sitesiteنوع
sisi :كننده مشخص اضافي عبارت كننده: پيش مشخص اضافي عبارت پيشو ) ....( موضوع موضوع درمورد و ) ....(جستجو درمورد جستجو
pppp :: اضافه يا ربط اضافه حرف يا ربط حرفVpVp :: پايه جمله پايه فعل جمله فعلVtVt :: پيرو جمله پيرو فعل جمله فعلNN :: ( در ورودي يك يا خاص اسم در ) اسم ورودي يك يا خاص اسم اسم
آن ياخارج لغات آن فرهنگ ياخارج لغات ((فرهنگ
ترمينالها ––گرامر گرامر ترمينالها غير غير
SS :جمالت يا جمالت: جمله يا جمله
SPSP :پايه پايه: جمله جمله
STST :پيرو پيرو: جمله جمله
StartStart: : پايه جمله پايه شروع جمله شروع
SRSR :: درخواست موضوع شامل درخواست عبارت موضوع شامل عبارت
MNPMNP : : جستجو موضوع شامل اسمي جستجو عبارت موضوع شامل اسمي عبارت
SRSSRS : : چندين چندينSRSR
SNPSNP : : خالص خالص موضوعات حروف SearchSearchموضوعات حروف با باشان . بين شان .ربط بين ربط
NPNP : : اسمي اسمي عبارت عبارت
TSRSTSRS : : در فعل از قبل دار جستجو در تركيبات فعل از قبل دار جستجو تركيباتپيرو پيرو جمله جمله
گرامر گرامر قوانين قوانين
SSS Pss SS Pss S
SSSP Pst ST | SPSP Pst ST | SP
STSTST Ptt STST Ptt ST
SPSPSRS VpSRS Vp
SRSSRSSR “va” SRS | SRSR “va” SRS | SR
SRSR Start MNP1 | Start MNP2 Start MNP1 | Start MNP2
Start Start St | St “ra” St | St “ra”
MNP1MNP1 si + SNP si + SNP
- ادامه گرامر - قوانين ادامه گرامر قوانين
MNP2MNP2 SNP “ra” SNP “ra”
SNPSNP NP pp SNP | NP NP pp SNP | NP
STST TSRS+ Vt | TSRS’+Vt TSRS+ Vt | TSRS’+Vt
TSRS TSRS MNP1 “va” TSRS | MNP1 MNP1 “va” TSRS | MNP1
TSRS’TSRS’ MNP2 “va” TSRS | MNP2 MNP2 “va” TSRS | MNP2
NPNPN+NP | NN+NP | N
StSt St1 St | St1 St1 St | St1
زبان پردازش مورد در زبان مقاالتي پردازش مورد در مقاالتيخواهم مي خواهم طبيعي مي طبيعي
S
SP
SRS VP
SR
START MNPI
St si SNP
St1 NP
N NP
N NP
N
درمورد زبان طبيعي ميخواهم مقاالتي پردازش
زبان زبان پردازش پردازشطبيعيطبيعي
درباره درباره اطالعاتي بياب بياب NLPNLPاطالعاتيفارسي زبان به مربوط فارسي كه زبان به مربوط كه
باشدباشد
S
SP PST ST
SRS VP TSRS VT
SR MNP1
START MNP1 Si SNP
ST Si SNP NP
ST1 NP N NP
N
مربوطبه زبان فارسي بياب باشد اطالعاتي دربارة NLPكه
NLPNLP زبان زبانفارسيفارسي
آتي كارهاي و گيري آتي نتيجه كارهاي و گيري نتيجه
اوليه سيستم اوليه ايجاد سيستم ايجاد آتي آتي كارهاي كارهاي
- - قوي ايجاد ايجاد قوي فيلتر تبديل تبديل برايبرايفيلترجمالت جمالت بهتر جمالت بهتر جمالت به به
استاندارداستاندارد پوشش براي گرامر پوشش تقويت براي گرامر تقويت
بهتربهتر لغات فرهنگ لغات تكميل فرهنگ تكميل
سئوال؟سئوال؟kahani@um.ac.ir
Recommended