ارائه مدلي كارا بر اساس زيرتركيب‌هاي استخراج شده از وي‍ژگي جهت تشخیص فعالیتهای فیزیکی انسانی

دسته بندي : کالاهای دیجیتال » رشته کامپیوتر و IT (آموزش_و_پژوهش)

این پایان نامه در قالب فرمت word قابل ویرایش ، آماده پرینت و ارائه به عنوان پروژه پایانی میباشد.

چکيده


ارائه مدلي كارا بر اساس زيرتركيب‌هاي استخراج شده از وي‍ژگي جهت تشخیص فعالیتهای فیزیکی انسانی

 

درک و استخراج اطلاعات از تصاویر و فیلم فصل مشترک اکثریت مسایل مربوط به بینایی ماشین است. یافتن قسمتهای اصلی و مفید یک فیلم و مدلسازی کنشهای بین این اجزا از اهداف اصلی آنالیز فیلم به شمار می‌رود. در دهه اخیر تشخیص فعالیت انسانی با استفاده از تصاویر ویدیویی به عنوان یک بحث چالش برانگیز در بینایی ماشین مطرح شده است. از جمله کاربردهای این موضوع می‌توان به مسایل نظارتی و امنیتی، پزشکی و تعامل انسان با کامپیوتر اشاره کرد. در تشخیص فعالیت به دلیل گوناگونی زیاد در نحوه انجام یک فعالیت، استخراج اجزاء اصلی و خلاصه سازی یک فعالیت، مشکل و پیچیده است. در صورتی که شروع آنالیز ویدیو را پردازش روشنایی پیکسل‌های تصویر در فریم‌های مختلف و هدف نهایی را تشخیص فعالیت انسانی در نظر بگیریم، فاصله زیادی بین سطح آنالیز و هدف نهایی وجود داشته و نیاز مبرم به استخراج ویژگی‌های معنادار و سطح بالاتر احساس می‌شود. در حقیقت چالش اصلی پر کردن فاصله عمیق بین توصیف گرهای سطح پایین تا بیان نوع فعالیت و خلاصه سازی آن است. در دهه‌های اخیر پژوهشگران در ارائه روشهای موثر خلاصه‌سازی با استفاده از تکنیک‌های بینایی و یادگیری ماشین حتی در سطح تصاویر، زیاد موفق نبوده‌اند. در این راستا روشهای جداسازی  مطرح شده‌اند که به مدلسازی مرز افتراقی کلاسهای مختلف پرداخته‌اند. این مدلها علی رغم موفقیتشان، به داده‌های برچسب‌دار زیاد نیاز داشته و محدود به زمینه خاصی می‌شوند. به علاوه، خطر بیش برازش  نیز آنها را تهدید می‌کند. از طرف دیگر مدلهای مولد  با اضافه کردن قیود اضافی به مدل با استفاده از حجم زیادی از داده‌های بدون برچسب در دسترس، به حل این مشکل پرداختند. به عنوان نمونه می توان به روشهای یادگیری ویژگی بدون ناظر اشاره نمود که با اضافه کردن برخی دانشهای اولیه در مورد ساختار کلی داده به کم کردن فاصله بین توصیف گرهای سطح پایین و مدل نهایی پرداختند.
   در این پایان نامه با ارائه پنج چارچوب متفاوت به حل مساله تشخیص فعالیت انسانی با رویکرد خلاصه سازی و استخراج ویژگی‌های سطح بالاتر پرداخته شده است. مراحل اصلی انجام کار را می‌توان به سه قسمت اصلی، 1- استخراج ویژگی، 2- کوانتیزه کردن آنها و 3- دسته بندی تقسیم نمود. در این پژوهش به استخراج ویژگیهای شکل و حرکت مربوط به تصاویر دو‌بعدی فریم‌های ویدیو پرداخته شده است. در قسمت دوم که تقریبا قسمت اصلی این پژوهش محسوب شده جهت کاهش خطای کوانتیزه کردن و بالا بردن سطح ویژگیها (با بهره‌گیری از دانش اولیه نهفته در داده) و نیز دسته‌بندی راحت‌تر در مراحل بعد، به جای روشهای متداول نظیر K-means، از روشهای کد گذار تنک و نیز برخی نسخه‌های بهبود یافته آن که جزء متدهای یادگیری ویژگی بدون ناظر محسوب می‌شوند، استفاده شده است. در اینگونه روشها هدف یافتن توابع پایه‌ای سطح بالاتر و توصیف ویدیو با استفاده از ترکیب خطی از آنهاست. همچنین جهت استخراج اطلاعات مفید توالی زمانی از روش بسیار مفید کد گذار تنک گروهی بهره گرفته‌ایم. سپس جهت جلوگیری از بیش برازش شدن مدل، ادغام مکانی و زمانی ضرایب پیشنهاد شده است. در نهایت با استفاده از دو الگوریتم مختلف از روشهای کلی دسته بندی مولد و جداساز تشخیص فعالیت را به پایان رسانده‌ایم.
 از نقاط برجسته این پایان نامه می‌توان به ترکیب چند ویژگی با مودالیته‌های مختلف، استخراج اجزای معنادار یک فعالیت و مدلسازی ارتباط آنها با در نظر گرفتن ساختار زمانی داده، کاهش خطای کوانتیزه کردن و نیز کاهش چشمگیر پیچیدگی مکانی و زمانی اشاره نمود. روشهای ارائه شده بر روی چندین پایگاه داده تشخیص فعالیت که متشکل از داده‌های مصنوعی و واقعی با چالش‌های مختلف بوده، ارزیابی شده و نتایج خوبی به دست آمده‌اند.

واژگان کلیدی: تشخیص فعالیت انسانی، دانش اولیه، ساختار داده، سیستم چند دسته بندی، کدگذار تنک، کدگذار تنک گروهی، یادگیری ویژگی بدون ناظر.

 

فهرست مطالب


عنوان                                          صفحه
1- مقدمه    2
1-1- مقدمه    2
1-2- کاربردها    14
1-3- چالشها و خصوصیات محیط    6
1-4- تعریف کلی مساله    11
2- مروری بر پژوهشهای گذشته    24
2-1- مقدمه    24
2-2- روشهای تک لایه    24
2-2-1- معرفی انواع روشهای زمان- مکان    15
2-2-2- جمع بندی و مقایسه روشهای زمان-مکان    23
2-2-3- روشهای متوالی    25
2-2-4- جمع بندی و مقایسه روشهای متوالی    26
2-3- روشهای چندلایه (سلسله مراتبی)    26
2-3-1- روشهای آماری    27
2-3-2- روشهای نحوی    27
2-3-3- مدل توصیفی    28
2-3-4- جمع بندی و مقایسه روشهای سلسله مراتبی    28
3- مطالعه ابزارهای مورد استفاده    31
3-1- مقدمه    31
3-2- ابزارهای مورد استفاده در استخراج ویژگی    31
3-2-1- هیستوگرام گرادیان جهت دار    31
3-2-2- شار نوری    32
3-3- ابزارهای مورد استفاده در یادگیری ویژگیهای سطح بالاتر    44
3-3-1- الگوی کلی در یادگیری ویژگی بدون ناظر    36
3-3-2- روشهای متداول در یادگیری ویژگی بدون ناظر    37
3-3-3- تجزیه تجربی مودی    61
3-4- ابزارهای مورد استفاده در دسته بندی    62
3-4-1- مدل مخفی مارکوف    62
3-4-2- ماشین بردار پشتیبان:    56
4- روش پیشنهادی    61
4-1- مقدمه    61
4-2- تعریف چارچوب اصلی    61
4-3- مراحل انجام کار    62
4-3-1- بیان ویدیو    64
4-3-2- استخراج ویژگی    76
4-3-3- کوانتیزه کردن کلمات و ساخت دیکشنری    68
4-3-4- ادغام    88
4-3-5- دسته بندی    89
4-4- چارچوبهای پیشنهادی    92
4-4-1- چارچوب اول:    92
4-4-2- چارچوب دوم:    92
4-4-3- چارچوب سوم:    83
4-4-4- چارچوب چهارم:    84
4-4-5- چارچوب پنجم:    86
5- نتایج    95
5-1- پایگاه دادههای موجود    95
5-2- تنظیم پارامترهای مساله    102
5-3- نتایج    104
6- بحث    120
6-1- نوآوریها و مزایا و معایب آنها    120
6-2- مقایسه چارچوبهای پیشنهادی    113
6-3- کارهای پیشنهادی جهت آینده    114
6-4- جمع بندی    115
7- فهرست منابع    116
 


فهرست جدول‌ها


عنوان                                          صفحه

جدول 5-1-نتایج روشهای ارائه شده ... پایگاه داده WEIZMANN در حالات مختلف    105
جدول 5-2-مقایسه نتایج روشهای ارائه شده با دیگر روشها بر روی پایگاه داده WEIZMANN    106
جدول 5-3-نتایج روشهای ارائه شده ... پایگاه داده KTH در حالات مختلف    106
جدول 5-4-مقایسه نتایج روشهای ارائه شده با دیگر روشها بر روی پایگاه داده KTH    107
جدول 5-5-نتایج روشهای ارائه شده ... پایگاه داده UCF-SPORTS در حالات مختلف    107
جدول 5-6-مقایسه نتایج روشهای ارائه شده با دیگر روشها بر روی پایگاه دادهUCF-SPORTS    108
جدول 5-7-نتایج روشهای ارائه شده ...پایگاه داده UCF50 در حالات مختلف    108
جدول 5-8-مقایسه نتایج روشهای ارائه شده با دیگر روشها بر روی پایگاه داده UCF50    108


فهرست شکل‌ها


عنوان                                          صفحه
شکل 1-1- یکی از کاربردهای تشخیص فعالیت انسانی در معابر عمومی    5
شکل 1-2- کاربرد تشخیص فعالیت در پزشکی    5
شکل 1-3-کاربرد تشخیص فعالیت در علوم شناختی.    5
شکل 1-4-کاربرد تشخیص فعالیت در صنعت پویانمایی    6
شکل 1-5-مقایسه مراحل مختلف انجام فعالیت پرش با نیزه در دو فرد مختلف    9
شکل 1-6-نمونههای مختلف از انجام حرکت دویدن.    10
شکل 1-7-سرعت انجام یک فعالیت در افراد مختلف متفاوت است    9
شکل 2-1-نمودار درختی روشهای ارائه شده در تشخیص فعالیت[1].    14
شکل 2-2-حجم زمانی مکانی برای یک فعالیت بر حسب اطلاعات شبح کلی بدن انسان [3]    15
شکل 2-3-ساخت تصویر MEI و MHI از تصاویر مختلف [4].    16
شکل 2-4-نقاط متحرک در حین فعالیت    18
شکل 2-5-نقاط جذاب زمانی-مکانی پا در راه رفتن    20
شکل 2-6-فعالیت نوشیدن به وسیله یک سری از حرکات ابتدایی     22
شکل 2-7-بیانهای متفاوت از مدل بدن انسان    24
شکل 2-8-ماسک مختلف اشکال برای تشخیص فعالیت تنیس[21]    25
شکل 2-9-مثالی از تشخیص فعالیت مشت زدن با استفاده از مدل مخفی مارکوف چند لایه.    29
شکل 3-1-چهار سلول مختلف و بردارهای اندازه و جهت گرادیان    32
شکل 3-2-استخراج ویژگی شار نوری    34
شکل 3-3-قالب کلی در الگوریتمهای یادگیری ویژگی بدون ناظر[39]    37
شکل 3-4-شمای کلی روش کد گذاری تنک     41
شکل 3-5-مسیر کلی" تشخیص" در سیستم بینایی انسان که دارای چندین مرحله است    45
شکل 3-6-پارامترهاي مساله بهينه سازي    57
شکل 3-7-توانايي SVM در جداسازي داده‌هاي غير خطي و متغير  جهت کنترل انحراف    57
شکل 4-1-دیاگرام کلی مراحل انجام کار در مدل کیف ویژگی    62
شکل 4-2-شمای کلی مراحل انجام کار در مدل کیف ویژگی[34].    63
شکل 4-3-خلاصه سازی و استخراج حالات کلیدی یک  فعالیت.    64
شکل 4-4-شمای کلی از ایده ساخت دیکشنری از حالات و ترکیب خطی آنها.    64
شکل 4-5-بیان ویدیو    66
شکل 4-6-دو منبع اصلی استخراج ویژگی شامل دانش اولیه و ویژگی‌های مستخرج از تصاویر می‌باشد.    68
شکل 4-7-دیکشنری استخراج شده از ویژگی حرکتی در جهت افقی    72
شکل 4-8-دو زیرفضای دوگان    73
شکل 4-9-دو روش مختلف در بیان ویدیو    73
شکل 4-10-دیکشنری‌های شکل مستخرج از بانک فیلترهای متفاوت.     76
شکل 4-11-دو روش گروهبندی    77
شکل 4-12-نگاشت فریمهای مختلف یک ویدیو و ضرایب آنها بر... پشتیبان خطی    81
شکل 4-13-هر کدام از ویژگیهای شکل و حرکت    86
شکل 4-14-مرور کلی بر چارچوب اول    88
شکل 4-15-مرور کلی بر چارچوب دوم    89
شکل 4-16-مرور کلی بر چارچوب سوم    90
شکل 4-17-مرور کلی بر چارچوب چهارم    91
شکل 4-18-شمای کلی مرحله کد کردن    92
شکل 4-19-مرور کلی بر چارچوب پنجم    93
شکل 5-1-نمونه فریم کلاسهای مختلف پایگاه داده مصنوعی KTH در چند سناریو    96
شکل 5-2-نمونه فریم کلاسهای مختلف پایگاه داده WEIZMANN در چند سناریو    96
شکل 5-3-نمونه فریم کلاسهای مختلف پایگاه داده UCF SPORTS    98
شکل 5-4-نمونه فریم کلاسهای مختلف پایگاه داده YOU TUBE    98
شکل 5-5-نمونه فریم کلاسهای مختلف پایگاه داده UCF50 در چند سناریو    100
شکل 5-6-نمونه فریم کلاسهای مختلف پایگاه داده HOLLYWOOD در چند سناریو    101
شکل 5-7-نمونه فریم چند کلاس پایگاه داده MHDB    101

 

 
1.            

فصل اول
مقدمه
1.    
1.    

مقدمه
مقدمه
درک و تحلیل تصاویر، فصل مشترک اکثریت مسایل بینایی ماشین می‌باشد. در این راستا و با پیشرفت تکنیک‌های مختلف بینایی ماشین، آنالیز صحنه‌های مختلف از سطح تصویر بالاتر آمده و به تحلیل فیلم (توالی از فریم‌ها) با در نظر گرفتن ارتباطات زمانی بین آنها می‌پردازد. این امر موجبات درک بهتر و دقیقتر از صحنه مورد نظر را فراهم می‌آورد. امروزه تشخیص فعالیت انسانی یکی از مهمترین و جالبترین موضوعات پژوهشی در حوزه بینایی ماشین است. هدف از این تشخیص، آنالیز فعالیتهای در حال انجام انسانها در یک ویدیو ناشناخته است. به صورت کلی می‌توان آنالیز حرکات انسانی را به سه دسته تقسیم کرد: 1- تشخیص فعالیت انسانی ، 2- تعقیب حرکات انسانی  و 3- آنالیز حرکات قسمتهای مختلف بدن انسان . هر کدام از این دسته آنالیزها می‌توانند بر روی فریم‌های دو یا سه بعدی انجام پذیرند. در بسیاری از مسائل کاربردی بعد از یافتن انسانها در تصاویر و تعقیب آنها، به دنبال دسته‌بندی فعالیت‌هایشان هستیم. تشخیص فعالیت، یک پروسه برچسب گذاری بر روی فعالیت‌های انسانی است که می‌تواند با استفاده از سنسرهای گوناگونی نظیر بینایی و صوتی صورت گیرد. در این پژوهش ما فقط از مشاهدات مربوط به حوزه بینایی که می‌تواند از یک یا چند دوربین گرفته شده باشد، استفاده می‌کنیم.  برچسب یک فعالیت خاص، نامی است که تقریبا میانگین افراد با شنیدن آن، همان فعالیت را متصور شده و بتوانند همان‌گونه انجام دهند. به عبارتی دیگر برچسب فعالیت بهترین توصیف کننده یک نمونه فعالیت است که توسط افراد مختلف در شرایط متفاوت انجام شده اند.
با نگاه عمیق تر به مساله تشخیص فعالیت، می‌توان آنرا از دیدگاههای متفاوت با برخی از حوزه‌های هوش مصنوعی نظیر پردازش زبان طبیعی، پردازش متن و نیز تشخیص صوت شبیه دانست. استفاده از منظرهای مختلف جهت آنالیز این مساله خالی از لطف نیست. به عنوان مثال، برای تعریف دقیقتر فعالیت و تشخیص آن ازمفاهیم زبان طبیعی و نحوه صحبت انسان استفاده می‌کنیم. انسانها در صحبت‌های روزمره خود از جملات استفاده می‌کنند. هر جمله ساده از فاعل، مفعول و فعل تشکیل شده است. برای بیان مفاهیم دیداری موجود در یک فیلم نیز تقریبا همین ساختار وجود دارد. از این زاویه فاعل یا انجام دهنده فعالیت، معمولا انسانها هستند. مفعول، معمولا می‌تواند انسانهای دیگر یا اشیا و یا محیطی باشد که فاعل روی آن فعالیت خود را انجام می‌دهد. در نهایت، فعل نشان دهنده نوع فعالیت یا تعامل بین فاعل و اشیا است. از دیدگاه پردازش صوت همانگونه که در این حوزه اجزایی مانند فونم‌ها، حروف و کلمات یک جمله می‌سازند، توالی و ترتیب حرکات با یکدیگر نیز یک فعالیت معنی‌دار را تشکیل می‌دهند. با توجه به تشابهات موجود، به نظر می‌رسد که با بررسی روشهای مختلف در حوزه‌های مطرح شده بتوانیم به حل کارآمدتری در مساله خود دست یابیم.  
انواع مختلفی از فعالیت‌های انسانی وجود دارد. فعالیتها را با توجه به پیچیدگی آنها به 4 سطح مختلف تقسیم بندی می‌کنیم[1]:
1.    حرکات دست و صورت انسان : حرکات اولیه اجزا بدن است که اتمیک بوده و برای توصیف حرکات معنی‌دار انسانی کاربرد دارد. مانند باز کردن دست از آرنج یا جمع کردن آن، دست را مشت کردن و غیره
2.    فعالیت یک انسان : فعالیت‌های ساده که می‌توانند شامل چندین حرکت از حرکت‌های دسته اول در بعد زمان باشند را در دسته دوم قرار می‌دهیم. به عبارت دیگر ترکیب حرکات اتمیک انسان، یک فعالیت را تشکیل می‌دهد. مانند راه رفتن، تکان دادن دست و غیره.
3.    تعامل فعالیت‌های انسانی : در این دسته دو یا چند انسان و یا انسان و اشیا با هم در ارتباطند. مانند دعوای دو نفر با یکدیگر و یا دزدیدن کیف فردی توسط دیگری که نمونه ای از تعامل دو انسان با یک شی می‌باشد.
4.    فعالیت‌های گروهی : عملیاتی که توسط گروهی از انسانها با یکدیگر یا با اشیا صورت می‌گیرد. مانند رژه رفتن یک گروه از سربازها، ملاقات گروهی و غیره
به عنوان مثال بازی تنیس یک تعامل فعالیت انسانی است. این تعامل شامل چندین فعالیت است مانند سرویس زدن، برگشت توپ یا زمان استراحت و غیره. هر کدام از این فعالیتها خود شامل حرکات اولیه است. مثلا سرویس زدن شامل پرتاب توپ به سمت بالا، بردن راکت به عقب، حرکت راکت و ضربه زدن به توپ. باید دقت شود که انتخاب حرکات اولیه، مساله‌ای مهم و تاثیرگذار در ادامه روند تشخیص می‌باشد. به عنوان مثال، حرکت بازو نمی‌تواند یک حرکت کافی برای قسمتی از فعالیت بازی تنیس باشد، این در حالی است که این حرکت می‌تواند یک حرکت کافی در فعالیت نوشیدن باشد. بنابراین استخراج حرکات اولیه یک فعالیت تا حدودی وابسته به نوع فعالیت می‌باشد و تعریف دقیق به صورت کامل مقدور نیست.
کاربردها
 توانایی تشخیص فعالیت‌های پیچیده انسانی کاربردهای گوناگونی دارد. از جمله سیستم‌های نظارت اتوماتیک در مکان‌های عمومی نظیر فرودگاه‌ها و بزرگراه‌ها که نیازمند تشخیص حرکات و فعالیت‌های غیر نرمال و مشکوک در مقابل فعالیت‌های معمولی و عادی می‌باشند[1]. به عنوان مثال در فرودگاه‌ها تشخیص برخی فعالیت‌ها مانند رها کردن یک کیف توسط یک شخص یا انداختن کیف دستی یک شخص در سطل زباله می‌توانند جز حرکات مشکوک به حساب آیند. همچنین با استفاده از دوربینهای نظارتی در فروشگاههای بزرگ و معابر عمومی، می‌توان حرکاتی مانند دزدی و یا برخی تهدیدها را کنترل نمود. ‏شکل 1-1- نشان‌دهنده برخی کاربردهای تشخیص فعالیت با استفاده از دوربین‌های نظارتی مستقر در فروشگاه‌ها و معابر عمومی است.

 

دسته بندی: کالاهای دیجیتال » رشته کامپیوتر و IT (آموزش_و_پژوهش)

تعداد مشاهده: 2860 مشاهده

فرمت فایل دانلودی:.docx

فرمت فایل اصلی: docx

تعداد صفحات: 165

حجم فایل:8,850 کیلوبایت

 قیمت: 65,000 تومان
پس از پرداخت، لینک دانلود فایل برای شما نشان داده می شود.   پرداخت و دریافت فایل