AttentionMNIST: ہاتھ سے لکھے ہوئے ہندسوں اور حروف تہجی کی شناخت کے لیے ایک ماؤس-کلک توجہ سے باخبر رہنے والا ڈیٹاسیٹ

Feb 22, 2024

متعدد توجہ پر مبنی ماڈلز جو جھلکوں کی ترتیب کے ذریعے اشیاء کو پہچانتے ہیں، نے ہاتھ سے لکھے ہوئے ہندسوں کی شناخت کے نتائج کی اطلاع دی ہے۔ تاہم، ہاتھ سے لکھے ہوئے ہندسوں یا حروف تہجی کی شناخت کے لیے کوئی توجہ سے باخبر رکھنے والا ڈیٹا دستیاب نہیں ہے۔ اس طرح کے ڈیٹا کی دستیابی توجہ پر مبنی ماڈلز کو انسانی کارکردگی کے مقابلے میں جانچنے کی اجازت دے گی۔ ہم ترتیب وار نمونے لینے کے ذریعے تصاویر سے ہاتھ سے لکھے ہوئے ہندسوں اور حروف تہجی (اپر اور چھوٹے) کو پہچاننے کی کوشش کرنے والے 382 شرکاء سے ماؤس کلک توجہ سے باخبر رہنے کا ڈیٹا اکٹھا کرتے ہیں۔ بینچ مارک ڈیٹاسیٹس کی تصاویر محرک کے طور پر پیش کی جاتی ہیں۔ جمع کردہ ڈیٹاسیٹ، جسے AttentionMNIST کہا جاتا ہے، نمونے (ماؤس کلک) مقامات کی ایک ترتیب پر مشتمل ہوتا ہے، prہر نمونے لینے پر کلاس لیبل (زبانیں)، اور ہر نمونے کی مدت۔ اوسطا، ہمارے شرکاء شناخت کے لیے تصویر کا صرف 12.8% مشاہدہ کرتے ہیں۔ ہم مقام کی پیشین گوئی کرنے کے لیے ایک بیس لائن ماڈل تجویز کرتے ہیں اور اگلے نمونے لینے کے دوران ایک حصہ لینے والا منتخب کرے گا۔ جب ہمارے شرکاء کی طرح محرکات اور تجرباتی حالات کا سامنا کرنا پڑتا ہے، تو توجہ پر مبنی کمک کرنے والا ایک اعلیٰ نمونہ انسانی کارکردگی سے کم ہوتا ہے۔

Chinese herb cistanche

چینی سیستانچجڑی بوٹی- الزائمر کی بیماری کی مصنوعات کو روکیں۔

مشین لرننگ (ML) ماڈلز جو جھلکوں کی ترتیب کے ذریعے اشیاء کو پہچانتے ہیں، حالیہ برسوں میں اپنی توسیع پذیری اور کارکردگی کی وجہ سے دلچسپی حاصل کر چکے ہیں۔ ان میں سے بہت سے ماڈلز، جیسے کہ 1–7، نے ہاتھ سے لکھے ہوئے ہندسوں کی شناخت کے لیے بینچ مارک MNIST ڈیٹاسیٹ پر تجرباتی نتائج کی اطلاع دی ہے۔ بدقسمتی سے، MNIST کے لیے کوئی توجہ کا پتہ لگانے والا ڈیٹا دستیاب نہیں ہے۔ یہ انسانی کارکردگی کے مقابلے میں توجہ پر مبنی ماڈلز کی تشخیص کو روکتا ہے۔ ہم ترتیب وار نمونے لینے کے ذریعے تصاویر سے ہاتھ سے لکھے ہوئے ہندسوں اور حروف تہجی کو پہچاننے کی کوشش کرنے والے بالغ شرکاء سے ڈیٹاسیٹ اکٹھا کرکے اس خلا میں پڑ گئے۔ آنکھوں کی نقل و حرکت کی توجہ سے باخبر رہنے (ایم اے ٹی) کے برعکس، ایک شریک تصویر میں اس مقام پر کلک کرتا ہے جسے وہ دیکھنا چاہتا ہے (ماؤس کلک توجہ سے باخبر رہنے کی ایک شکل (mcAT))۔ اس کے فوراً بعد، وہ اس طبقے کا انتخاب کرتا ہے جس کے بارے میں وہ پیش گوئی کرتا ہے کہ اس چیز کا تعلق اس کے اب تک کے مشاہدات کی بنیاد پر ہوسکتا ہے۔ اس طرح، ہر سیمپلنگ ایپی سوڈ میں، ہمارا ڈیٹا منتخب کردہ تصویری مقام، کلاس لیبل (زبانیں) کی پیشین گوئی، اور شرکت کنندہ کی طرف سے آخری ایپی سوڈ کے بعد لیا گیا وقت پر مشتمل ہوتا ہے۔ ہر تصویر کے بعد، شرکت کنندہ کو اس کی کارکردگی (درستگی اور کارکردگی) کی بنیاد پر انعام ملتا ہے۔

Anti Alzheimer's disease

cistanche tubulosa-Anti Alzheimer's disease کے فوائد

ہاتھ سے لکھے ہوئے ہندسوں/حروف تہجی کی شناخت کے لیے ایم اے ٹی پر ایم سی اے ٹی کے فوائد۔

(1) گوشت میں فکسیشن لوکیشن میں اہم انٹرا اور انٹر پرسنل تغیر پایا جاتا ہے، خاص طور پر جامد محرکات (تصاویر) 8,9 کے لیے۔ لہذا اعدادوشمار کے لحاظ سے اہم نتائج تک پہنچنے کے لیے آنکھوں کے تعین کے اعداد و شمار کی ایک بڑی مقدار کی ضرورت ہے۔ mcAT آنکھ سے باخبر رہنے والے ڈیٹا10 کے لیے عام تکنیکی شور کے کچھ ذرائع کے لیے حساس نہیں ہے۔ (2) آنکھوں کی نقل و حرکت رضاکارانہ اور غیر ارادی دونوں طریقہ کار سے ہو سکتی ہے۔ ٹاسک پر منحصر فیصلہ سازی کو آسان بنانے کے لیے، ہم شرکاء کو مناسب وقت، سیاق و سباق اور کمک کے اشارے پیش کرتے ہیں، جو ایم ایل ماڈل کے سامنے بھی پیش کیے جا سکتے ہیں۔ (3) ایم اے ٹی ڈیٹا کی درستگی اور درستگی آئی ٹریکر پر منحصر ہے جب کہ ایم سی اے ٹی کی طرح کسی بھی ڈیوائس سے آزاد ہے۔ (4) کسی کی آنکھوں کی حرکات کو اس کے کلاس سلیکشن کے ساتھ ہم آہنگ کرنا ایک چیلنج ہے۔ اس پر قابو پانے کے لیے، ہمارے معاملے میں، نمونے لینے کی جگہ اور کلاس (ز) کو ایک ہی ایپیسوڈ میں منتخب کیا گیا ہے۔ (5) آخر میں، ہمارا طریقہ Amazon Mechanical Turk (MTurk) کا استعمال کرتے ہوئے ڈیٹا اکٹھا کرنے کی اجازت دیتا ہے، جیسا کہ in12,13، جو لاگت اور وقت کے لحاظ سے موثر ہے، اور آسانی سے دوبارہ پیدا کیا جا سکتا ہے۔

شراکتیں

ہم 382 شرکاء سے MTurk کا استعمال کرتے ہوئے ایک mcAT ڈیٹاسیٹ جمع کرتے ہیں، جسے AttentionMNIST کہا جاتا ہے، ترتیب وار نمونے کے ذریعے تصویروں سے ہاتھ سے لکھے گئے ہندسوں اور حروف تہجی (اوپر اور چھوٹے) کو درست اور مؤثر طریقے سے پہچاننے پر انعام دیا جاتا ہے۔ بینچ مارک ڈیٹاسیٹس (MNIST, EMNIST) کی تصاویر محرک کے طور پر پیش کی جاتی ہیں۔ اوسطاً، فی عدد/حروف تہجی کی کلاس میں 169.1 جوابات ریکارڈ کیے جاتے ہیں۔ اس ڈیٹاسیٹ کا استعمال کرتے ہوئے، ہم مندرجہ ذیل دکھاتے ہیں: • اوسطاً، شرکاء کو عدد، بڑے اور چھوٹے حروف تہجی کو پہچاننے کے لیے 4.2، 4.7، اور 4.9 نمونوں کی ضرورت ہوتی ہے، جو بالترتیب صرف 11.3%، 13.4%، اور 13.7% تصویری رقبے کے مساوی ہیں۔ . درجہ بندی کی درستگی کئی نمونوں کے ساتھ بڑھ جاتی ہے۔ • ایک ماڈل، جس کو بیس لائن کے طور پر پیش کیا گیا ہے، کلاس (es) اور مقام کی پیشین گوئی کر سکتا ہے جو ایک حصہ لینے والا اگلی سیمپلنگ ایپی سوڈ میں بالترتیب 74.4% اور 67.7% درستگی کے ساتھ منتخب کرے گا، دونوں کا اوسط تمام نمونوں اور ڈیٹا سیٹس پر ہے۔ نمونوں میں اضافے کے ساتھ کلاس کی پیشین گوئی کی درستگی بڑھ جاتی ہے اور مقام کی پیشن گوئی کی درستگی کم ہو جاتی ہے۔ • جب ہمارے شرکاء کی طرح محرکات اور حالات کا سامنا کرنا پڑتا ہے تو، ایک اعلیٰ حوالہ شدہ کمک پر مبنی بار بار توجہ دینے والے ماڈل (RAM)3 کو عدد، بڑے اور چھوٹے حروف تہجی کو پہچاننے کے لیے 3.7، 8.5، اور 7.6 نمونوں کی ضرورت ہوتی ہے، جو کہ 8.9% کے مساوی ہیں۔ , 21۔{31}}%، 18.7% تصویری رقبہ بالترتیب دیگر توجہ پر مبنی کمک کے ماڈلز (مثلاً، 1,2,4,5,7,14) کا انسانی کارکردگی کے مقابلے میں اسی طرح جائزہ لیا جا سکتا ہے۔

Cistanche supplement near me-Improve memory2

میرے نزدیک Cistanche ضمیمہ - یادداشت کو بہتر بنانے والا

Cistanche بہتر بنانے والی یادداشت اور الزائمر کی بیماری سے بچاؤ کی مصنوعات دیکھنے کے لیے یہاں کلک کریں۔

【مزید پوچھیں】 ای میل:cindy.xue@wecistanche.com / واٹس ایپ: 0086 18599088692 / وی چیٹ: 18599088692

متعلقہ کام

ایم سی اے ٹی میں ماؤس کلکس کا وقتی تسلسل آنکھوں کی حرکت اسکین پاتھ 10 کے مشابہ ہے۔ mcAT مؤثر طریقے سے emAT کی جگہ لے سکتا ہے کیونکہ وہ نمایاں طور پر 10,12,13,15-17 سے منسلک ہیں۔ mcAT مطالعات میں مختلف قسم کے محرکات کا استعمال کیا گیا ہے، جیسے کہ متحرک اور بے جان اشیاء کی تصاویر10، قدرتی مناظر کی تصاویر12,13، جامد ویب صفحات13، تلاش کے صفحہ کی ترتیب16، اور بصری موازنہ کے لیے حروف عددی تاروں کی دو فہرستیں17۔ تاہم، ایم سی اے ٹی کو ہاتھ سے لکھے گئے ہندسوں/حروف تہجی کی درجہ بندی کے کاموں یا توجہ پر مبنی درجہ بندی کے ماڈلز کی تشخیص کے لیے استعمال نہیں کیا گیا ہے۔ ایم سی اے ٹی اسٹڈیز نے فیچرز کا استعمال کیا ہے جیسے کہ رابطہ کرنے کا وقت، دلچسپی کے علاقوں میں رشتہ دار فکسیشن فریکوئنسی (AOIs)، AOI10 میں کم از کم ایک بار کلک کرنے والے مضامین کا رشتہ دار تناسب، فی ٹرائل فکسیشن کی تعداد، ٹرائلز کے اندر ری فکسیشن، رہائش کے اوقات، اور اسکین پاتھ17۔ ، فکسیشن میپس12,13، AOI اور معلومات کے بہاؤ پیٹرن16۔ ٹائم اسٹیمپڈ کلک مقامات اور پیشین گوئی شدہ کلاس لیبلز کی ترتیب درجہ بندی کے کاموں میں توجہ پر مبنی ماڈلز یا انسانوں کی کارکردگی اور درستگی کا جائزہ لینے کے لیے ضروری خام ڈیٹا کی تشکیل کرتی ہے۔ اس ڈیٹا سے مختلف خصوصیات اخذ کی جا سکتی ہیں۔ ہمارا mcAT ڈیٹا سیٹ، آنکھوں سے باخبر رہنے والے ڈیٹا پر متعدد فوائد کے ساتھ، AI، ML اور دیگر شعبوں میں توجہ پر مبنی ماڈل ریسرچ میں ایک اہم خلا کو پُر کرتا ہے۔ ہمارا ڈیٹا سیٹ توجہ پر مبنی ماڈلز کو انسانی کارکردگی کے مقابلے میں جانچنے کی اجازت دے گا۔ دیگر چیزوں کے علاوہ، یہ موثر اور حقیقی وقت میں آپٹیکل کریکٹر ریکگنیشن سسٹم کی ترقی میں سہولت فراہم کرے گا جن کا عملی طور پر وسیع استعمال ہوتا ہے (مثال کے طور پر 18-20 دیکھیں)۔ بصری اصلاحات کی رہنمائی کرنے والے اصولوں کو ہمارے ڈیٹاسیٹ کا استعمال کرتے ہوئے قیاس کیا اور جانچا جا سکتا ہے۔ کامیاب اصولوں کو حقیقی دنیا کے بصری شناخت کے کاموں کے لیے نظام تیار کرنے کے لیے آگے بڑھایا جا سکتا ہے جہاں کارکردگی ایک اہم تشویش ہے، جیسے کہ خود مختار ڈرائیونگ میں۔

ڈیٹا

ہمارا ڈیٹا ہر شریک کے لیے T ایپیسوڈز کی ترتیب پر مشتمل ہے۔ ہر ایپی سوڈ کا ڈیٹا (1) حصہ لینے والے کی طرف سے کلک کی گئی تصویر کا مقام (فی ایپیسوڈ کی تصویر میں ایک کلک)، (2) حصہ لینے والے کی طرف سے منتخب کردہ کلاس (کلاسز) اور (3) حصہ لینے والے کے ذریعے لیا گیا وقت پر مشتمل ہوتا ہے۔ موجودہ نمونے کو رجسٹر کرنے کے لیے شریک (یعنی تصویر میں آخری اور موجودہ کلکس کے درمیان گزرا ہوا وقت)۔ یہ سیکشن ہمارے ڈیٹا اکٹھا کرنے کے عمل کی وضاحت کرے گا جس میں محرکات کا انتخاب، شرکاء، بصری کام، کارکردگی اسکورنگ، اور ڈیٹا فلٹرنگ شامل ہیں۔

محرک کا انتخاب۔ محرکات کو دو بینچ مارک ڈیٹاسیٹس میں تصاویر سے منتخب کیا جاتا ہے: (1)

MNIST21 ڈیٹاسیٹ 70,000 لیبل والی تصاویر (28×28 پکسلز) 10 ہاتھ سے لکھے گئے ہندسوں پر مشتمل ہے {0, 1, ..., 9}۔ (2)

EMNIST22 ڈیٹاسیٹ 145,600 امیجز (28×28 پکسلز) پر مشتمل ہے ہاتھ سے لکھے ہوئے انگریزی حروف تہجی بڑے اور چھوٹے حروف میں، ایک متوازن طبقے کی تشکیل کرتے ہیں۔ تمام تصاویر پر 26 کلاسز {a, b, ..., z} میں سے کسی ایک کے ساتھ لیبل لگا ہوا ہے۔ تاہم، بڑے یا چھوٹے کا لیبل کسی بھی تصویر سے وابستہ نہیں ہے۔ ہر زمرے سے، ہم MNIST سے 15 اچھی طرح سے بنائے گئے ہندسے اور EMNIST بڑے اور EMNIST چھوٹے ڈیٹا سیٹس سے 15 اچھی طرح سے بنائے گئے حروف تہجی کا انتخاب کرتے ہیں۔ ایک اچھی طرح سے تشکیل شدہ ہندسہ یا حروف تہجی اس کی کلاس کے معمول سے ملتا جلتا ہے۔ اس طرح، ہم 15(10 + 26 + 26)=930 منفرد امیجز کے سیٹ سے محرک پیش کرتے ہیں، جس میں 62 کلاسوں میں سے ہر ایک سے تعلق رکھنے والی 15 تصاویر ہیں۔ اچھی طرح سے تیار کردہ 930 تصاویر کو مندرجہ ذیل طور پر منتخب کیا گیا ہے:

مرحلہ 1: 0 اور 1 کے درمیان شدت کو پیمانہ کرنے کے لیے کم از کم زیادہ سے زیادہ استعمال کرتے ہوئے ہر تصویر کو معمول بنائیں۔

مرحلہ 2: اچھی طرح سے تیار کردہ EMNIST تصاویر کو بڑے یا چھوٹے میں لیبل کریں۔ ہر حروف تہجی کی کلاس کے لیے، بڑے اور چھوٹے دونوں تصویروں سے ایک اچھی طرح سے تیار کردہ حروف تہجی کو دستی طور پر منتخب کیا جاتا ہے اور لیبل لگایا جاتا ہے۔ دو لیبل والی امیجز کے ساتھ اس کلاس سے تعلق رکھنے والی تمام امیجز کی کوزائن مماثلت کو شمار کیا جاتا ہے۔ وہ تصاویر جو کوزائن مماثلت کی حد سے اوپر ہیں (تجرباتی طور پر 0.8 کے طور پر منتخب کی گئی ہیں) کو بڑے یا چھوٹے کا لیبل تفویض کیا گیا ہے۔

مرحلہ 3: ہر کلاس سے تعلق رکھنے والی تصاویر کے وسط کا حساب لگائیں۔ کسی طبقے کی اوسط تصویر اس کا معمول بناتی ہے۔ ایک تصویر محرک بننے کا اہل ہے اگر اس کی کلاس کی اوسط تصویر کے ساتھ اس کی کوزائن مماثلت تجرباتی طور پر طے شدہ حد سے زیادہ ہو (MNIST کے لیے 0.7، EMNIST کے لیے 0.75)۔

مرحلہ 4: اہل تصاویر میں سے، ہر کلاس سے 15 تصاویر دستی طور پر اس بنیاد پر منتخب کی جاتی ہیں کہ وہ کتنی اچھی طرح سے تشکیل دی گئی ہیں۔ ہر تصویر، اصل میں 28×28 پکسلز، حدود کے قریب پکسلز کو ہٹا کر 27×25 تک گھٹا دی جاتی ہے کیونکہ ان میں شدت کا کوئی فرق نہیں ہے۔ ان 15 امیجز کا اوسط 62 کلاسوں میں سے ہر ایک کے لیے شمار کیا جاتا ہے۔ ہم ان اوسط تصاویر کو I1، I2، ...، ہر ڈیٹاسیٹ میں n کلاسز کے لیے ظاہر کرتے ہیں۔

امیدوار.

ہمارے مطالعے میں کل 382 الگ الگ بالغ افراد نے حصہ لیا۔ انتخاب کا کوئی معیار استعمال نہیں کیا گیا۔ ایک شریک متعدد تصاویر کا جواب دے سکتا ہے۔ 62 کلاسوں میں سے ہر ایک کے لیے، اوسطاً 169.1 جوابات ریکارڈ کیے گئے۔

man-5989553_960_720

cistanche tubulosa کے فوائداینٹی الزائمر کی بیماری

بصری کام۔

ہمارے بصری کام کے لیے MTurk انٹرفیس تصویر 1 میں دکھایا گیا ہے۔ 270×250 سائز کا کینوس ہر وقت کم شدت والے پس منظر کی تصویر دکھاتا ہے۔ پس منظر اور محرک امیجز کو دس بار 270×250 پر نمونہ دیا گیا ہے۔ کینوس کا مرکز تصویروں کے مرکز کے ساتھ منسلک ہے۔ پس منظر ابتدائی طور پر، بیک گراؤنڈ ڈیٹاسیٹ میں موجود تمام امیجز کا اوسط ہوتا ہے جس سے محرک کھینچا جاتا ہے۔ پہلی قسط کے بعد، پس منظر آخری ایپی سوڈ میں شریک کی طرف سے منتخب کردہ کلاسوں کے سیٹ سے تمام تصاویر کا اوسط ہے۔ حقیقی دنیا میں، کسی عدد یا حروف تہجی کے محل وقوع، سائز اور واقفیت کا سیاق و سباق اس کے پڑوس میں لکھی گئی تحریر سے حاصل کیا جاتا ہے، جو یہاں غائب ہے۔ جب ہمارے تجربات خالی پس منظر کے ساتھ کیے گئے، تو شرکاء نے اکثر تصویر کے ایسے مقامات کا نمونہ لیا جس میں آبجیکٹ کا کوئی حصہ نہیں تھا۔ یہ طرز عمل کم شدت والے پس منظر میں منتخب کلاس (ز) کی اوسط تصویر پیش کرکے اور تمام MNIST اور EMNIST امیجز کے سائز کو 28×28 پکسلز سے گھٹا کر 27×25 پر مشتمل تھا۔ ہر بار جب شریک اس پر کلک کرکے کینوس میں کسی مقام کا انتخاب کرتا ہے، محرک امیج سے اس مقام پر مرکز میں ایک 50×50 پکسل پیچ سامنے آتا ہے۔ ایک بار ظاہر ہونے والا پیچ آخری ایپی سوڈ تک ظاہر ہوتا رہتا ہے۔ ایک شریک کا کام ہر قسط میں تین مراحل پر مشتمل ہوتا ہے t (t=1, ..., T):

مرحلہ 1: 270×250 کینوس میں کہیں بھی کلک کریں تاکہ وہ جس پیچ کا نمونہ لینا چاہتا ہے اسے ظاہر کرے۔ صرف پہلا کلک قبول کیا جاتا ہے۔

مرحلہ 2: اب تک دیکھے گئے تمام نمونوں سے ہندسوں/حروف تہجی کو پہچانیں۔ حصہ لینے والا متعدد کلاسز کا انتخاب کر سکتا ہے اور اسے کینوس کے نیچے دکھائی گئی کلاسوں کی فہرست میں سے کم از کم ایک کلاس کا انتخاب کرنا ہوگا۔

مرحلہ 3: آگے بڑھنے کے لیے اسکرین کے نیچے "اگلا" پر کلک کریں۔ کلاس کا درست اور تیزی سے اندازہ لگانے کے لیے، شرکاء کو موجودہ ایپیسوڈ تک اپنے مشاہدات کے پیش نظر عقلمندی سے مقامات کا انتخاب کرنا ہوگا۔ ایک قسط کے لیے کوئی وقت کی حد نہیں ہے۔ تاہم، ہم تصویر کی T ایپیسوڈز کے لیے کل وقت کو چھ منٹ تک محدود کرتے ہیں۔ ہم T=12 کا انتخاب کرتے ہیں کیونکہ توجہ پر مبنی ہینڈ رائٹنگ کی شناخت پر انتہائی حوالہ شدہ کام یا جنریشن نے 12 جھلکوں سے کم استعمال کیا ہے (مثال کے طور پر، RAM3 MNIST ہندسوں کو 7 جھلکوں کے اندر پہچان سکتا ہے، DRAW23 MNIST ہندسوں کو 11 جھلکوں کے اندر بنا سکتا ہے)، اور انسان ہاتھ سے لکھے ہوئے ہندسوں اور حروف تہجی کو 12 سے بھی کم جھلک میں پہچان سکتا ہے۔

کارکردگی کا اسکورنگ۔ مشاہدہ کردہ نمونوں کی تعداد کے لحاظ سے اس کی درستگی اور کارکردگی کی بنیاد پر شریک کو ایک اسکور تفویض کیا جاتا ہے۔ اسے کلاسوں کا سیٹ ہونے دیں جو اس نے کسی بھی ایپی سوڈ میں منتخب کیا تھا۔ دس، ٹی پر اس کا سکور ہے:

Figure 1. Our MTurk interface as seen by a participant. Te second sampling for an EMNIST uppercase alphabet is shown.

شکل 1۔ ہمارا MTurk انٹرفیس جیسا کہ ایک شریک نے دیکھا ہے۔ EMNIST کے بڑے حروف تہجی کے لیے Te سیکنڈ نمونہ دکھایا گیا ہے۔

image


جہاں |.| ایک سیٹ کی اہمیت کو ظاہر کرتا ہے۔ T ایپی سوڈز میں دیا گیا کل سکور h {{0} T t=1 Pt ہے۔ لہذا، T ایپیسوڈز میں زیادہ سے زیادہ اسکور کرنے والا T ہے اگر وہ ہمیشہ صرف صحیح کلاس کا انتخاب کرتا ہے۔ ٹی ایپی سوڈز میں کم از کم اسکور صفر ہے اگر وہ ہمیشہ کلاسوں کا ایک سیٹ منتخب کرتا ہے جس میں صحیح کلاس شامل نہیں ہے۔ لہذا، 0 سے کم یا اس کے برابر h سے کم یا T کے برابر۔ جلد ہی ایک شریک صحیح کلاس کا انتخاب کرے گا، اس کا اسکور اتنا ہی زیادہ ہوگا۔ اس طرح، یہ اسکورنگ میکانزم شناخت کی درستگی اور نمونے لینے کی کارکردگی کو مدنظر رکھتا ہے۔ پہلی قسط سے صرف ایک کلاس کا انتخاب کرکے اسکور کو زیادہ سے زیادہ کرنے کی کوشش کرنا خطرناک ہوگا کیونکہ اگر یہ صحیح کلاس نہیں ہے تو صفر کا اسکور دیا جائے گا، جب کہ اگر شریک متعدد کلاسز کا انتخاب کرتا ہے تو صفر سے زیادہ اسکور دیا جائے گا ( یہاں تک کہ تمام کلاسز) جس میں صحیح کلاس شامل ہے۔ یہ شرکاء کو کسی بھی ایپی سوڈ میں اس کے ذہن میں موجود ممکنہ کلاسوں کی بنیاد پر جواب دینے کی ترغیب دے گا۔ ہر ایپی سوڈ میں دیئے گئے اسکور کا انکشاف صرف T ایپیسوڈز کے مکمل ہونے پر کیا جاتا ہے تاکہ شریک کو کوئی اشارہ فراہم کرنے سے گریز کیا جا سکے۔ MTurk میں، حصہ لینے والے کو ایک تصویر کے لیے ملنے والا معاوضہ اس کے کل سکور، h کے متناسب ہے۔

ڈیٹا فلٹرنگ۔

اگر محرک امیج کے لیے فائنل (یعنی T-th) ایپیسوڈ میں شریک کا سکور صفر ہے، تو اس تصویر کے لیے ریکارڈ کردہ اس کا ڈیٹا ضائع کر دیا جاتا ہے۔ اگر کوئی شریک کام کو ادھورا چھوڑ دیتا ہے تو ڈیٹا کو بھی ضائع کر دیا جاتا ہے۔ انتخاب کے اس معیار کے ساتھ، ہم نے MNIST سے 1736 محرکات، EMNIST بڑے سے 4431 محرکات، اور EMNIST چھوٹے سے 4315 محرکات پر جوابات حاصل کیے؛ یعنی اوسطاً فی کلاس 169.1 جوابات۔

ڈیٹا کو استعمال کرنے کے ماڈل اور طریقے

اس سیکشن میں، ہم جمع کردہ ڈیٹا کی افادیت کی وضاحت کرتے ہیں (4.1) ایک حصہ لینے والے کے رویے کی پیشین گوئی کے لیے ایک بنیادی ماڈل فراہم کرتے ہوئے، اور (4.2) یہ دکھاتے ہیں کہ کس طرح موجودہ توجہ پر مبنی کمک کے ماڈل کا انسانی ہندسوں/حروف تہجی کی شناخت سے موازنہ کیا جا سکتا ہے۔ کارکردگی رویے کی پیشن گوئی کے لئے بنیادی لائن. کسی بھی ایپی سوڈ میں رویہ مقام کے انتخاب اور کلاس کے انتخاب پر مشتمل ہوتا ہے۔ چونکہ ایک نمونہ مختلف مبصرین کے لیے مختلف مقدار میں معلومات پر مشتمل ہوتا ہے، یا یہاں تک کہ ایک ہی مبصر کے لیے مختلف اوقات میں9، ہر شریک کے رویے کی پیشن گوئی ایک مشکل مسئلہ ہے۔ آئیے n ڈیٹاسیٹ میں کلاسوں کی تعداد بنیں، η t پر محرک امیج کے لیے حقیقی کلاس پر مشتمل سنگلٹن سیٹ ہو، ct کلاسز کا سیٹ ہو اور lt وہ مقام ہو جو حصہ لینے والے کے ذریعے t پر منتخب کیا جائے، تاکہ اس کا مشاہدہ ہو t، اور 1:t تسلسل 1، 2، ...، t کو ظاہر کرتا ہے۔ کسی بھی ٹی تک، شریک کے مشاہدات o1:t ہیں اور اس نے جو مقامات منتخب کیے ہیں وہ l1:t ہیں۔ ہم شریک کے رویے کی پیشن گوئی کے مسئلے کو اس طرح تشکیل دیتے ہیں: کلاس کی پیشن گوئی i∈ct (i=1, 2, ..., n) کے امکان کا اندازہ اس کے o1:t اور l1:t کو دیکھتے ہوئے، یعنی P( i ∈ ct|o1:t، l1:t)۔ مقام کی پیشین گوئی lt+1 کے امکان کا اندازہ اس کے o1:t, l1:t اور ct، یعنی P(lt+1|o1:t, l1:t,ct) کو دیکھتے ہوئے لگائیں۔ کلاس کی پیشن گوئی۔ اس کلاس کی پیشین گوئی کرنے کے لیے جو حصہ لینے والا ایپیسوڈ t میں منتخب کرے گا، ہم اس امکان کا حساب لگاتے ہیں کہ t میں تصویری محرک کلاس I سے تعلق رکھتا ہے جس میں شریک کے منتخب کردہ مقامات l1:t اور متعلقہ مشاہدات o1:t درج ذیل ہیں:

image

جہاں Ii کلاس i سے تعلق رکھنے والی محرک امیجز (27×25) کا وسط ہے، I′ ایک 27×25 تصویر ہے جس میں o1:t پر l1:t، · اسکیلر پروڈکٹ کو ظاہر کرتا ہے، اور .Euclidean معمول کی نشاندہی کرتا ہے۔ تمام پکسل کی شدت غیر منفی ہیں۔ کسی بھی ایپی سوڈ t میں، یقین کی تقسیم P(i|o1:t, l1:t) سے k سب سے زیادہ ممکنہ کلاسز ہمارے ماڈل کے ذریعہ پیش گوئی کی گئی کلاسوں کا سیٹ، ct، تشکیل دیتی ہیں، جہاں k=|ct| Te درجہ بندی کی درستگی Jaccard انڈیکس (JI) کا استعمال کرتے ہوئے ماپا جاتا ہے۔ JI دو سیٹوں، X اور Y کے درمیان مماثلت کی پیمائش کرتا ہے، جیسا کہ: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y| جماعت اسلامی 0 اور 1 کے درمیان پابند ہے۔ اگر X=Y، J(X, Y)=1۔ کسی بھی ایپی سوڈ t میں، ایک شریک کی درجہ بندی کی درستگی J(ηt,ct) ہے جبکہ ہمارے ماڈل کا J(ηt, ˆct) ہے۔ اس کے ڈینومینیٹر کی وجہ سے، JI مزید سزا دیتا ہے کیونکہ پیشن گوئی کردہ سیٹ (ct یا ˆct) میں ایسے عناصر کی تعداد جو ηt میں نہیں ہیں بڑھتے ہیں، جو ہمارے کیس کے لیے ایک مطلوبہ پراپرٹی ہے۔ ایک شریک اور ہمارے ماڈل کی درجہ بندی کے درمیان مماثلت کو J(ct, ˆct) سے ماپا جاتا ہے۔ ہمارے ماڈل کا ہر شریک کے حوالے سے کلاس کے انتخاب اور مسترد ہونے کی درستگی کے لحاظ سے بھی جائزہ لیا جاتا ہے۔ مانیں کہ st=ct − ct−1 کو منتخب کردہ نئی کلاسوں کا سیٹ بنیں اور rt=ct−1 − ct کلاسوں کا سیٹ بنیں جس کو t پر کسی شریک نے مسترد کر دیا ہے۔ اسی طرح، ˆst=ˆct − ct−1 منتخب کردہ نئی کلاسوں کا سیٹ ہے، اور ˆrt=ct−1 − ˆct کلاسوں کا سیٹ ہے جسے ہمارے ماڈل نے t پر مسترد کیا ہے۔ پھر ماڈل کے کلاس کے انتخاب اور مسترد ہونے کا موازنہ کسی شریک کے J(st, ˆst) سے کیا جا سکتا ہے جب |st| > 0 اور J(rt, ˆrt) جب |rt| بالترتیب > 0۔ مقام کی پیشن گوئی۔ مفروضہ مثالی طور پر، تمام طبقوں پر اعتقاد کی تقسیم یکساں (یعنی صرف ایک چوٹی) اور شکل میں ایک پتلی گاوسی (یعنی چھوٹا معیاری انحراف) ہونا چاہیے جو اس بات کی نشاندہی کرتا ہے کہ شریک محرک (ماحول) کی کلاس (ریاست) کے بارے میں پراعتماد ہے۔ تاہم، جیسا کہ ہمارے اعداد و شمار سے ظاہر ہوتا ہے (حوالہ. تصویر 2)، ایک شریک اکثر متعدد کلاسوں کے درمیان الجھ جاتا ہے، خاص طور پر ابتدائی چند اقساط کے دوران۔ ان صورتوں میں، اس کے اعتقاد کی تقسیم میں متعدد چوٹیاں ہیں یا یہ ایک موٹی گاوسی ہے۔ ہم قیاس کرتے ہیں کہ ایک شریک کا مقصد ایک غیر متزلزل اور پتلی گاوسی میں تبدیل ہونا ہے، جس کو حاصل کرنے کے لیے وہ منتخب طور پر ایسے مقامات کا نمونہ پیش کرتا ہے جو ایک کے علاوہ تمام کلاسوں کے امکان کو کم کرتے ہیں۔ یہ مفروضہ کلاسز (ماحولیاتی حالتوں) پر غیر یقینی صورتحال کو کم کرنے کا باعث بنتا ہے جو کہ ایک معروف اصول رہنمائی کرنے والا عمل ہے24، بشمول آنکھوں کی نقل و حرکت25۔

Figure 2. Duration and class distribution over all participants and stimuli belonging to categories '0', 'a', and 'A'.


شکل 2. تمام شرکاء اور محرکات پر دورانیہ اور طبقاتی تقسیم جو زمرہ جات '0'، 'a'، اور 'A' سے تعلق رکھتے ہیں۔

Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ، جہاں حد θ=0.5 × max(D) ایک تجرباتی طور پر طے شدہ اسکیلر مقدار ہے۔

ہم دو غیر متناسب میٹرکس پر غور کرتے ہیں، کل بیک-لیبلر (KL) ڈائیورجنس اور فرق، فنکشن جی کے امیدوار کے طور پر۔ KL ڈائیورجینس دو نارملائزڈ میڈیم امیجز، Ii اور Ij کو دیکھتے ہوئے، KL ڈائیورجنس KL(Ii, Ij) معلومات کے نقصان کی پیمائش کرتا ہے جب Ij کو لگ بھگ Ii کے لیے استعمال کیا جاتا ہے۔ اس کا حساب ہر پکسل k کے لیے کیا جاتا ہے 26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ، جہاں Ij,k kth پکسل کی شدت ہے Ij کا، اور δ ایک ریگولرائزیشن مستقل ہے۔ جب Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0۔ فرق دو نارملائزڈ اوسط امیجز، Ii اور Ij کو دیکھتے ہوئے، ہر پکسل k کا فرق ہے Diff (Ii,k, Ij,k)=Ii,k − Ij,k۔ جب Ii,k=Ij,k, Diff (Ii,k, Ij,k)=0۔ ایک شریک کلاسز کے سیٹ کے بارے میں غیر یقینی ہے، ct، اس نے موجودہ ایپیسوڈ میں منتخب کیا تھا۔ لہذا، محل وقوع کی پیشین گوئی کے لیے، ہم D میں صرف ان نمایاں نقشوں پر غور کرتے ہیں جن میں ct میں کلاسز شامل ہیں۔ کسی مقام کی پیشین گوئی کی جاتی ہے اگر وہ ان نمایاں نقشوں کی بنیاد پر نمایاں ہے اور اسے کبھی بھی شریک نے منتخب نہیں کیا تھا۔ Tus، o1:t، l1:t اور ct دیے گئے، مقام lt+1 کی پیشین گوئی حسب ذیل ہے:

image

جہاں Ŵ 3-ٹپلز کا سیٹ ہے جس میں پیشین گوئی کی گئی جگہ ˆl ہوتی ہے، وہ کلاس (i) کے لیے نمایاں ہے، اور کس کلاس (j) کے حوالے سے۔ Te محل وقوع کی صحیح پیشین گوئی کی جاتی ہے اگر وہاں ایک �ˆl, i, j� ∈ Ŵ اس طرح ہے کہ �ˆl −lt+1� < ǫ, I ∈ ct+1 اور j /∈ ct{{3} }، جہاں ǫ ایک مشاہداتی پیچ میں سینٹر پکسل اور کسی بھی پکسل کے درمیان زیادہ سے زیادہ یوکلیڈین فاصلہ ہے۔ محل وقوع کی پیشن گوئی کے لیے ٹی سیوڈو کوڈ الگورتھم 1 میں دکھایا گیا ہے۔ سیوڈو کوڈ کی تفصیلی وضاحت ضمنی مواد کے سیکشن S1 میں شامل ہے۔ (Te probability distribution, P(lt+1|o1:t, l1:t,ct)، Ŵ میں نہ ہونے والے مقامات کے سیلینسی سکور کو صفر مان کر شمار کیا جا سکتا ہے، اور پھر تمام کے سیلینسی سکور کو معمول بنا کر مقامات جو کہ اتحاد کا مجموعہ ہے۔ تاہم، اس امکان کو استعمال نہیں کیا گیا ہے، کیونکہ Eq. (3) اس مقالے کے مقاصد کے لیے کافی ہے۔)

image

توجہ پر مبنی ماڈلز کی تشخیص۔

توجہ پر مبنی ماڈلز کے نمائندے کے طور پر، ہم بہت زیادہ حوالہ دینے والے بار بار توجہ دینے والے ماڈل (RAM)3 پر غور کرتے ہیں جو MNIST ڈیٹاسیٹ پر تجرباتی نتائج کی اطلاع دیتا ہے۔ ٹِس ریانفورسمنٹ ماڈل ترتیب وار ایک تصویر کا نمونہ لیتا ہے اور فیصلہ کرتا ہے کہ ہر نمونے لینے کے فوراً بعد اگلا نمونہ کہاں لیا جائے، جمع کردہ ڈیٹا کا استعمال کرتے ہوئے اسے تشخیص کے لیے موزوں بناتا ہے۔

رام

جھلکوں کی ترتیب کا استعمال کرتے ہوئے تصاویر کی درجہ بندی کرتا ہے۔ اگلی جگہ کا انتخاب لوکیشن نیٹ ورک کے ذریعے بنائے گئے ڈسٹری بیوشن سے کیا جاتا ہے۔ Te ماڈل کو درج ذیل مقصد کو زیادہ سے زیادہ کرتے ہوئے آخر سے آخر تک تربیت دی جاتی ہے۔

image


جہاں M اقساط کی تعداد ہے، T مشاہدات کی تعداد ہے، xi 1:t وہ تعامل کی ترتیب ہے جو موجودہ ایجنٹ کو I ایپیسوڈ تک چلا کر حاصل کی گئی ہے، ui t موجودہ ایکشن ہے، θ قابل تربیت پیرامیٹرز کا سیٹ ہے، Ri t مجموعی انعام ہے، bt ایک بنیادی لائن ہے، اور π(ui t|xi 1:t; θ ) پالیسی ہے۔ RAM کے رویے کا موازنہ شرکاء کے ساتھ کیا جا سکتا ہے جو کہ RAM کے ذریعے پیش گوئی کی گئی جگہوں کی ترتیب سے حاصل کیے گئے فکسیشن نقشوں اور شرکاء کے ذریعے منتخب کیے گئے ہیں۔ ایک fxation نقشہ کی گنتی ہر مقام کو اس کے انتخاب کی فریکوئنسی کے برابر ایک قدر تفویض کرکے، اور پھر ان اقدار کو معمول بنا کر تمام مقامات پر تقسیم کی جاتی ہے۔

فکسیشن نقشوں کا موازنہ کرنے کے لیے میٹرکس۔ دو فکسیشن نقشوں، پی اور کیو کا موازنہ کرنے والے میٹرکس کے لیے، ہم 26 کی قریب سے پیروی کرتے ہیں۔ ہم تقسیم پر مبنی تین میٹرکس استعمال کرتے ہیں: نمونے لینے والے مقامات کی تقسیم کا موازنہ کرنے کے لیے، کے ایل ڈائیورجنس (KL)، پیئرسن کوریلیشن گتانک (CC)، اور مماثلت (SIM)۔ اس کے ساتھ ایک ماڈل سے شرکاء سے جیسا کہ جمع کردہ ڈیٹا میں درج ہے۔

KL (پہلے بیان کیا گیا) صفر کی قدروں کے لیے انتہائی حساس ہے۔

CC دو نقشوں کے درمیان لکیری تعلق کا اندازہ کر سکتا ہے 26: CC(P, Q)=σ (P, Q) σ (P)σ (Q)، جہاں σ تغیر یا ہم آہنگی ہے۔ چونکہ CC ہم آہنگی ہے، اس لیے یہ اندازہ لگانے میں ناکام رہتا ہے کہ آیا فکسیشن نقشوں کے درمیان فرق غلط مثبت یا غلط منفی کی وجہ سے ہے۔

سم کی پیمائش 26 کے طور پر کی جاتی ہے: SIM(P, Q)=k منٹ (Pk, Qk)، جہاں k Pk=k Qk=1۔ CC کی طرح، سم بھی ہم آہنگ ہے اور اسی خرابی کو وراثت میں ملتی ہے۔ اس کے علاوہ، SIM گمشدہ اقدار کے لیے بہت حساس ہے اور ان پیشین گوئیوں کو جرمانہ کرتا ہے جو زمینی سچائی کی کثافت کے حساب میں ناکام رہتی ہیں۔

انسانی اور جانوروں کی تحقیق۔

یونیورسٹی آف میمفس کے ادارہ جاتی جائزہ بورڈ نے طے کیا ہے کہ یہ مطالعہ انسانی مضامین کی تحقیق کے دفتر برائے انسانی مضامین ریسرچ پروٹیکشنز کی تعریف پر پورا نہیں اترتا اور 45 CFR حصہ 46 لاگو نہیں ہوتا ہے۔ لہذا، اس مطالعہ کو IRB کی منظوری یا نظرثانی کی ضرورت نہیں ہے۔

تجرباتی نتائج ڈیٹا کا تجزیہ۔

جمع کردہ ڈیٹا کو منتخب مقامات کی تقسیم کی ترتیب (تصویر 3)، منتخب کلاسز (تصویر 2)، اور لگاتار اقساط (تصویر 2) کے درمیان دورانیہ کے لحاظ سے تصور کیا جا سکتا ہے۔ یہ تقسیم تینوں ڈیٹاسیٹس کے لیے بہت ملتی جلتی ہیں۔ کسی بھی عدد یا حروف تہجی کے لیے، آخری ایپیسوڈ کے بعد منتخب کردہ مقامات کی تقسیم ڈیٹاسیٹ سے اس کی کلاس کی پکسل کی شدت کی تقسیم سے مشابہت رکھتی ہے۔ تاہم، منتخب کردہ مقامات کی ترتیب فطرت میں اسٹاکسٹک ہے۔ کلاس کی تقسیم ابتدائی چند اقساط میں ایک جیسے ڈھانچے والے زمروں کے درمیان الجھن کی نشاندہی کرتی ہے جب شرکاء متعدد کلاسوں کا انتخاب کرتے ہیں۔ مزید نمونے لینے سے یہ الجھن کم ہو جاتی ہے۔ الجھن کی ڈگری (# منتخب کلاسز/کل # کلاسز) اور نمونے لینے کا دورانیہ (تصویر 4 دیکھیں) کے درمیان ایک اہم مثبت تعلق ہے۔ اگر منتخب کلاسوں کی تعداد زیادہ ہے (کم)، لگاتار اقساط کے درمیان دورانیہ زیادہ (کم) ہے۔ کلاس کے لیے کسی شریک کے ذریعے منتخب کردہ مقامات کی ترتیب کی CC اہم نہیں ہے (ٹیبل 1)۔ جامد امیجز کے نمونے لینے میں بین موضوعی تغیر کی وجہ سے اس کی توقع کی جاتی ہے۔ کسی شریک کو کلاس کی درست پیشین گوئی کرنے کے لیے درکار نمونوں کی اوسط تعداد کافی کم ہے۔ اوسطاً، MNIST، EMNIST بڑے اور چھوٹے کی تصویروں کی درست درجہ بندی کرنے میں بالترتیب 36، 44.1، اور 48.1 سیکنڈ کے مطابق 4.2، 4.7، اور 4.9 نمونے لگتے ہیں۔ حصہ لینے والوں نے اوسطاً صرف 11.3%، 13.4%، اور 13.7% تصویری رقبے کو دیکھا تاکہ اعداد، بڑے اور چھوٹے حروف تہجی کی تصویر کو درست طریقے سے درجہ بندی کیا جا سکے (اضافی مواد میں تصویر S2 دیکھیں)۔ یہ نتائج انسانی بصری استدلال کے نظام کی کارکردگی کو نمایاں کرتے ہیں، اگرچہ آنکھ سے باخبر رہنے والے ڈیٹا سے کم ریزولوشن میں لیکن کم شور اور تغیر کے ساتھ۔ یہ تجرباتی نتائج حقیقی دنیا کی ایپلی کیشنز کے لیے توجہ پر مبنی ماڈل ڈیزائن کرنے کے لیے مفید ہو سکتے ہیں۔ رویے کی پیشن گوئی. اس سیکشن میں، ہمارے بیس لائن ماڈل کی کارکردگی کا اندازہ اس لحاظ سے لگایا گیا ہے کہ یہ ہر شریک کے مقام اور کلاس کے انتخاب کی کتنی درست پیشین گوئی کر سکتا ہے۔ چونکہ ہمارے تجرباتی نتائج دو سلینسی اسکورنگ فنکشنز کا استعمال کرتے ہوئے، KL ڈائیورجینس، اور فرق، کافی ملتے جلتے ہیں، اس لیے نتائج صرف فرق کا استعمال کرتے ہوئے رپورٹ کیے جاتے ہیں، جب تک کہ دوسری صورت میں بیان نہ کیا جائے۔ کلاس کی پیشن گوئی۔ کلاس کی پیشین گوئی اور اس کی درستگی کے جائزے کے طریقے "کلاس پیشن گوئی" کے حصے میں بیان کیے گئے ہیں۔ کلاس کی پیشن گوئی کی درستگی، جو تصویر 5 میں دکھائی گئی ہے، تمام نمونوں کے لیے تمام کلاسوں میں شمار کی جاتی ہے۔ تمام نمونوں اور ڈیٹاسیٹس پر اوسط کلاس کی پیشن گوئی کی درستگی 74.4% (std. dev. 26.5) ہے۔ اعداد و شمار 5a، اور b ظاہر کرتے ہیں کہ شرکاء کی طرف سے اور ہمارے بیس لائن ماڈل (Eq. 2) کے ذریعے منتخب کردہ کلاسوں کا سیٹ ابتدائی اقساط میں بالکل غلط ہے اور نمونوں میں اضافے کے ساتھ بہتر ہوتا ہے۔ شکل 5c ظاہر کرتا ہے کہ، ابتدائی اقساط کے دوران، یہ دو سیٹ، ct، اور ˆct، کافی مختلف ہیں۔ نمونوں میں اضافے کے ساتھ مماثلت بڑھ جاتی ہے۔ نئے کلاس سلیکشن پر بھی یہی لاگو ہوتا ہے (حوالہ تصویر 5 ایف)۔ تاہم، ابتدائی اقساط میں طبقاتی رد یکساں ہیں۔ مزید نمونوں کے ساتھ مماثلت مزید بڑھ جاتی ہے (حوالہ تصویر 5e)۔ چونکہ J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| اور J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|، اس کا اندازہ تصویر 5e، f سے لگایا جا سکتا ہے کہ ابتدائی اقساط میں، ct−1 اور ct ∪ ˆct کے درمیان چوراہا چھوٹا ہے، جس سے ظاہر ہوتا ہے کہ ابتدائی طور پر شرکاء اور ہمارا بنیادی ماڈل لگاتار اقساط کے درمیان ان کی کلاس کے انتخاب میں بہت سی تبدیلیاں کریں۔ لہذا، ابتدائی طور پر، کلاس کے انتخاب کا عمل انتہائی سٹاکسٹک ہے۔ اگرچہ ابتدائی اقساط کے دوران شرکاء اور ہمارے ماڈل کی کلاس کی پیشین گوئی کے درمیان کچھ مماثلتیں ہیں، مزید نمونوں کے ساتھ رویے تیزی سے ایک جیسے ہوتے جاتے ہیں۔ ابتدائی چند (عام طور پر 4 سے 7) اقساط کے دوران، محرک کے انتہائی نمایاں حصے سامنے آتے ہیں۔ اس سے بعد کے نمونوں میں صرف صحیح کلاس کو منتخب کرنے میں مدد ملتی ہے، جس سے پیشین گوئی کی درستگی بڑھ جاتی ہے۔ چونکہ بہت ساری کلاسیں ہیں جن کے اوسط ٹیمپلیٹس ابتدائی چند اقساط کے دوران محرک کے مشاہدہ شدہ حصوں سے میل کھاتے ہیں، اس لیے کلاس کے انتخاب کا عمل نمایاں طور پر زیادہ اسٹاکسٹک ہے، جس کی وجہ سے شرکاء کے ساتھ ساتھ ہمارے ماڈل کی طرف سے درجہ بندی کی درستگی کم ہوتی ہے۔

Figure 3. Distribution of sampling locations over all participants for each numeral/alphabet class and each sampling episode. Each row corresponds to a class, each column corresponds to a sampling episode which increases from left to right.


شکل 3. ہر عدد/حروف تہجی کی کلاس اور ہر نمونے لینے والے ایپی سوڈ کے لیے تمام شرکاء پر نمونے لینے کے مقامات کی تقسیم۔ ہر قطار ایک کلاس سے مساوی ہے، ہر کالم نمونے لینے والے ایپی سوڈ سے مطابقت رکھتا ہے جو بائیں سے دائیں تک بڑھتا ہے۔

مقام کی پیشن گوئی۔ ہمارے بیس لائن ماڈل کی (Eq. 3) مقام کی پیشن گوئی کی درستگی، تمام نمونوں اور ڈیٹاسیٹس پر اوسط، 67.7% (std. dev. 14.1) (ref. Fig. 5d) ہے۔ اس پیشین گوئی کی درستگی کا رجحان طبقاتی پیشین گوئی کی درستگی کے برعکس ہے۔ تاہم، وضاحت وہی رہتی ہے. ابتدائی نمونے لینے کے دوران مقام کی پیشن گوئی کی درستگی زیادہ ہوتی ہے کیونکہ ان اقساط کے دوران، انتہائی نمایاں مقامات کا انتخاب کیا جاتا ہے، جس سے بعد کی اقساط میں کم نمایاں مقامات کا انتخاب کیا جاتا ہے۔ چونکہ بہت سے مقامات ایسے ہیں جن میں کم سالمیت ہے، اس لیے ان کے انتخاب کا عمل انتہائی سٹاکسٹک ہے اور اس لیے پیشین گوئی کرنا مشکل ہے، جس کی وجہ سے نمونے لینے میں اضافے کے ساتھ پیشین گوئی کی درستگی میں کمی واقع ہوتی ہے۔ گھٹتا ہوا رجحان ہر ڈیٹاسیٹ کے لیے منفرد ہے (حوالہ 5d) کیونکہ کلاسوں کی تعداد اور امتیازی سلوک کے لیے کارآمد انتہائی نمایاں مقامات کی تعداد ڈیٹاسیٹس کے درمیان مختلف ہوتی ہے۔ کلاسوں کی تعداد اور انتہائی نمایاں امتیازی مقامات کی تعداد جتنی کم ہوگی، سیمپلنگ میں اضافے کے ساتھ مقام کی پیشن گوئی کی درستگی میں اتنی ہی تیزی سے کمی ہوگی۔

imageFigure 4. (Lef) Errorbar plot of time diference (seconds) between consecutive samples averaged over all classes. Tat is, value shown at sampling episode t is the time elapsed between a participant's clicks in image at t − 1 and t. (Right) Errorbar plot of confusion averaged over all classes at each episode. Errorbars indicate std. dev.

چترا 4۔ (Lef) تمام کلاسوں کے اوسط سے لگاتار نمونوں کے درمیان وقت کے فرق (سیکنڈ) کا ایرر بار پلاٹ۔ سیمپلنگ ایپیسوڈ میں دکھائی گئی قدر t − 1 اور t پر تصویر میں حصہ لینے والے کے کلکس کے درمیان گزرا ہوا وقت ہے۔ (دائیں) الجھن کا ایرر بار پلاٹ ہر ایپی سوڈ میں تمام کلاسوں پر اوسط ہے۔ خرابی کی پٹیاں std کی نشاندہی کرتی ہیں۔ دیو

Figure 5. Evaluation of our baseline model (ref.

شکل 5. ہمارے بنیادی ماڈل کی تشخیص (ریفریٹ. "رویے کی پیشن گوئی کے لئے بنیادی لائن" سیکشن)۔ (a) شرکاء کی درجہ بندی کی درستگی (acc.) اور (b) ہمارے بنیادی ماڈل کی اصل لیبلز کے ساتھ زمینی سچائی۔ (c) درجہ بندی کی مماثلت (J(ct, ˆct))، (d) مقام کی پیشن گوئی کی درستگی، (e) کلاس مسترد ہونے کی درستگی اور (f) ہمارے بنیادی لائن ماڈل کی کلاس سلیکشن کی درستگی جس میں شرکاء کے ڈیٹا کو زمینی سچائی ہے۔ تفصیلات کے لیے "رویے کی پیشن گوئی" سیکشن دیکھیں۔

Table 1. Average Pearson correlation coefficient (corr.) for fxation sequences for the same class. For any fixation, distance is Euclidean and direction is measured as the polar angle with respect to the center of stimuli as the origin. Std. dev. are included in parenthesis.


ٹیبل 1. ایک ہی کلاس کے لیے fxation سیکوینسز کے لیے پیئرسن کے ارتباط کا اوسط گتانک (corr.)۔ کسی بھی تعین کے لیے، فاصلہ یوکلیڈین ہے اور سمت کو قطبی زاویہ کے طور پر محرک کے مرکز کے حوالے سے ماپا جاتا ہے۔ Std دیو قوسین میں شامل ہیں۔

رام کی تشخیص۔

ہر کلاس اور نمونے کے لیے، RAM سے طے شدہ نقشے (ہم نے github.com/hehefan/Recurrent-Attention-Model سے RAM کے نفاذ کا استعمال کیا) اور MTurk میں پیش کردہ اسی محرکات کے لیے جمع کردہ ڈیٹا کا موازنہ کیا جاتا ہے۔ شرکاء کے ساتھ منصفانہ موازنہ کے لیے، RAM میں ہم نے ترتیب کی لمبائی کو T=12 پر طے کیا، تصویری مرکز میں نمونے لینے کا پہلا مقام، ان پٹ مشاہدے کو 5×5 پیچ پر منتخب کیا گیا جس کے مرکز کے طور پر منتخب مقام، اور Eq کے ذریعہ انعام کے فنکشن میں ترمیم کی۔ (1)۔ یہ مجموعی انعام، Eq میں Rt۔ (4،) کو Eq سے حاصل کردہ مجموعی سکور t τ=1 Pτ سے بدل دیا گیا ہے۔ (1)۔ جیسا کہ ایک شریک کسی بھی ایپی سوڈ میں ایک سے زیادہ کلاسز کا انتخاب کر سکتا ہے، RAM ماڈل کے لیے، سب سے زیادہ امکان کی بنیاد پر کسی ایک کلاس کی پیشین گوئی کرنے کے بجائے، ہم تمام کلاسوں پر اوسط امکان کو ایک حد کے طور پر سمجھتے ہیں اور کلاسوں کے سیٹ کی پیشین گوئی کرتے ہیں جن کے امکانات زیادہ سے زیادہ ہیں۔ دہلیز یہ ct Eq کا استعمال کرتے ہوئے اسکور کا حساب لگانے کے لیے استعمال ہوتا ہے۔ (1)۔ ان شرائط کے تحت، RAM کو MNIST ہندسوں، بڑے، اور چھوٹے EMNIST حروف کو پہچاننے کے لیے 3.7، 8.5، اور 7.6 نمونوں کی ضرورت ہوتی ہے، جو بالترتیب 8.9%، 21{19}}%، 18.7% امیج ایریا کے مساوی ہیں۔ اس طرح، ہمارے شرکاء (ریفری "ڈیٹا تجزیہ" سیکشن) کے مقابلے میں، RAM کم موثر ہے۔ ٹیبل 2 دیکھیں۔ RAM سے طے شدہ نقشوں کا موازنہ کرنے کے نتائج اور جمع کیے گئے ڈیٹا کو جدول 3 میں دکھایا گیا ہے۔ صفر کی قدروں کی حساسیت کی وجہ سے KL زیادہ ہے۔ اس کا مطلب ہے کہ شرکاء کے ذریعہ متعدد مقامات کا نمونہ لیا گیا ہے لیکن RAM کے ذریعہ نہیں۔ ان تجربات کو توجہ کے نمونے کے ذریعہ نمونے والے مقامات کا جائزہ لینے کے لئے ایک بنیادی لائن کے طور پر استعمال کیا جاسکتا ہے۔

cistanche-Improve memory2

cistanche کے فوائد - یادداشت کو بہتر بنائیں

مباحثے

mcAT پیراڈائم، جیسا کہ اس مقالے میں استعمال کیا گیا ہے، میں ان سے کچھ فرق ہے جو بنیادی طور پر آنکھوں کی حرکات اور نگاہوں پر انحصار کرتے ہیں تاکہ آبجیکٹ کی شناخت کے طریقہ کار کا مطالعہ کیا جا سکے۔ مؤخر الذکر میں، منظر کے نمایاں حصے سب سے پہلے توجہ کو اپنی طرف مبذول کرتے ہیں، اس کے بعد آنکھوں کی سیکیڈک حرکتیں آنکھوں کی نگاہوں کو نمایاں مقامات کی طرف لے جاتی ہیں۔ نگاہیں نیچے سے اوپر اور اوپر سے نیچے کے سگنلز کے ذریعے چلتی ہیں جو کہ نمایاں معلومات کے ساتھ مل کر ترجیحی نقشے بناتے ہیں جو آبجیکٹ کی شناخت کے لیے آنکھوں کی حرکت کی رہنمائی کرتے ہیں۔ چونکہ موجودہ مطالعہ کے شرکاء نے جامد تصاویر کو آزادانہ دیکھنے کے حالات میں دیکھا اور کافی وقت کے ساتھ (T=12 نمونے لینے کے لیے چھ منٹ)، وہ ممکنہ طور پر آنکھوں کی نقل و حرکت یا بصری استدلال کے سلسلے میں مصروف تھے AOI پر کلک کرنے سے پہلے تصویر۔ آنکھوں کی ان حرکات کو ایم اے ٹی میں پکڑا جا سکتا تھا (آئی ٹریکر کا استعمال کرتے ہوئے) لیکن ایم سی اے ٹی میں نہیں۔ تاہم، یہ آنکھوں کی حرکات دماغ کے بھٹکنے سے متاثر ہوتی ہیں۔ جب کہ mcAT دماغی بھٹکنے سے بھی متاثر ہوتا ہے، لیکن جب بھی شرکاء بصری استدلال کے بعد جواب دیتے ہیں تو اثر کم ہو سکتا ہے۔ چونکہ محرک کے جواب میں آنکھوں کی حرکات 30 ہاتھ پر موجود ٹاسک سے متاثر ہوتی ہیں، اس لیے شرکاء کی آنکھوں کی نقل و حرکت کے نمونے ممکنہ طور پر ہر نمونے کے لیے تفویض کردہ تین قدمی ٹاسک سے متاثر ہوئے تھے (ریفریٹ۔ "بصری ٹاسک" سیکشن)۔ اگر آئی ٹریکر استعمال کیا جاتا، تو نمونے کو دریافت کرنے کے لیے شرکاء کی آنکھوں کی حرکات ان کی منتخب کلاسوں پر کلک کرنے کے لیے آنکھوں کی حرکات کے ساتھ مل جاتی، جس سے نمونے کی بصری تحقیق کی تشریح پیچیدہ ہوتی۔ کلاس (ز) پر کلک کرنا ایک ضروری مرحلہ ہے کیونکہ یہ ظاہر کرتا ہے، اگرچہ اندرونی طور پر، ایک شریک کے ذہن میں پیشین گوئی کی گئی کلاس (ز)۔ یہ امکان ہے کہ AOI کے انتخاب سے پہلے اور اس کے فوراً بعد نگاہوں نے-شاید فکسیشنل آنکھوں کی حرکات سے بھی مدد لی ہو درحقیقت، ہم قیاس کرتے ہیں کہ شرکاء نے کلاسوں کے درمیان فرق کرنے کے لیے تصویر کے تشخیصی علاقوں کا انتخاب کیا، اور ان علاقوں میں ممکنہ طور پر نیچے سے اوپر (مثلاً، بصری کنٹراسٹ) اور اوپر سے نیچے (عدد/حروف تہجی کی ٹیمپلیٹ) تشخیصی معلومات کا مرکب ہوتا ہے۔ یہ ہمارے اس کھوج کے ساتھ مطابقت رکھتا ہے کہ شرکاء تیزی سے (اوسطاً 5 نمونوں کے اندر) محرک کلاسوں کے درمیان واضح طور پر تشخیصی پیچ کو منتخب کرکے ممتاز کرتے ہیں۔

Table 2. Comparison of efficiency between our participants and the RAM model in terms of the average number of samples required to recognize a numeral/alphabet. The percentage of the image area observed is included in parentheses.

جدول 2۔ ہمارے شرکاء اور RAM ماڈل کے درمیان کارکردگی کا موازنہ ہندسوں/حروف تہجی کو پہچاننے کے لیے درکار نمونوں کی اوسط تعداد کے لحاظ سے۔ مشاہدہ کردہ تصویری رقبہ کا فیصد قوسین میں شامل ہے۔

Table 3. Evaluation of fixation maps from RAM for the stimuli presented in the MTurk experiments averaged over all classes and samplings. Std. dev. are included in parenthesis.


جدول 3. MTurk تجربات میں پیش کردہ محرکات کے لیے RAM سے فکسیشن نقشوں کا اندازہ تمام کلاسوں اور نمونوں کے اوسط سے۔ Std دیو قوسین میں شامل ہیں۔

نتائج

ہم نے ترتیب وار نمونے کے ذریعے ہاتھ سے لکھے ہوئے ہندسوں اور حروف تہجی کو پہچاننے کے لیے ایک mcAT ڈیٹاسیٹ متعارف کرایا۔ اعداد و شمار 382 شرکاء سے جمع کیے گئے ہیں جو بینچ مارک ڈیٹاسیٹس (MNIST, EMNIST) سے منتخب کردہ تصاویر کے ساتھ پیش کیے گئے ہیں۔ اوسطاً، فی عدد/حروف تہجی کی کلاس میں 169.1 جوابات ریکارڈ کیے جاتے ہیں۔ انسانی بصری شناخت کی کارکردگی کو ظاہر کرنے کے لیے ڈیٹا کا سختی سے تجزیہ کیا جاتا ہے۔ شرکاء نے شناخت کے لیے صرف 12.8 فیصد تصویر کا مشاہدہ کیا۔ ہم نے ایک بیس لائن ماڈل تجویز کیا ہے تاکہ اس مقام اور کلاس (کلاس) کی پیشین گوئی کی جا سکے جو ایک شریک اگلے نمونے میں منتخب کرے گا۔ ہم نے دکھایا کہ کس طرح ہمارے تجرباتی حالات اور ڈیٹا کو انسانی کارکردگی کے مقابلے میں توجہ پر مبنی کمک کے ماڈل کا جائزہ لینے کے لیے استعمال کیا جا سکتا ہے۔ یہ mcAT ڈیٹاسیٹ، آنکھوں سے باخبر رہنے والے ڈیٹا پر متعدد فوائد کے ساتھ، AI، ML اور دیگر شعبوں میں توجہ پر مبنی ماڈل ریسرچ میں ایک اہم خلا کو پُر کرتا ہے۔

حوالہ جات

1. رانزاتو، ایم اے سیکھنے پر کہ کہاں دیکھنا ہے۔ arXiv:1405.5488, (2014)۔

2. Ba, J., Salakhutdinov, RR, Grosse, RB, & Frey, BJ لرننگ جاگتے نیند کے بار بار توجہ دینے والے ماڈل۔ NIPS میں، 2593–2601 (2015)۔

3. Mnih، V. et al. بصری توجہ کے بار بار ماڈل۔ NIPS میں، 2204–2212 (2014)۔

4. Ba, J., Mnih, V., & Kavukcuoglu, K. بصری توجہ کے ساتھ ایک سے زیادہ آبجیکٹ کی شناخت۔ arXiv:1412.7755 (2014)۔

5. دتہ، جے کے اور بنرجی، B. جھلک کی تعداد کے ساتھ درجہ بندی کی درستگی میں تغیر۔ IJCNN، 447–453 (IEEE، 2017) میں۔

6. Larochelle, H. & Hinton, GE ایک تھرڈ آرڈر بولٹزمین مشین کے ساتھ فوول جھلک کو یکجا کرنا سیکھنا۔ NIPS میں، 1243–1251 (2010)۔

7. Elsayed, G., Cornblith, S. & Le, QV Saccader: بصارت کے لیے سخت توجہ کے ماڈلز کی درستگی کو بہتر بنانا۔ NIPS میں، 702–714 (2019)۔

8. وین بیئرز، آر جے ٹی سیکیڈک آنکھوں کی حرکت میں تغیر کے ذرائع۔ J. Neurosci. 27(33)، 8757–8770 (2007)۔

9. Itti, L. & Baldi, P. Bayesian حیرت انسانی توجہ کو اپنی طرف متوجہ کرتی ہے. Vis. Res. 49(10)، 1295–1306 (2009)۔

10. Egner، S. et al. توجہ اور معلومات کا حصول: آنکھوں کی نقل و حرکت کی توجہ سے باخبر رہنے کے ساتھ ماؤس کلک کا موازنہ۔ J. Eye Mov. Res. 11(6)، (2018)۔

11. پیٹرسن، ایم ایس، کریمر، اے ایف اور ارون، ڈی ای کی توجہ کی خفیہ تبدیلیاں آنکھوں کی غیر ارادی حرکت سے پہلے ہوتی ہیں۔ ادراک سائیکوفیس۔ 66(3)، 398–405 (2004)۔

12. جیانگ، M. et al. سلکان: سیاق و سباق میں سلینسی۔ CVPR میں، 1072–1080 (2015)۔

13. Kim، NW et al. ببل ویو: تصویری اہمیت کے نقشوں کو کراؤڈ سورس کرنے اور بصری توجہ کو ٹریک کرنے کا ایک انٹرفیس۔ ACM ٹرانس۔ کمپیوٹنگ ہم تعامل 24(5)، 1–40 (2017)۔

14. Sermanet, P., Frome, A. & Real, E. عمدہ درجہ بندی کے لیے توجہ۔ arXiv:1412.7054 (2014)۔

15. Egner, S., Itti, L. & Scheier, C. مختلف قسم کے رویے کے اعداد و شمار کے ساتھ توجہ کے ماڈلز کا موازنہ کرنا۔ تفتیش کریں۔ Ophthalmol. Vis. سائنس 41(4)، S39 (2000)۔

16. Navalpakkam, V. et al. نان لائنر پیج لے آؤٹ کی موجودگی میں آنکھوں کے ماؤس کے رویے کی پیمائش اور ماڈلنگ۔ Proc میں انٹر conf. WWW، 953–964 (2013)۔

17. Matzen, LE, Stites, MC & Gastelum, ZN آنکھ ٹریکر کے بغیر بصری تلاش کا مطالعہ: مصنوعی فوویشن کا اندازہ۔ کوگن Res. پرنس مضمرات 6(1)، 1–22 (2021)۔

18. طافی، اے پی وغیرہ۔ OCR بطور سروس: Google Docs OCR، Tesseract، ABBYY FineReader، اور Transym کا تجرباتی جائزہ۔ Int. سمپ Vis. Comput.، 735–746 (اسپرنگر، 2016)۔

19. میمن، جے، سمیع، ایم، خان، آر اے اور الدین، ایم ہاتھ سے لکھے ہوئے نظری کردار کی شناخت (OCR): ایک جامع منظم ادب کا جائزہ (SLR)۔ IEEE رسائی 8، 142642–142668 (2020)۔

20. چودھری، اے، منڈاویہ، کے، بدیلیا، پی اور گھوش، ایس کے آپٹیکل کریکٹر ریکگنیشن سسٹمز۔ صوف کمپیوٹنگ کے ساتھ مختلف زبانوں کے لیے آپٹیکل کریکٹر ریکگنیشن سسٹمز میں، 9–41 (اسپرنگر، 2017)۔

21. LeCun، Y. et al. گریڈینٹ پر مبنی سیکھنے کا اطلاق دستاویز کی شناخت پر ہوتا ہے۔ پروک IEEE 86(11), 2278–2324 (1998)۔

22. کوہن، جی، افشار، ایس، ٹیپسن، جے اینڈ وین شیک، اے ایم این آئی ایس ٹی: ہاتھ سے لکھے گئے خطوط تک ایم این آئی ایس ٹی کی توسیع۔ arXiv:1702.05373, (2017)۔

23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: تصویر بنانے کے لیے ایک بار بار چلنے والا نیورل نیٹ ورک۔ ICML میں، 1462–1471 (2015)۔

24. فریسٹن، کے ٹی فری انرجی کا اصول: دماغ کے لیے ایک درست رہنما؟ رجحانات کوگن۔ سائنس 13(7)، 293–301 (2009)۔

25. مرزا، ایم بی، ایڈمز، آر اے، فریسٹن، کے اور پار، ٹی۔ ایکٹیو انفرنس کی بنیاد پر منتخب توجہ کا ایک بایسیئن ماڈل متعارف کرانا۔ سائنس Rep. 9(1), 1–22 (2019)۔

26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. مختلف تشخیصی میٹرکس ہمیں سلینسی ماڈلز کے بارے میں کیا بتاتے ہیں؟ آئی ای ای ای ٹرانس۔ پیٹرن مقعد. مچ انٹیل۔ 41(3)، 740–757 (2018)۔

27. Itti, L. & Koch, C. بصری توجہ کی کمپیوٹیشنل ماڈلنگ۔ نیٹ Rev. Neurosci. 2(3)، 194–203 (2001)۔

28. Lamme، VAF بصری افعال ہوش میں دیکھنے کو پیدا کرتے ہیں۔ سامنے والا۔ نفسیاتی، 11، (2020)۔

29. دا سلوا، ایم آر ڈی اور پوسٹما، ایم. آوارہ دماغ، آوارہ چوہے: کمپیوٹر ماؤس ٹریکنگ ایک طریقہ کے طور پر دماغ کے بھٹکنے کا پتہ لگانا۔ کمپیوٹنگ ہم برتاؤ۔ 112، 106453 (2020)۔

30. Schütz, AC, Braun, DI & Gegenfurtner, KR آنکھ کی حرکت اور تصور: ایک منتخب جائزہ۔ J. Vis. 11(5)، 9–9 (2011)۔

31. Intoy, J. & Rucci, M. آنکھوں کی باریک حرکتیں بصری تیکشنتا کو بڑھاتی ہیں۔ نیٹ کمیون 11(1)، 1–11 (2020)۔

شاید آپ یہ بھی پسند کریں