جدول الف-۳۱: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، با کنترل مواجهه S-H : حسابان-دیفرانسیل (محتوای اول) ۳۰۰

جدول الف-۳۲: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، با کنترل مواجهه S-H : هندسه (محتوای دوم) ۳۰۱

جدول الف-۳۳: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، با کنترل مواجهه S-H : جبر گسسته (محتوای سوم) ۳۰۲

فصل اول

کلیات پژوهش

کلیات پژوهش

مقدمه

با پیشرفت روزافزون جوامع و لزوم تخصصی شدن فعالیت‌ها، نیاز به اندازه‌گیری صفات زیربنایی افراد در هریک از مهارت‌هایشان روز‌به‌روز گسترش می‌یابد. آزمون‌ها که جزء جدایی‌ناپذیر فرایند سنجش و اندازه‌گیری هستند نیز توجه گسترده‌ای را به خود اختصاص داده‌اند. آزمون‌ها به عنوان معیاری برای ورود به مشاغل و مقاطع تحصیلی، تأیید تسلط به مهارتی خاص و ارزیابی دوره های مختلف آموزشی استفاده می‌شوند. بدین ترتیب شمار زیادی از آزمون‌ها به عنوان فیلترهایی مهم و تأثیرگذار در زندگی و آینده افراد مطرح شده‌اند؛ این قبیل آزمون‌ها را آزمون‌های سرنوشت ساز[۱] می‌نامند (وندر لیندن و گلاس[۲]، ۲۰۱۰).

مراکز معتبر ساخت آزمون سالانه هزینه های بسیاری برای ساخت این نوع آزمون‌ها صرف می‌کنند، به طوری‌که گاهی هزینه ساخت این آزمون‌ها بسیار سنگین و هنگفت می‌شود، و گاهی آزمون‌سازان برای کم کردن هزینه های ساخت آزمون، کیفیت سؤالات آن را پایین می‌آورند. از این‌رو، آزمونی که ضعیف ساخته شده باشد نه تنها مفید نیست، بلکه خطرناک نیز است. ‌بنابرین‏ آزمون‌های سرنوشت ساز باید به دقت ساخته، اجرا و نمره‌گذاری شوند (استوکینگ و سوآن سون[۳]، ۱۹۹۸).

با گسترش کاربرد کامپیوتر در زندگی روزمره‌ انسان‌ها، و با ورود سریع کامپیوترهای شخصی در امر آموزش، در سال‌های اولیه دهۀ ۱۹۸۰، بسیاری از فرم‌های آزمون‌های سرنوشت‌ساز در “مقیاس وسیع[۴]“، به صورت فرمت‌های مناسب اجرای کامپیوتری ساخته‌ شدند. اجرای فرمت‌های آزمون‌های سرنوشت‌ساز به شکل کامپیوتری مزیت‌های بسیاری به همراه داشت. یکی از این مزیت‌ها آن بود که قدرت کامپیوترهای مدرن و توانایی آن‌ ها برای یکپارچه‌کردن موقعیت‌های چندگانه سنجشی، می‌توانست فرم‌های جدیدی از سؤالات ایجاد کند تا به موقعیت واقعی محیط زندگی نزدیک شود. کامپیوترها می‌توانستند به منظور افزایش دقت آماری نمره‌گذاری آزمون‌ها نیز استفاده‌ شوند. همچنین هزینه های اجرایی را نیز کاهش دهند. در اواخر همین دهه بود که سنجش انطباقی کامپیوتری[۵]( CAT) رشد فزاینده‌ای یافت. البته ایده این نوع سنجش به آزمون هوش بینه و سیمون (۱۹۰۵) بر می‌گردد (وندر لیندن و گلاس، ۲۰۱۰). سنجش انطباقی شیوه‌ای از اجرای آزمون است که با سطح توانایی آزمودنی انطباق دارد و هدف عمده آن، برازش سطح توانایی هر آزمودنی با سؤالات اجرایی، از طریق انتخاب بهینه سؤالات از یک خزانه سؤال، به صورت سلسله مراتبی می‌باشد. همچنین، CAT شیوه‌ای از سنجش است که می‌تواند دقت بیشتری برای تعیین طول آزمون ایجاد کند و بدون از دست دادن دقت آزمون، طول آن را کاهش دهد (ریکیسی[۶]، ۲۰۱۰). در همان سال های اولیه، سیستم سنجش میکروکت[۷] توسط اتحادیۀ سیستم‌های سنجشی[۸] در سال ۱۹۸۴، ایجاد شد و برنامه هایی از قبیل آزمون‌های گزینش[۹] انطباقی کامپیوتری نیز ساخته ‌شد (ساندز، گاد و کناپ[۱۰]، ۱۹۹۷). اولین کاربرد CAT در مقیاس وسیع، نسخه‌ کامپیوتری شده‌ آزمون استعداد نیروهای مسلح[۱۱] (ASVAB) بود (ون در لیندن، ۱۹۹۶). به دنبال آن، در بسیاری از برنامه های سنجش در مقیاس بزرگ، آزمون‌های مداد-کاغذی با CAT جایگزین شدند. برای مثال، نسخه‌ CAT آزمون GRE و آزمون استعداد شغلی نیروهای مسلح (ASVAB)، هم اکنون در دسترس می‌باشد. مؤسسه‌‌ی ملّی اندازه‌گیری آموزشی (CITO) در هلند، چندین CAT تا به حال اجرا کرده‌ است؛ مانند، MATCAT، برای تشخیص نقص‌های ریاضی در دانشجویان ایجاد شده‌است (CITO، ۱۹۹۹) (ورشور و استریتمن[۱۲]، ۲۰۰۰). TURCAT، مهارت زبان ترکی را به عنوان زبان دوم سنجش می‌کند (CITO، ۲۰۰۸)، DSLCAT، نیز زبان هلندی را به عنوان زبان دوم سنجش می‌کند (CITO، ۲۰۰۲) و kindergartenCAT شامل آزمون‌هایی برای اندازه‌گیری ترتیب، زبان، توانایی جهت‌یابی زمانی و مکانی کودکان می‌باشد (ایگن[۱۳]، ۲۰۰۴). این CATها تقریباً همانند همه‌ سیستم‌های CAT عملیاتی با کاربرد سؤالاتی در خزانه سروکار دارند که به طور متنوعی توزیع می‌شوند (ولدکمپ[۱۴]، ورشور و ایگن، ۲۰۰۷). با گذشت بیش از ۲۰ سال از اجرای عملی سنجش انطباقی، CAT، به یک تکنولوژی کامل تبدیل شده ‌است (ریکیسی، ۲۰۱۰).

به دنبال این پیشرفت‌ها بسیاری از مراکز آزمون‌سازی به ساخت آزمون‌های کامپیوتری روی آوردند، تا هم سرعت اجرای و هم دقت اندازه گیری خود را افزایش دهند. از این‌رو با پیشرفت بیشتر CAT به مرور زمان مؤلفه‌‌های گوناگون آن شناخته و عوامل تاثیرگذار بر آن شناسایی شدند. به طوری‌که اگر ‌به این مؤلفه‌‌ها توجه نمی‌شد،CAT می‌توانست بدون آنکه دقت اندازه گیری را افزایش دهد، هزینه های گزافی را به بار آورد. مؤلفه‌‌های اساسی CAT، که به اندازه کافی معروف هستند، عبارتند از، مدل‌های نظریه سؤال پاسخ[۱۵] که برای مدرج‌سازی سؤالات به کار‌می‌رود، خزانه سؤال[۱۶] مدرج شده[۱۷]، الگوریتم انتخاب سؤال، روش آماری برای جایابی[۱۸] آزمودنی بر روی صفت مکنون توانایی یا برآورد توانایی آزمودنی‌ها، و قواعدی برای اتمام آزمون (واینر، دورانز، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن[۱۹]، ۲۰۰۰). اخیراًً که روش‌های CAT، برای سنجش‌های سرنوشت ساز، فراوان به کار می‌رود، مؤلفه‌‌های تعادل محتوایی[۲۰] (چنگ و چانگ[۲۱]، ۲۰۰۹) و قواعد امنیتی مانند کنترل مواجهه سؤال[۲۲] (سیمپسون و هتر[۲۳]، ۱۹۸۵) از اهمیت بسزایی برخوردار ‌شدند. یکی از مؤلفه‌‌های جالب توجه مرتبط به CAT، که مطالب محدودی ‌در مورد آن وجود دارد، مؤلفه خزانه سؤال می‌باشد. با‌ ‌این وجود، ویژگی‌های جذاب روان‌سنجی CAT، در صورتی تحقق می‌یابد که سؤالات آزمونی که برای اجرا به کار می‌روند مناسب باشند. این مجموعه از سؤالات معمولاً خزانه‌ی سؤال نامیده می‌شود (ریکیسی، ۲۰۱۰).

بیان مسئله

کیفیت خزانه‌ی سؤال، به عنوان یک عامل مهم به منظور افزایش کیفیت اندازه گیری در سنجش انطباقی کامپیوتری (CAT)، در نظر گرفته ‌شده است (فلاگر، ۲۰۰۰؛ جنسما[۲۴]، ۱۹۷۷؛ مک‌برید و وایس[۲۵]، ۱۹۷۶؛ ریکیسی، ۱۹۷۶؛ ۲۰۰۳؛ وندر لیندن، ادلاید آریل[۲۶] و ولدکمپ، ۲۰۰۶؛ ولدکمپ و وندر لیندن، ۲۰۰۰؛ اکسینگ و همبلتون[۲۷]، ۲۰۰۴). حتی در همان اوایل دهه ۱۹۷۰ – آغاز پژوهش‌های مرتبط با CAT- محققان به طور ضمنی و یا به صراحت اذعان داشتند که ویژگی‌های خزانه‌ی سؤال نقش مهمی در دستیابی به بهترین نتایج ممکن در سنجش انطباقی، خواهد داشت ( مک‌برید و وایس، ۱۹۷۶). با این وجود، دستورالعمل‌های اندکی ‌در مورد چگونگی ساخت خزانه‌های سؤال با کیفیت بالا، ایجاد شده است (هی[۲۸]، ریکیسی، ۲۰۱۰؛ هی و ریکیسی، ۲۰۱۱).

موضوعات: بدون موضوع  لینک ثابت