Teori respons terhadap item - Aplikasi dan Uji

Teori respons terhadap item - Aplikasi dan Uji / Psikologi eksperimental

Dalam bidang Teori Tes Psikometrik Berbagai denominasi muncul yang saat ini mengambil nama "Theory of the Item Response" (F.M. Lord, 1980). Denominasi ini menyajikan beberapa perbedaan sehubungan dengan model klasik: 1.- hubungan antara nilai yang diharapkan dari nilai subjek dan sifat (karakteristik yang bertanggung jawab atas nilai-nilai), biasanya tidak linier. 2.- bertujuan untuk membuat prediksi individu tanpa harus merujuk pada karakteristik kelompok normatif.

Anda juga mungkin tertarik dalam: Indeks Teori Uji Klasik
  1. Teori respons terhadap item atau model sifat laten dalam teori pengujian
  2. Model teori respons item (tri)
  3. Estimasi parameter
  4. Konstruksi uji
  5. Penerapan teori respons item
  6. Interpretasi skor

Teori respons terhadap item atau model sifat laten dalam teori pengujian

Kita melihat, kemudian, bahwa Teori Respon terhadap item ini memberikan kemungkinan untuk menggambarkan item secara terpisah serta individu; Ini juga menganggap bahwa respons yang diberikan oleh subjek tergantung pada tingkat keterampilan yang ada dalam kisaran yang dipertimbangkan. Asal usul model-model ini adalah karena Lazarsfeld, 1950, yang memperkenalkan istilah "sifat laten" .

Dari sini dianggap bahwa setiap individu memiliki parameter individu yang bertanggung jawab atas karakteristik subjek, juga disebut "sifat". Fitur ini tidak dapat diukur secara langsung, karenanya parameter individual disebut variabel laten. Saat menerapkan tes, Anda bisa mendapatkan dua hal berbeda, skor sebenarnya dan skala kebugaran; Ini dicapai jika kami melewati dua tes pada kebugaran yang sama untuk kelompok yang sama.

Dalam Teori Sifat Laten atau Teori tentang respons terhadap item Skor sebenarnya adalah nilai yang diharapkan dari skor yang diamati. Menurut Tuhan, skor sebenarnya dan kebugaran adalah hal yang sama tetapi dinyatakan dalam skala pengukuran yang berbeda.

Model teori respons item (tri)

Binomial Error Models: diperkenalkan oleh Lord (1965), yang mengasumsikan bahwa skor yang diamati sesuai dengan jumlah jawaban yang benar yang diperoleh dalam tes (yang itemnya memiliki semua kesulitan yang sama dan memiliki kemandirian lokal, yaitu, bahwa probabilitas untuk merespons dengan benar suatu item tidak terpengaruh oleh jawaban yang diberikan pada item lain).

Model Poisson: model ini sesuai untuk pengujian yang memiliki sejumlah besar item dan di mana kemungkinan jawaban benar atau salah kecil. Dalam kelompok ini, pada gilirannya, kami memiliki model yang berbeda:

  1. Model Poissonian dari Rasch, yang hipotesisnya adalah: setiap tes memiliki sejumlah besar item biner yang independen secara lokal. probabilitas kesalahan di setiap item kecil. Probabilitas bahwa subjek membuat kesalahan tergantung pada dua hal: kesulitan tes dan bakat subjek. aditivitas kesulitan, dipahami sebagai hasil dari pencampuran dua tes setara dalam satu tes yang kesulitannya adalah jumlah dari kesulitan dari dua tes awal.
  2. Model Poisson untuk mengevaluasi kecepatan: Model ini juga diusulkan oleh Rasch dan dicirikan karena kecepatan dalam pelaksanaan tes diperhitungkan. Model ini dapat diusulkan dalam dua cara: menghitung jumlah kesalahan yang dilakukan dan jumlah kata yang dibaca dalam satuan waktu. hitung jumlah kesalahan yang dilakukan dan waktu yang dihabiskan untuk menyelesaikan pembacaan teks. Probabilitas realisasi sejumlah kata dalam tes (i) oleh subjek (j), untuk sementara waktu (t)
  3. Model Normal Ojiva: adalah model yang diusulkan oleh Lord (1968), yang digunakan dalam tes dengan item dikotomis dan dengan hanya satu variabel yang sama. Grafiknya adalah sebagai berikut: Asumsi dasar yang menjadi ciri model ini adalah:
  • ruang varian laten adalah satu dimensi (k = 1).
  • independensi lokal antar intem.
  • metrik untuk variabel laten dapat dipilih sehingga kurva setiap item adalah hulu ledak normal.

Model Logistik; Ini adalah model yang sangat mirip dengan yang sebelumnya tetapi juga memiliki kelebihan lebih dibandingkan dengan perlakuan matematisnya. Fungsi logistik mengambil bentuk berikut: Ada model logistik yang berbeda tergantung pada jumlah parameter yang memiliki:

  • Model logistik 2 parameter, Birnbaum 1968, di antara karakteristiknya kami menyebutkan bahwa itu adalah satu dimensi, ada kemerdekaan lokal, unsur-unsurnya dikotomis, dll.
  • 3 parameter model logistik, Tuhan, dicirikan karena kemungkinan memukul oleh ramalan adalah faktor yang akan mempengaruhi kinerja ujian. 4.3. Model logistik 4-parameter: model yang diusulkan oleh McDonald 1967 dan Barton-Lord pada tahun 1981, yang tujuannya adalah untuk menjelaskan kasus-kasus di mana subjek yang memiliki tingkat kebugaran tinggi tidak menanggapi item dengan benar..
  • Model logistik Rasch: Model ini adalah salah satu yang telah menghasilkan jumlah pekerjaan terbesar meskipun memiliki kelemahan, ini adalah bahwa penyesuaiannya terhadap data nyata lebih sulit.Tetapi berbeda dengan ini keuntungan yang membuatnya begitu digunakan adalah bahwa itu tidak memerlukan besar Ukuran sampel untuk penyesuaian Anda.

Estimasi parameter

Metode yang paling banyak digunakan adalah Maximum Likelihood, di sebelah metode ini prosedur perkiraan numerik seperti Newton-Raphson dan Scoring (Rao) digunakan. Metode Kemungkinan Maksimum didasarkan pada prinsip memperoleh estimator dari parameter yang tidak diketahui yang memaksimalkan probabilitas untuk mendapatkan sampel tersebut. Selain Kemungkinan Maksimum, Estimasi Bayesian juga digunakan, berdasarkan Teorema Bayes, yang terdiri dari menggabungkan semua informasi yang diketahui, apriori, yang relevan dengan proses membuat kesimpulan. Sebuah studi yang lebih mendalam dari metode Bayesian untuk estimasi parameter kebugaran adalah dari Birnbaum (1996) dan Owen (1975). .

FUNGSI INFORMASI

Tes terbaik yang dapat dibangun adalah yang memberikan informasi paling banyak tentang sifat laten. Kuantifikasi informasi ini dilakukan melalui "fungsi informasi". Rumus fungsi informasi, Birnbaum 1968, adalah sebagai berikut: Harus diperhitungkan bahwa informasi yang diperoleh dalam tes adalah jumlah dari informasi setiap item, selain itu kontribusi setiap item tidak tergantung pada sisa item. yang merupakan ujian. Secara umum kita dapat mengatakan bahwa informasi, dalam semua model:

  • bervariasi dengan tingkat kebugaran.
  • Semakin besar kemiringan kurva, semakin banyak informasi.
  • tergantung pada varian skor, semakin tinggi ini, semakin sedikit informasi.

Konstruksi uji

Tugas pertama dan salah satu yang paling penting pada saat membangun tes adalah pilihan item, chord sebelumnya dari asumsi teoritis yang harus menentukan fitur yang tes ingin ukur. Konsep "analisis item" mengacu pada serangkaian prosedur formal yang dilakukan untuk memilih item-item yang pada akhirnya akan membentuk tes. Informasi yang dianggap paling relevan sehubungan dengan item adalah:

  1. Kesulitan item, persentase orang yang menjawabnya.
  2. Diskriminasi, korelasi masing-masing item dengan skor total pada tes.
  3. Distractors atau analisis kesalahan, pengaruhnya relevan, mempengaruhi kesulitan item dan menyebabkan nilai-nilai diskriminasi diremehkan.

Pada saat menetapkan indikator dari berbagai indeks, statistik atau indeks biasanya digunakan, berikut ini yang paling banyak digunakan:

Indeks kesulitan Indeks diskriminasi Indeks keandalan Indeks validitas Indeks yang dikenal yang harus diperhitungkan untuk pemilihan item yang akan membentuk tes, kita akan melihat langkah-langkah apa yang diperlukan untuk membangun tes:

  1. Spesifikasi masalah.
  2. Ucapkan serangkaian luas item dan debug mereka.
  3. Pilihan model.
  4. Uji item yang dipilih sebelumnya.
  5. Pilih item terbaik.
  6. Pelajari kualitas tes
  7. Tetapkan norma interpretasi tes akhir yang diperoleh.

Dari poin sebelumnya harus dicatat bahwa pilihan model, poin 3, akan tergantung pada tujuan yang ditempuh oleh tes, karakteristik dan kualitas data, dan sumber daya yang tersedia. Ketika model dipilih, mengingat kondisi teoritis di mana ia dapat diterapkan, tidak terlepas dari kebajikannya mereka harus dianalisis dalam setiap kasus dan dalam keadaan tertentu. Properti yang disebabkan oleh model-model yang membentuk Teori Respon terhadap Item (TRI), Mereka dapat dipengaruhi oleh:

  • dimensi tes, ketersediaan langka, kurangnya sampel, sumber daya komputer. Ada sejumlah preferensi saat menggunakan satu atau model lain, mari kita melihatnya: model hulu ledak normal biasanya tidak digunakan dalam aplikasi, nilainya teoretis.
  • Rasch: cocok untuk perbandingan horizontal (tes yang sebanding pada tingkat kesulitan dengan distribusi kebugaran serupa). untuk memiliki berbagai bentuk tes yang sama. * Parameter 2 dan 3: adalah yang paling sesuai dengan berbagai masalah.
  • untuk mendeteksi pola respons yang salah. untuk pemerataan tes vertikal (bandingkan tes dengan berbagai tingkat kesulitan dan distribusi yang berbeda untuk kebugaran).

1 dan 2 parameter:

  • cocok untuk membangun skala tunggal, sehingga Anda dapat membandingkan keterampilan di berbagai tingkat.

Pilihan model, selain tujuan yang ditempuh, dapat dipengaruhi oleh ukuran sampel; Dalam hal sampel besar dan representatif, tidak akan ada masalah baik model klasik maupun sifat laten. Namun dalam TRI ( teori respons item ) sampel kecil memaksa untuk memilih model dengan sejumlah kecil parameter, bahkan model uniparameter.

Penerapan teori respons item

Mari kita lihat aplikasi apa yang paling umum: a) Pemerataan tes, terkadang perlu untuk menghubungkan skor yang telah diperoleh dalam tes yang berbeda, dengan dua tujuan yang mungkin:

  • Pemerataan horisontal: itu dicari untuk mendapatkan berbagai bentuk tes yang sama.
  • Pemerataan Vertikal: tujuannya adalah untuk membangun skala bakat tunggal dengan berbagai tingkat kesulitan. Mengenai pemerataan tes, Lord (1980) memperkenalkan konsep "ekuitas", yang menyiratkan bahwa untuk setiap subjek dua tes dapat dipertukarkan karena diterapkan bahwa satu atau yang lain tidak akan memvariasikan tingkat bakat yang telah diperkirakan. untuk subjek.

Studi bias item, item miring ketika, rata-rata, ia memberikan skor yang sangat berbeda dalam kelompok-kelompok tertentu yang dianggap bagian dari populasi yang sama.

Tes diadaptasi atau rata-rata , Melalui TRI, tes individual dapat dibangun yang memungkinkan untuk menyimpulkan dengan cara yang lebih tepat nilai sebenarnya dari sifat tersebut. Item akan dikelola secara berurutan, presetasi satu item atau yang lain akan tergantung pada jawaban yang diberikan di atas. Ada berbagai jenis tes yang disesuaikan, kami menunjukkan yang berikut:

  • prosedur dua tahap, Lord 1971; Bertz dan Weiss 1973 - 1974. Satu tes lulus pertama dan tergantung pada hasil tes kedua diberikan.
  • Prosedur dalam beberapa tahap, sama dengan yang sebelumnya, hanya proses mencakup lebih banyak tahapan.
  • Model percabangan tetap, Lord 1970, 1971, 1974; Mussio 1973. Semua subjek menyelesaikan item yang sama, tergantung pada respon, satu set item diselesaikan.
  • Model bercabang variabel, didasarkan pada independensi antara item dan properti dari penduga kemungkinan maksimum.

Bank barang, Memiliki set item yang besar adalah sesuatu yang akan meningkatkan kualitas tes tetapi untuk ini item-item tersebut harus melalui proses debugging terlebih dahulu. Untuk mengklasifikasikan item, perlu diperhitungkan fitur mana yang dimaksudkan untuk mengukur tes bahwa item ini akan menjadi bagian dari.

Interpretasi skor

Sisik: tujuannya adalah untuk menawarkan kontinum untuk memesan, mengklasifikasikan atau mengetahui berapa besar relatif fitur yang dievaluasi; ini akan memungkinkan kita untuk membangun perbedaan dan persamaan pada orang sehubungan dengan sifat itu. Skala yang digunakan dalam Psikologi adalah: nominal, ordinal, interval dan alasan; skala ini dibangun dari hasil tes, hasil yang disebut "skor langsung" .

Ketikkan : untuk melambangkan tes adalah mengubah skor langsung menjadi yang lain yang mudah ditafsirkan karena skor yang dilambangkan akan mengungkapkan posisi subjek sehubungan dengan grup, dan akan memungkinkan kami untuk membuat perbandingan intra dan intersubjek. Ada dua jenis pengetikan:

  1. Linear, pertahankan bentuk distribusi dan jangan modifikasi ukuran korelasinya.
  2. Non-linear, mereka tidak mempertahankan distribusi atau ukuran korelasinya .

SKALA APTITUDE Dalam TRI, skala yang dibangun adalah skala yang sesuai dengan tingkat kebugaran; Skala ini dicirikan karena estimasi dan referensi dibuat langsung sehubungan dengan bakat dan skalanya. Selain itu kecakapan ini yang diperkirakan hanya tergantung pada bentuk kurva karakteristik item. Dalam skala yang memungkinkan, kami menunjukkan dua:

  1. Skala, diusulkan oleh Woodcock (1978) dan didefinisikan oleh rumus berikut:
  2. Skala WITS, diusulkan oleh Wright (1977), skala ini merupakan modifikasi dari yang sebelumnya dan diberikan oleh hubungan berikut:

Artikel ini murni informatif, dalam Psikologi Online kami tidak memiliki fakultas untuk membuat diagnosis atau merekomendasikan perawatan. Kami mengundang Anda untuk pergi ke psikolog untuk menangani kasus Anda secara khusus.

Jika Anda ingin membaca lebih banyak artikel yang mirip dengan Teori respons terhadap item - Aplikasi dan Uji, Kami menyarankan Anda untuk memasukkan kategori Psikologi Eksperimental kami.