·
Universitas Terbuka
Era
globalisasi saat ini menghendaki untuk bekerja lebih efektif dan efisien.
Tuntutan perubahan budaya ini juga dihadapi organisasi di bidang jasa
pendidikan, termasuk pendidikan tinggi jarak jauh (PTJJ). Universitas terbuka
berusaha mewujudkan visinya menjadi salah satu pusat unggulan dalam
penyelenggaraan, penelitian dan pengembangan, serta penyebaran informasi
tentang pendidikan tinggi jarak jauh.
PTJJ
menghendaki terlaksananya suatu bentuk belajar mandiri yang direncanakan dengan
baik dan diorganisasikan secara sistematik oleh institusi penyelenggaranya.
Dalam kuliahnya, mahasiswa dapat belajar dimana saja, kapan saja, mandiri atau
kelompok, dan menggunakan berbagai media yang disediakan atau difasilitasi
penyediannya oleh institusi.
Saifuddin
Azwar (2003: 9) menyatakan bahwa tes prestasi hasil belajar adalah tes yang
disusun secara terencana untuk mengungkap informasi subyek atas bahan-bahan
yang telah diajarkan. Menurut Anas Sudijono (2005: 73) tes prestasi hasil
belajar adalah tes yang digunakan untuk mengungkap tingkat pencapaian belajar.
-
Tes prestasi
Tes
prestasi adalah test kemampuan yang menilai kecakapan yang telah diperoleh dan
menyatakan apa yang dapat dilakukan oleh individu pada saat ini.
-
Klasifikasi Tes Prestasi
Menurut
Cangelosi (1995: 23) membedakan tes menjadi 2 buah yaitu tes baku dan tes
buatan guru. Sumadi Suryabrata (2005: 14) membuat penggolongan tes berdasarkan
atribut psikologis menjadi : (1) tes kepribadian, (2) tes intelegensi, (3) tes
potensi intelektual dan (4) tes hasil belajar. Cronbach (1970) sebagaimana
dikutip Saifuddin Azwar (2004: 5) membedakan tes menjadi dua kelompok besar
yaitu tes yang mengukur performansi maksimal.
Klasifikasi
tes dari Anas Sudijono (2005:68-75) yang mengklasifikasikan tes berdasarkan
perspektif tertentu. Jika tes digolongkan berdasarkan fungsi sebagai alat ukur
perkembangan, maka ada 6 jenis tes yaitu : tes seleksi, tes awal, tes akhir,
tes diagnostik, tes formatif dan tes sumatif. Berdasarkan aspek psikis yang
ingin dinilai, tes dibedakan menjadi tes intelegensi, tes kemampuan, tes sikap,
tes kepribadian dan tes hasil belajar. Berdasarkan banyaknya orang yang
mengikuti maka tes dibedakan menjadi tes individu dan tes kelompok.
Jika
digolongkan berdasarkan waktu yang disediakan, maka akan ada dua jenis tes
yaitu power test dan speed test. Ditinjau dari segi respon tes dapat dibedakan
menjadi dua bentuk yaitu tes verbal dan tes non verbal. Dan jika ditinjau dari
cara mengajukan pertanyaan, akan ada dua tes yaitu tes tertulis dan tes lisan.
Karakteristik tes yang
baik
-
Reliable,
nilai tes dapat diandalkan dan konsisten.
-
Valid,
menilai apa yang seharusnya dinilai.
-
Memiliki
prosedur yang seragam dalam member dan menilai tes.
Prinsip Dasar
Pengukuran tes prestasi
Prinsip-prinsip Pengukuran Prestasi
Belajar (Gronlund,1977)
-
Tes prestasi harus mengukur
hasil belajar yang telah dibatasi secara jelas sesuai dengan tujuan
instruksional.
-
Tes prestasi harus mengukur
suatu sampel yang representatif dari hasil belajar dan dari materi yang dicakup
oleh program instruksional atau pengajaran.
-
Tes prestasi harus
berisi aitem-aitem dengan tipe yang paling cocok guna mengukur hasil belajar yang
diinginkan.
-
Tes prestasi harus
dirancang sedemikian rupa agar sesuai dengan tujuan pengunaan hasilnya.
-
Reliabilitas tes
prestasi harus diusahakan setinggi mungkin & hasil ukurnya harus
ditafsirkan dengan hati-hati.
-
Tes prestasi harus dapat
digunakan untuk meningkatkan belajar para anak didik.
Dari
berbagai sistem penilaian di UT, yang sejak tahun 2006 sudah mulai dikembangkan
adalah sistem ujian berbasis komputer ( Computerized
Based Testing). CBT yang dikembangkan UT didasarkan pada rancangan
nonaditif linear fixed-form test, artinya tingkat kesukaran butir soal tes
tidak disesuaikan dengan kemampuan peserta tes, setiap peserta mengerjakan
sejumlah butir soal tertentu dengan jumlah butir soal adalah tetap.
Penyelenggaraan tes yang memberikan sejumlah butir soal yang sama pada setiap
peserta tes seperti pada sistem ujian akhir semester UT dengan CBT maupun PPT
kurang efisien, khususnya untuk peserta tes dengan kemampuan rendah dan tinggi
(Lord, 1980: 150; Hambleton, Swaminathan, & Rogers, 1991: 145). Hal ini
karena banyak butir soal yang tidak mampu memberikan informasi berguna dalam
membedakan peserta tes dalam rentang kemampuan tertentu.
Oleh karena itu,
untuk meningkatkan efisiensi dan akurasi dalam mengukur kemampuan peserta tes,
maka UT perlu menerapkan tes adaptif pada penyelenggaraan CBT. Adaptif memiliki
pengertian bahwa butir soal (tes) yang diberikan sesuai dengan tingkat kemampuan
setiap peserta tes atau tailored testing
(Lord, 1980 : 151). Penyelenggara tes adaptif berbasis computer ini popular
disebut dengan Computerized Adaptive
Testing (CAT).
CAT
didasarkan pada item response theory (IRT). Pada CAT computer memindahkan butir
soal ke dalam computer, menyeleksi dan memberikan butir soal, menskor jawaban
peserta, memilih butir soal baru untuk diberikan lagi kepada peserta, dan
menghentikan tes jika sejumlah butir tes tertentu telah diberikan atau presisi
pengukuran yang ditentukan telah tercapai.
CAT memiliki empat kelebihan yaitu :
-
Meningkatkan
efisiensi, dengan memberikan butir soal yang sesuai dengan kemampuan peserta
tes. Butir yang terlalu mudah atau terlalu susah dapat dihindari, sehingga
panjang tes dapat berkurang tanpa mengurangi tingkat presisi pengukuran
(Wainer, 1990:10 ; Hambleton, Swaminathan, & Rogers, 1991 : 146, Weis &
Schleisman, 1999 : 130).
-
Keamanan
tes lebih terjamin karena CAT mengambil soal dari bank soal yang sudah
terkalibrasi dan tersimpan secara elektronik.
-
Skor
CAT dapat segera diketahui oleh peserta tes, karena computer langsung menskor
dan mengestimasi kemampuan peserta setelah butir-butir soal dijawab.
-
Tampilan
format butir soal yang tidak dapat dilakukan pada Paper and Pencil Test (PPT)
dapat dilakukan di CAT (misalnya : Animasi dan suara)
Menurut
Green, et. al. (1984) dan Kingsbury & Zara (1898) pengembangan CAT
memerlukan evaluasi pada enam komponen yaitu :
-
Model
respon butir
-
Bank
soal
-
Pemilihan
butir soal awal
-
Metode
pengestimasian tingkat kemampuan
-
Prosedur
pemilihan butir soal
-
Aturan
pemberhentian
Perangkat
Tes CAT ini berformat pilihan ganda dengan empat pilihan jawaban, terdiri atas
50 butir soal tersebar dalam beberapa modul.
Pedoman utama dalam pembuatan butir soal bentuk pilihan ganda adalah:
1)
Pokok soal harus jelas
2)
Pilihan jawaban homogen dalam arti isi
3)
Panjang kalimat pilihan jawaban relatif sama
4)
Tidak ada petunjuk jawaban benar
5)
Hindari menggunakan pilihan jawaban: semua benar atau semua salah
6)
Pilihan jawaban angka diurutkan
7)
Semua pilihan jawaban logis
8)
Jangan menggunakan negatif ganda
9)
Kalimat yang digunakan sesuai dengan tingkat perkembangan peserta tes
10)
Bahasa Indonesia yang digunakan baku
11)
Letak pilihan jawaban benar ditentukan secara acak.
a. Keunggulan
- Komprehensif
- Pemeriksaan jawaban dan pemberian skor mudah
- Penggunaan lembar jawaban lebih efisien dan
hemat
- Kualitas aitem dapat dianalisis secara
empiric
- Objektivitas tinggi
- Umumnya mempunyai reliabilitas yang memuaskan
b. Kelemahan
- Menentukan kata kunci
- Pembuatan sulit dan memakan waktu dan tenaga.
- Aitem untuk mengungkapkan tingkat kompetensi
yang tinggi
- Jawaban dapat ditebak
Pada penelitian
ini model respons butir atau model IRT yang digunakan untuk membangun CAT
adalah model logistic 3 parameter ( Hambleton, Swaminathan, & Rogers, 1991:
17, Hambleton & Swaminathan, 1985: 49).
Tiga konsep IRT
yang digunakan dalam pengembangan CAT adalah (1) fungsi informasi, (2)
kesalahan buku pengukuan ( standard error
of measurement ), dan (3) pendugaan tingkat kemampuan (ability estimation). Nilai fungsi informasi butir menggambarkan
seberapa akurat suatu butir soal dapat mengestimasi tingkatan kemampuan peserta
tes. Dengan menggunakan fungsi informasi, ketepatan pengukuran pada pengestimasian
kemampuan peserta dapat dihitung pada setiap tingkat kemampuan. Fungsi
informasi butir dinyatakan oleh Birnbaum
( Hambleton, Swaminathan, & Rogers, 1991: 91).
Kesalahan buku
pengukuran ( standard error of
measurement, SEM ) berkaitan erat dengan fungsi informasi. Fungsi informasi
tes dengan SEM mempunyai hubungan yang berbanding terbalik kuadratik, semakin
besar fungsi informasi tes maka SEM semakin kescil atau sebaliknya ( Hambleton,
Swaminathan, & Rogers, 1991: 94).
Metode yang umum
untuk mengestimasi tingkat kemampuan peserta adalah metode Maximum Likelihood Estimation (MLE) (Baker, 1992). Tujuan MLE
adalah menemukan nilai yang memaksimumkan fungsi kemungkinan. Fungsi
kemumngkinan merupakan fungsi peluang dari pola respons pesrta terhadap butir.
Pada praktiknya, untuk mengestimasi tingkat kemampuan dengan MLE ini dilakukan
dengan menggunakan prosedur iterasi Newton-Raphson ( Hambleton, Swaminathan,
1985: 83).
Satu masalah
dengan penerapan metode MLE pada tes adaptif adalah ketidakmampuan fungsi
kemungkinan untuk menemukan solusi maksimum ketika peserta tes menjawab semua
butir soal dengan benar atau salah. Untuk mengatasi masalah ketidakmampuan
metode MLE dalam mengestimasi kemampuan peserta manakala respons peserta tes
belum berpola pada penelitian ini digunakan metode step size (Dodd, 1990; Weiss, 2004).
Proses adaptif
testing dimulai dengan memilih butir soal atau kelompok butir soal pertama dari
bank soal, selanjutnya butir soal diberikan kepada peserta tes. Setelah peserta
merespon (benar atau salah), tingkat kemampuan peserta diperbarui atau
diestimasi kembali. Kemudian butir soal berikutnya dipilih berdasarkan estimasi
tingkat kemampuan terbaru. Begitu seterusnya setelah butir soal yang diberikan
sebanyak yang ditentukan atau setelah presisi estimasi tingkat kemampuan atau
tingkat kesalahan baku pengukuran yang diinginkan telah dicapai.
Pengujian Algoritma CAT
Tes dimulai
dengan memilih butir soal awal dengan tingkat kesukaran sedang. Berikutnya
respons terhadap butir diskor. Kemudian diestimasi (sementara) tingkat
kemampuan peserta dengan menggunakan Maksimum Likelihood Estimation.
Selanjutnya, dicari nilai fungsi informasi butir pada tingkat kemampuan peserta
yang telah diperoleh dan dihitung pula estimasi kesalahan baku pengukurannya.
Kemudian dipilih lagi butir yang memiliki nilai fungsi informasi tertinggi atau
yang mengurangi kesalahan pengukuran tersbesar. Begitu seterusnya sampai tes
dihentikan jika criteria pemberhentian terpenuhi.
Terkait dengan
aturan pemberhentian tes yang digunakan maka pada penelitian ini dikembangkan
dua desainalgoritma CAT, yaitu : algoritma CAT murni dan algoritma CAT yang
dikendala modul (modul-Constrained CAT, CCAT). Pada algoritma CAT murni tes
dihentikan jika kesalahan buku pengukuran telah mencapai 0,30 atau setara
dengan tingkat reliabilitas sebesar 91% pada pengukuran menggunakan teori
klasik (Thissen, 1990). Sedangkan pada algoritma CCAT tes dihentikan jika telah
mencapai sejumlah butir tertentu.