VALIDITAS INSTRUMEN TES
Lebih dari 9000 kali saya gagal memasukkan bola sepanjang karir saya. Hampir di 30 pertandingan saya mengalami kekalahan. Dalam 26 kesempatan saya telah dipercaya untuk memasukkan bola guna memastikan kemenangan, tetapi saya gagal. Saya berulang kali mengalami kegagalan dalam kehidupan. Tetapi justru itulah sebabnya mengapa saya menjadi orang yang berhasil.
Michael Jordan
Pembahasan Materi
Bab ini membahas tentang pengertian validitas, macam-macam validitas, pengujian validitas tes hasil belajar, pengujian validitas tes secara rasional, validitas konstruk, validitas isi, pengujian validitas tes secara empirik, validitas ramalan, validitas bandingan, validitas soal, dan perhitungan pengujian validitas butir soal hasil pengukuran.
- Pendahuluan
Dua prinsip dasar permasalahan dalam penilaian adalah menentukan apakah sebuah tes telah mengukur apa yang hendak diukur dan apakah sebuah tes telah tepat digunakan untuk membuat suatu keputusan tentang pengambil tes. Mungkin saja para pengembang tes berpendapat bahwa tes matematika misalnya dapat memperkirakan kemampuan seseorang dalam fisika.Validitas atau kesahihan berasal dari kata validity yang berarti sejauh mana ketetapan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Dengan kata lain, validitas adalah suatu konsep yang berkaitan dengan sejauhmana tes telah mengukur apa yang seharusnya diukur.
Validitas sebuah tes selalu dibedakan menjadi dua macam yaitu validitas logis dan validitas empiris. Validitas logis sama dengan analisis kualitatif terhadap sebuah soal, yaitu untuk menentukan berfungsi tidaknya suatu soal berdasarkan kriteria yang telah ditentukan, yang dalam hal ini adalah kriteria materi, konstruksi, dan bahasa. Suatu tes atau instrumen pengukuran dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Artinya hasil ukur dari pengukuran tersebut merupakan besaran yang mencerminkan secara tepat fakta atau keadaan sesungguhnya dari apa yang diukur.
Dengan demikian, maka tes yang valid untuk tujuan tertentu adalah tes yang mampu mengukur apa yang hendak diukur. Suatu tes yang valid untuk tujuan tertentu atau pengembalian keputusan tertentu, mungkin tidak valid untuk tujuan atau pengambilan keputusan lain. Jadi validitas suatu tes harus selalu dikaitkan dengan tujuan atau pengambilan keputusan tertentu (Djaali, 2004). Tes masuk misalnya harus selalu dikaitkan dengan seberapa jauh tes masuk tersebut dapat mencerminkan prestasi belajar para calon siswa baru setelah belajar nanti. Validitas tes perlu ditentukan untuk mengetahui kualitas tes dalam kaitannya dengan mengukur hal yang seharusnya diukur. Konsep validitas instrument atau tes dapat dibedakan atas tiga macam yaitu: (a) validitas isi (content validity); (b) validitas konstruk (construct validity); dan (c) validitas empiris atau validitas kriteria.
Menurut Gregory (2000) validitas isi menunjukkan sejauhmana pertanyaan, tugas atau butir dalam suatu tes atau instrument mampu mewakili secara keseluruhan dan proporsional keseluruhan perilaku sampel yang menjadi tujuan pembelajaran yang akan diukur pencapaiannya. Artinya tes mencerminkan keseluruhan konten atau materi yang diujikan atau yang seharusnya dikuasai secara proporsional. Untuk mengetahui apakah tes itu valid atau tidak, harus dilakukan melalui penelaahan kisi-kisi tes untuk memastikan bahwa soal-soal tes itu sudah mewakili atau mencerminkan keseluruhan konten atau materi yang seharusnya dikuasai secara proporsional. Oleh karena itu, validitas isi suatu tes tidak mempunyai besaran tertentu yang dihitung secara statistika, tetapi dipahami bahwa tes itu sudah valid berdasarkan telaah kisi-kisi tes.
Oleh karena itu, Wiersma dan Jurs (1990) menyatakan bahwa validitas isi sebenarnya mendasarkan pada analisis logika, jadi tidak merupakan suatu koefisien validitas yang dihitung secara statistika. Validitas konstruk mengandung arti bahwa suatu alat ukur dikatakan valid apabila telah cocok dengan konstruksi teoritik dimana tes tersebut dibuat. Sebuah tes memiliki validitas konstruksi apabila soal-soalnya mengukur aspek berpikir. Validitas konstruk biasa digunakan untuk instrumen-instrumen yang dimaksudkan mengukur variabel-variabel konsep, baik yang sifatnya performansi tipikal seperti instrument untuk mengukur sikap, minat, konsep diri, lokus kontrol, gaya kepemimpinan, motivasi berprestasi, dan lain-lain, maupun yang sifatnya performansi maksimum seperti inatrumen untuk mengukur bakat (tes bakat), inteligensi (kecerdasan intelektual), kecerdasan emosional dan lain-lain.
Validitas empiris atau validitas kriteria suatu instrument atau tes ditentukan berdasarkan data hasil ukur instrument yang bersangkutan, baik melalui uji coba maupun melalui tes atau pengukuran yang sesungguhnya. Validitas empiris atau validitas kriteria diartikan sebagai validitas yang ditentukan berdasarkan kriteria, baik kriteria internal maupun kriteria eksternal. Kriteria internal adalah tes atau instrument itu sendiri yang menjadi kriteria, sedangkan kriteria eksternal adalah hasil ukur instrument atau tes lain di luar instrument itu yang menjadi kriteria. Ukuran lain yang sudah dianggap baku atau dapat dipercaya dapat pula dijadikan sebagai kriteria eksternal. Pada tahun 1940-an dan tahun 1950 para ahli pengukuran pendidikan telah melakukan berbagai macam pengkajian terhadap bagaimana menentukan dan menilai validitas. Tahun 1954 The American Psychological Association (APA) melalui Technical Recommendation for Psychological Test and Diagnostic Techniques mengusulkan empat pendekatan yang sering dinamakan empat muka validitas yang digunakan untuk menentukan validitas (Surapranata, 2004) yaitu: (a) validitas isi (content validity); (b) validitas konstruk (construct valdidity); (c) validitas konkuren (concurrent valdity); dan (d) validitas prediktif (predictive validity).
- Teknik Pengujian Validitas Tes
Penganalisisan terhadap tes hasil belajar sebagai suatu totalitas dapat dilakukan dengan dua cara. Pertama, penganalisisan yang dilakukan dengan jalan berpikir secara rasional atau penganalisisan dengan menggunakan logika (logical analysis). Kedua, penganalisisan yang dilakukan dengan mendasarkan diri kepada kenyataan empiris, di mana penganalisisan dilaksanakan dengan menggunakan empirical analysis.
- Pengujian Validitas Tes Secara Rasional
Tes hasil belajar yang telah dilakukan penganalisisan secara rasional ternyata memiliki daya ketepatan mengukur, disebut tes hasil belajar yang telah memiliki validitas logika (logical validity). Istilah lain untuk validitas logika adalah: validitas rasional, validitas ideal, atau validitas das sollen. Validitas rasional adalah validitas yang diperoleh atas dasar hasil pemikiran, validitas yang diperoleh dengan berpikir secara logis (Wahidmurni, 2010). Dengan demikian maka suatu tes hasil belajar dapat dikatakan telah memiliki validitas rasional, apabila setelah dilakukan penganalisisan secara rasional ternyata bahwa tes hasil belajar itu memang (secara rasional) dengan tepat telah dapat mengukur apa yang seharusnya diukur. Untuk dapat menentukan apakah tes hasil belajar sudah memiliki validitas rasional ataukah belum, dapat dilakukan penelusuran dari dua segi, yaitu dari segi isinya content dan dari segi susunan atau konstruksinya (construct).
- Validitas Isi (Content Validity)
Validitas isi dari suatu tes hasil belajar adalah validitas yang diperoleh setelah dilakukan penganalisisan, penelusuran atau pengujian terhadap isi yang terkandung dalam tes hasil belajar tersebut. Validitas isi adalah validitas yang dilihat dari segi isi tes itu sendiri sebagai alat pengukur hasil belajar yaitu: sejauh mana tes hasil belajar sebagai alat pengukur hasil belajar peserta didik, isinya telah dapat mewakili secara representatif terhadap keseluruhan materi atau bahan pelajaran yang seharusnya diteskan. Menurut Sekaran (2006: 43) validitas isi (content validity) memastikan bahwa pengukuran memasukkan sekumpulan butir yang memadahi dan mewakili yang mengungkap konsep.
Dengan demikian menurut Guion (1988), validitas isi sangat bergantung kepada dua hal yaitu tes itu sendiri dan proses yang mempengaruhi dalam merespon tes. Misalnya tes tertulis yang dipersiapkan untuk pekerjaan mungkin tidak menyajikan pengukuran yang valid untuk kemampuan pegawai melakukan pekerjaan, sekalipun mungkin saja tes itu sudah merupakan alat yang valid untuk mengukur pengetahuan tentang apa yang harus dikerjakan. Salah satu cara untuk memperoleh validitas isi adalah dengan melihat soal-soal yang membentuk tes itu. Jika keseluruhan soal nampak mengukur apa yang seharusnya tes itu digunakan, tidak diragukan lagi bahwa validitas isi sudah terpenuhi.
Jadi, pembicaraan tentang validitas isi sebenarnya identik dengan pembicaraan tentang populasi dan sampel. Kalau saja keseluruhan materi pelajaran yang telah diberikan kepada peserta didik atau sudah diperintahkan untuk dipelajari oleh peserta didik kita anggap sebagai populasi, dan isi tes hasil belajar dalam mata pelajaran yang sama kita anggap sebagai sampelnya, maka tes hasil belajar dalam mata pelajaran tersebut dapat dikatakan telah memiliki validitas isi, apabila isi ter tersebut (sebagai sampel), dapat menjadi wakil yang representatif (layak = memadai) bagi seluruh materi pelajaran yang telah diajarkan atau telah diperintahkan untuk dipelajari (sebagai populasi).
Oleh karena materi yang diajarkan itu pada umumnya tertuang dalam Garis-garis Besar Program Pengajaran (GBPP) yang merupakan penjabaran dari kurikulum yang telah ditentukan, maka validitas isi yang sedang kita bicarakan ini juga sering disebut validitas kurikulum. Dalam praktek, validitas isi dari suatu tes hasil belajar dapat diketahui dengan jalan membandingkan antara isi yang terkandung dalam tes hasil belajar, dengan tujuan instruksional khusus yang telah ditentukan untuk masing-masing mata pelajaran, apakah hal-hal yang tercantum dalam tujuan instruksional khusus sudah terwakili secara nyata dalam tes hasil belajar tersebut ataukah belum. Jika penganalisisan secara rasional itu menunjukkan hasil yang membenarkan tentang telah tercerminnya tujuan instruksional khusus itu dalam tes hasil belajar, maka tes hasil belajar yang sedang diuji validitas isinya itu dapat dinyatakan sebagai tes hasil belajar yang telah mewakili validitas isi.
Upaya lain yang dapat ditempuh dalam rangka mengetahui validitas isi dari tes hasil belajar adalah dengan jalan menyelenggarakan diskusi panel. Dalam forum diskusi tersebut, para pakar yang dipandang memiliki keahlian yang ada hubungannya dengan mata pelajaran yang diujikan, diminta pendapat dan rekomendasinya terhadap isi atau materi yang terkandung dalam tes hasil belajar yang bersangkutan. Hasil-hasil diskusi itu selanjutnya dijadikan pedoman atau bahan acuan untuk memperbaiki dan menyempurnakan isi atau materi tes hasil belajar tersebut. Jadi kegiatan menganalisis validitas isi dapat dilakukan baik sesudah maupun sebelum tes hasil belajar dilaksanakan.
- Validitas Konstruk (Construct Validity)
Konstruk adalah sesuatu yang berhubungan dengan fenomena dan objek yang abstrak, tetapi gejalanya dapat diamati dan diukur. Gravitasi misalnya dapat dijadikan sebagai contoh bagaimana memahami konstruk. Ketika buah apel jatuh ke tanah, konstruk tentang gravitasi dapat digunakan untuk menjelaskan dan memperkirakan perilaku (jatuhnya buah apel) yang diamati (Surapranata, 2004). Namun demikian, kita tidak dapat melihat yang dimaksud dengan konstruk gravitasi itu sendiri. Hal yang dapat kita lihat hanyalah apel itu jatuh. Kita dapat mengukur gravitasi dan mengembangkan teori tentang gravitasi.
Menurut Sopiah dan Sangaji (2010: 161) validitas bangun pengertian (construct validity) menunjuk kepada seberapa jauh suatu tes mengukur sifat atau bangunan pengertian (construct) tertentu dan validitas ini penting bagi tes-tes yang digunakan untuk menilai kemampuan dan sifat-sifat kejiwaan seseorang. Pendekatan bangunan pengertian terhadap validitas bertujuan menetapkan bangunan pengertian psikologis apa yang diukur oleh suatu tes dan seberapa jauh bangunan pengertian dapat diukur. Ada dua macam validitas sesuai dengan cara pengujiannya, yaitu validitas internal dan validitas eksternal. Pengujian sebuah instrumen dalam validitas internal dilakukan dengan dua cara, yaitu: 1) melakukan analisis faktor. Analisis faktor dilakukan apabila antara faktor yang satu dengan yang lain terdapat kesamaan, kesinambungan, atau tumpang tindih. Analisis faktor dilakukan dengan cara mengkorelasikan skor faktor dengan skor total; dan 2) melakukan analisis butir. Untuk menguji validitas setiap butir, maka skor-skor yang ada pada butir yang dimaksud dikorelasikan dengan skor total.
Adapun secara terminologis, suatu tes hasil belajar dapat dinyatakan sebagai tes yang telah memiliki validitas konstruksi, apabila tes hasil belajar tersebut ditinjau dari segi susunan, kerangka atau rekaannya telah dapat dengan secara tepat mencerminkan suatu konstruksi dalam teori psikologis. Tentang istilah “konstruksi dalam teori spkologis” ini perlu dijelaskan, bahwa para ahli di bidang psikologis mengemukakan teori yang menyatakan bahwa jiwa dari seorang peserta didik itu dapat “dirinci” ke dalam beberapa aspek atau ranah tertentu. Benjamin S. Bloom misalnya merincinya dalam tiga aspek kejiwaan yaitu aspek kognitif (cognitive domain) aspek afektif (affective domain) dan aspek psikomotorik (psychomotoric domain).
Yang harus selalu diingat di sini ialah, bahwa dengan istilah validitas susunan bukanlah dimaksudkan bahwa tes yang bersangkutan dipandang sudah baik susunan kalimat soalnya, atau urut-urutan nomor butir soalnya sudah runtut, melainkan bahwa tes hasil belajar baru dapat dikatakan telah memiliki validitas susunan apabila butir-butir soal atau item yang membangun tes tersebut benar-benar telah dapat dengan secara tepat mengukur aspek-aspek berpikir (seperti: aspek kognitif, aspek afektif, aspek psikomotorik dan sebagainya) sebagaimana telah ditentukan dalam tujuan instruksional khusus.
Validitas konstruksi dari suatu tes hasil belajar dapat dilakukan penganalisisannya dengan jalan melakukan pencocokan antara aspek-aspek berpikir yang terkandung dalam tes hasil belajar tersebut, dengan aspek-aspek berpikir yang dikehendaki untuk diungkap oleh tujuan instruksional khusus. Dengan demikian seperti halnya pada penganalisisan validitas isi kegiatan menganalisis validitas konstruksi ini dilakukan secara rasional, dengan berpkiri kritis atau menggunakan logika. Jika secara logis atau secara rasional hasil penganalisisan itu menunjukkan bahwa aspek-aspek berpikir yang diungkap melalui butir-butir soal tes hasil belajar itu sudah dengan secara tepat mencerminkan aspek-aspek berpikir yang oleh tujuan instruksional khusus diperintahkan untuk diungkap, maka tes hasil belajar tersebut dapat dinyatakan sebagai tes hasil belajar yang valid dari segi susunannya atau telah memiliki validitas konstruksi.
Validitas konstruk mencakup syarat-syarat empiris dan logis dari validitas isi dan validitas kriteria. Ini berarti bahwa validitas konstruk menggabungkan syarat-syarat yang terdapat dalam validitas isi dan validitas relasi kriteria (Anastasi, 1997). Validitas konstruk kadang-kadang disebut juga sebagai validitas faktorial. Konsep validitas faktorial tersebut telah diperkenalkan oleh Guilford sejak tahun 1946, bahwa validitas faktorial adalah kebermaknaan muatan faktor dari suatu instrumen tes (Nunnally, 1978). Validitas konsep (construct validity) menunjukkan seberapa baik hasil yang diperoleh dari penggunaan ukuran cocok dengan teori yang mendasari desain tes.
Menurut Sekaran (2006) validitas konsep dinilai melalui validitas konvergen (convergent validity) dan validitas diskriminan (discriminant validity). Validitas konvergen terpenuhi jika sekor yang diperoleh dengan dua instrumen berbeda yang mengukur konsep yang sama menunjukkan korelasi tinggi. Validitas diskriminan terpenuhi jika, berdasarkan teori, dua variabel diprediksi tidak berkorelasi, dan skor yang diperoleh dengan mengukurnya benar-benar secara empiris membuktikan hal tersebut. Dengan demikian, validitas bisa dihasilkan dengan berbagai cara. Ukuran yang dipublikasikan untuk berbagai konsep biasanya melaporkan jenis validitas yang telah dihasilkan untuk instrumen, sehingga pengguna atau pembaca dapat menilai ketepatan pengukuran.
Selanjutnya Ahiri (2002) menyatakan bahwa validitas konstruk menghubungkan gagasan dan praktik pengukuran di satu pihak, dengan gagasan teoritik di pihak lain. Para peneliti biasanya bertolak dengan bekal suatu konstruk, kemudian mengembangkan instrumen untuk mengukur konstruk tersebut. Selanjutnya, butir-butir instrumen yang telah dikembangkan diujicobakan secara empiris, dan kemudian digunakan analisis faktor untuk menguji validitas konstruknya.
- Pengujian Validitas Tes Secara Empirik
Menurut Djaali dan Muljono (2004), validitas empiris atau validitas kriteria suatu tes atau instrumen ditentukan berdasarkan data hasil ukur instrumen yang bersangkutan, baik melalui uji coba maupun melalui tes atau pengukuran yang sesungguhnya. Validitas empiris diartikan sebagai validitas yang ditentukan berdasarkan kriteria, baik kriteria internal maupun kriteria eksternal. Kriteria internal adalah tes itu sendiri yang menjadi kriteria, sedangkan kriteria eksternal adalah hasil ukur tes lain di luar tes itu yang menjadi kriteria. Dengan kata lain, validitas empirik adalah validitas yang bersumber pada atau diperoleh atas dasar pengamatan di lapangan.
Bertitik tolak dari itu, maka tes hasil belajar dapat dikatakan telah memiliki validitas empirik apabila berdasarkan hasil analisis yang dilakukan terhadap data hasil pengamatan di lapangan, terbukti bahwa tes hasil belajar itu dengan secara tepat telah dapat mengukur hasil belajar yang seharusnya diungkap atau diukur lewat tes hasil belajar tersebut. Untuk dapat menentukan apakah tes hasil belajar sudah memiliki validitas empirik ataukah belum, dapat dilakukan penelusuran dari dua segi, yaitu dari segi daya ketepatan meramalnya (predictive validity) dan daya ketepatan bandingannya (concurrent validity).
- Validitas Ramalan (Predictive Validity)
Setiap kali peneliti menyebutkan istilah ramalan, maka di dalamnya akan terkandung pengertian mengenai sesuatu yang bakal terjadi di masa mendatang atau sesuatu yang pada saat sekarang ini belum terjadi, dan baru akan terjadi pada waktu-waktu yang akan datang. Apabila istilah ramalan itu dikaitkan dengan validitas tes, maka yang dimaksud dengan validitas ramalan dari suatu tes adalah suatu kondisi yang menunjukkan seberapa jauhkan sebuah tes telah dapat dengan secara tepat menunjukkan kemampuannya untuk meramalkan apa yang akan terjadi pada masa mendatang.
Tes seleksi penerimaan calon mahasiswa baru pada sebuah perguruan tinggi misalnya, adalah suatu tes yang diharapkan mampu meramalkan keberhasilan studi para calon mahasiswa dalam mengikuti program pendidikan di perguruan tinggi tersebut pada masa-masa yang akan datang. Berdasarkan nilai-nilai hasil tes seleksi yang tinggi (baik) yang berhasil diraih oleh para peserta tes seleksi tersebut, maka mereka dinyatakan lulus dan dapat diterima sebagai mahasiswa pada perguruan tinggi tadi; sedangkan para peserta tes seleksi yang nilai-nilai hasil tesnya rendah (jelek), dinyatakan tidak lulus dan karenanya tidak dapat diterima sebagai calon mahasiswa baru di perguruan tinggi yang bersangkutan.
Kalau saja kita mau menyimak keputusan yang telah diambil oleh Panitia Pelaksanaan Tes Seleksi Penerimaan Calon Mahasiswa Baru untuk meluluskan para peserta tes yang memiliki nilai-nilai yang tinggi atau baik itu, maka dalam keputusan itu sebenarnya telah terkandung adanya ramalan atau prediksi; yaitu bahwa mereka yang dinyatakan lulus dalam tes seleksi itu, diramalkan kelak akan menjadi mahasiswa yang sukses dalam mengikuti program pendidikan di perguruan tinggi tersebut. Begitu pula halnya dengan keputusan yang telah diambil oleh panitia untuk menyatakan tidak lulus bagi para peserta tes seleksi yang nilai-nilai hasil tes seleksinya rendah, sebenarnya di dalam keputusan itu juga telah terkandung adanya ramalan, bahwa dengan nilai-nilai hasil tes seleksi yang rendah itu, adalah tidak mungkin mereka akan memperoleh prestasi puncak dalam mengikuti program pendidikan di perguruan tinggi tadi, atau akan mengalami kendala dalam studi.
Yang menjadi pokok permasalahan sekarang ialah, bagaimana cara yang dapat ditempuh agar kita dapat sampai pada kesimpulan bahwa suatu tes telah memiliki validitas ramalan? Apabila kita perhatikan contoh yang telah dikemukakan di atas, di mana para peserta tes seleksi dengan nilai-nilai yang baik diramalkan kelak akan menjadi mahasiswa yang memiliki prestasi belajar yang baik pula, maka dalam pernyataan tersebut terkandung pengertian, bahwa validitas ramalan itu ditandai dengan adanya kesejajaran, kesesuaian, atau kesamaan arah antara nilai-nilai hasil tes seleksi yang diperoleh pada masa kini dengan nilai-nilai hasil belajar mereka kelak (setelah mereka diterima menjadi mahasiswa).
Apabila tes seleksi yang telah dikemukakan di atas adalah merupakan tes yang sedang dipersoalkan validitas ramalannya, sedang nilai-nilai hasil belajar para mahasiswa di perguruan tinggi itu ditetapkan sebagai kriterium, tolak ukur, atau alat pembandingnya, maka dengan kenyataan-kenyataan seperti telah dikemukakan di atas, ternyata terdapat kesesuaian atau kesejajaran arah antara tes yang sedang diselidiki atau diuji validitasnya, dengan kriteriumnya. Dengan kata lain terdapat hubungan searah yang sangat erat antara tes yang sedang diuji validitasnya dengan kriterium yang telah ditentukan. Karena nilai-nilai hasil tes selesi itu berjalan searah atau sejajar dengan nilai-nilai hasil bejalar di perguruan tinggi, maka hubungan di antara kedua variabel tersebut adalah termasuk dalam kategori hubungan searah, yang dalam ilmu statistik dikenal dengan istilah korelasi positif.
Berdasarkan pada uraian di atas dapatlah dipahami, bahwa untuk mengetahui apakah sesuatu tes hasil belajar dapat dinyatakan sebagai tes yang telah memiliki validitas ramalan ataukah belum, dapat ditempuh dengan cara: mencari korelasi antara hasil belajar yang sedang diuji validitas ramalannya dengan kriterium yang ada. Jika di antara kedua variabel tersebut terdapat korelasi positif yang signifikan, maka hasil belajar yang sedang diuji validitas ramalannya itu, dapat dinyatakan sebagai tes hasil belajar yang telah memiliki daya ramal yang tepat, artinya: apa yang telah diramalkan, betul-betul telah terjadi secara nyata dalam praktik (Sudijono, 2003).
- Validitas Bandingan (Concurrent Validity)
Tes sebagai alat pengukur dapat dikatakan telah memiliki validitas bandingan apabila tes tersebut dalam kurun waktu yang sama dengan secara tepat telah mampu menunjukkan adanya hubungan yang searah, antara tes pertama dengan tes berikutnya. Validitas bandingan juga sering dikenal dengan istilah: validitas sama saat, validitas pengalaman atau validitas ada sekarang. Dikatakan sama saat, sebab validitas tes itu ditentukan atas dasar data hasil tes yang pelaksanaannya dilakukan pada kurun waktu yang sama (= jangka pendek). Dikatakan validitas pengalaman, sebab validitas tes tersebut ditentukan atas dasar pengalaman yang telah diperoleh. Adapun dikatakan sebagai validitas ada sekarang, sebab setiap kali kita menyebut istilah pengalaman, maka istilah itu akan selalu kita kaitkan dengan hal-hal yang telah ada atau hal-hal yang telah terjadi pada waktu yang lalau, sehingga data mengenai pengalaman masa lalu itu pada saat sekarang ini sudah ada di tangan.
Dalam rangka menguji validitas bandingan, data yang mencerminkan pengalaman yang diperoleh pada masa lalu itu, kita bandingkan dengan data hasil tes yang diperoleh sekarang ini. Jika hasil tes yang ada sekarang ini mempunyai hubungan searah dengan hasil tes berdasarkan pengalaman yang lalu, maka tes yang memiliki karakteristik seperti itu dapat dikatakan telah memiliki validitas bandingan (Sudijono, 2003). Hasil dari setiap penelitian hanya dapat sebaik pengukuran yang mengungkap konsep dalam kerangka teoretis.
Apabila pernyataan di atas kita kaitkan dengan uraian tentang validitas ramalan (predictive validity), maka dapat dipahami bahwa baik validitas ramalan maupun validitas bandingan, kedua-duanya merupakan validitas yang ditinjau dalam hubungannya dengan alat pengukur lain yang dipandang sebagai kriterium, sebagai pegangan atau patokan dalam menentukan tinggi rendahnya validitas alat pengukur yang sedang diteliti. Jika kriterium yang dihubungkan itu terdapat pada waktu yang akan datang, maka validitasnya disebut validitas ramalan. Sebaliknya, apabila kriterium itu terdapat atau tersedia pada saat sekarang atau pada kurun waktu yang bersamaan dengan alat pengukur yang sedang diuji validitasnya, maka validitas seperti itu disebut validitas bandingan.
- Teknik Pengujian Validitas Tes
- Validitas Tes
Apabila kita mau memperhatikan secara cermat, maka tes-tes hasil belajar yang dibuat atau disusun oleh para pengajar, baik guru, dosen staf pengajar lainnya, sebenarnya adalah merupakan kumpulan dari sekian banyak butir-butir tes, dengan butir mana para penyusun tes ingin mengukur atau mengungkapkan hasil belajar yang telah dicapai oleh masing-masing individu peserta didik, setelah mereka mengikuti proses pembelajaran dalam jangka waktu tertentu. Pernyataan itu mengandung makna, bahwa sebenarnya setiap butir item yang ada dalam tes hasil belajar itu, adalah merupakan bagian tidak terpisahkan dari tes hasil belajar tersebut sebagai suatu totalitas (Surapranata, 2004).
Eratnya hubungan antara butir item dengan tes hasil belajar sebagai suatu totalitas itu kiranya dapat dipahami dari kenyataan, bahwa semakin banyak butir-butir item yang dapat dijawab dengan betul oleh testee, maka skor-skor total hasil tes tersebut akan semakin tinggi. Sebaliknya, semakin sedikit butir-butir item yang dapat dijawab dengan betul oleh testee, maka skor-skor total hasil tes itu akan semakin rendah atau semakin menurun.
Pernyataan tersebut merupakan petunjuk bahwa semakin besar “dukungan” yang diberikan oleh butir-butir item (sebagai bagian tak terpisahkan dari tes), terhadap tes hasil belajar (sebagai suatu totalitas), maka tes tersebut akan semakin dapat menunjukkan “kemantapannya”. Sebaliknya, semakin kecil “dukungan” yang diberikan oleh masing-masing butir item terhadap tes sebagai suatu totalitas, makates menjadi semakin “kurang mantap”. Apabila pernyataan tersebut kita kaitkan dengan validitas item yang sedang kita bicarakan ini, maka dapat dipahami bahwa sebenarnya validitas tes itu akan sangat dipengaruhi oleh, atau sangat tergantung pada validitas yang dimiliki oleh masing-masing butir item yang membangun tes tersebut. Makna yang terkandung dalam pernyataan itu lebih lanjut adalah, bahwa validitas dari masing-masing butir item yang membangun tes itu, akan dapat diketahui dengan jalan melihat besar kecilnya dukungan yang diberikan oleh masing-masing butir item yang bersangkutan terhadap tes sebagai keseluruhan (Sudijono, 2006).
Persoalan tentang validitas item itu kiranya tidak terlalu mendesak untuk ditangani, kalau saja berdasarkan uji validitas ternyata bahwa tes hasil belajar yang dibuat oleh guru, dosen atau staf pengajar lainnya ternyata telah memiliki validitas tes yang tinggi, sehingga tes hasil belajar itu sebagai totalitas sudah dapat dikatakan handal dan tidak perlu diragukan ketepatan mengukurnya. Namun persoalan akan segera muncul, jika setelah dilakukan uji validitas tes terhadap tes yang dijadikan alat pengukur itu ternyata menghasilkan kesimpulan bahwa tes hasil belajar itu validitasnya sangat rendah, sehingga dapat dimasukkan dalam kategori tes hasil belajar yang invalid.
Tujuan validitas item tes adalah untuk menentukan dapat tidaknya suatu soal tersebut membedakan kelompok dalam aspek yang diukur sesuai dengan perbedaan yang ada dalam kelompok itu. Validitas soal adalah indeks diskriminasi dalam membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang berkemampuan rendah. Validitas soal adalah indeks diskriminasi soal-soal yang ditetapkan dari selisih proporsi yang menjawab dari masing-masing kelompok (Surapranata, 2004). Indeks ini menunjukkan kesesuaian antara fungsi soal dengan fungsi tes secara keseluruhan. Dengan demikian validitas soal ini sama dengan daya pembeda soal yaitu daya dalam membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang berkemampuan rendah.
- Teknik Pengujian Validitas Item Tes
Dari uraian yang telah dikemukakan di atas, kiranya menjadi cukup jelas bahwa sebutir item dapat dikatakan telah memiliki validitas yang tinggi atau dapat dinyatakan valid, jika skor-skor pada butir item yang bersangkutan memiliki kesesuaian atau kesejajaran arah dengan skor totalnya; atau dengan bahasa statistik: Ada korelasi positif yang signifikan antara skor item dengan skor totalnya. Skor total di sini berkedudukan sebagai variabel terkat (dependent variable), sedangkan skor item berkedudukan sebagai variabel bebasnya (independent variable). Kalau demikian, maka untuk sampai pada kesimpulan bahwa item-item yang ingin diketahui validitasnya, yaitu valid ataukah tidak, kita dapat menggunakan teknik korelasi sebagai teknik analisisnya. Sebutir item dapat dinyatakan valid, apabila skor item yang bersangkutan terbukti mempunyai korelasi positif yang signifikan dengan skor totalnya.
Angka yang menunjukkan besarnya validitas soal disebut indeks validitas soal yang besarnya berkisar antara -1 sampai dengan +1. Tanda negatif menunjukkan bahwa peserta tes yang kemampuannya rendah dapat menjawab benar sedangkan peserta tes yang memiliki kemampuan tinggi menjawab salah. Dengan demikian soal yang validitasnya negatif menunjukkan terbaliknya kualitas peserta tes. Setiap soal dapat dipandang sebagai bagian yang terpisah dari sebuah tes. Sebuah soal mungkin dapat membedakan kelompok peserta tes secara baik. Sebuah soal mungkin juga tidak dapat membedakan kelompok peserta tes (misalnya soal dengan p = 0 atau p = 1). Sebuah soal juga membedakan kelompok secara terbalik, yaitu peserta tes yang tidak mampu dapat menjawab soal dengan benar sedangkan peserta tes yang mampu menjawab salah. Salah satu tujuan analisis soal adalah untuk mencari soal-soal yang dapat mengukur kemampuan secara tepat.
Persoalan berikutnya ialah, memilih dan menentukan jenis teknik korelasi yang dipandang tepat untuk digunakan dalam rangka uji validitas item itu. Seperti diketahui, pada tes obyektif maka hanya ada dua kemungkinan jawaban, yaitu betul dan salah. Setiap butir soal yang dijawab dengan betul umumnya diberi skor 1 (satu), sedangkan untuk setiap jawaban salah diberikan skor 0 (nol). Jenis data seperti ini, yaitu: betul – salah, ya – tidak atau sejenis dengan itu, dalam dunia ilmu statistik dikenal dengan nama data diskret murni atau data dikotomik. Sedangkan skor total yang dimiliki oleh masing-masing individu testee adalah merupakan hasil penjumlahan dari setiap skor yang dimiliki oleh masing-masing butir item (misalnya: 0+1+1+0+1+0+1+1+0+0+1=6) itu adalah merupakan data kontinu. Menurut teori yang ada, apabila variabel I berupa data diskret murni atau data dikotomik, sedangkan variabel II berupa data kontinu, maka teknik korelasi yang tepat untuk digunakan dalam mencari korelasi antara variabel I dengan variabel II itu adalah teknik korelasi point biserial, di mana angka indeks korelasi yang diberi lambang rpbi dapat diperoleh dengan menggunakan rumus:
rpbi=Mp–MtSDt p q
Di mana:
rpbi | = | Koefisien korelasi point biserial yang melambangkan kekuatan korelasi antara variabel I dengan variabel II, yang dalam hal ini dianggap sebagai Koefisien Validitas Item. |
Mp | = | Skor rata-rata hitung dimiliki oleh testee, yang untuk butir item yang bersangkutan telah dijawabdengan betul. |
Mt | = | Skor rata-rata dari skor total |
SDt | = | Deviasi standar dari skor total. |
p | = | Proporsi testee yang menjawab betul terhadap butir item yang sedang diuji validitas itemnya. |
q | = | Proporsi testee yang menjawa salah terhadap butir item yang sedang diuji validitas itemnya. |
Contoh:
Misalnya 20 orang testee dihadapkan pada tes obyektif bentuk Multiple Choice Item yang menghidangkan 10 butir item, di mana untuk setiap item yang dijawab betul diberi skor 1, sedangkan untuk setiap butir item yang dijawab salah diberi skor 0. Setelah tes berakhir, dilakukan koreksi dan dihitung skornya, diperoleh data hasil tes sebagaimana tertera pada tabel 5.1 berikut ini.
Tabel 15.1. Penyebaran Skor Hasil Tes yang Diikuti oleh 20 Orang Testee, dengan Menyajikan 10 Butir Item Bentuk Multiple Choice Item.
Testee | Skor untuk butir item nomor: | Skor Total Xt | |||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||
A B C D E F G H I J K L M N O P Q R S T | 0 1 0 1 1 0 1 1 0 1 0 0 0 1 1 0 1 0 1 0 | 1 0 1 1 0 1 0 0 1 1 1 1 1 0 0 1 0 1 0 1 | 0 1 0 1 1 0 0 1 0 1 1 1 0 1 0 0 1 0 0 1 | 0 0 1 1 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1 0 | 0 1 1 1 0 0 1 1 0 1 1 1 1 0 1 0 1 1 1 0 | 1 0 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 | 0 1 0 1 0 0 1 1 0 1 1 1 1 0 1 0 1 0 1 1 | 0 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 | 0 1 1 1 1 0 1 1 0 1 0 1 0 1 1 0 1 0 1 0 | 1 1 1 1 1 0 1 1 1 1 0 0 0 1 1 1 1 1 1 1 | 3 7 6 10 7 3 8 9 5 10 6 5 4 7 8 5 9 6 8 4 |
20 | 10 | 12 | 10 | 14 | 13 | 15 | 12 | 16 | 12 | 16 | 130 |
Langkah 1 | : | Menyiapkan tabel perhitungan dalam rangka analisis validitas item nomor 1 sampai dengan nomor 10. (Lihat Tabel 5.2). |
Tabel 15.2. Tabel Perhitungan dalam Rangka Analisis Validitas Item
Testee | Skor untuk butir item nomor: | Xt | Xt2 | |||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |||
A B C D E F G H I J K L M N O P Q R S T | 0 (1) 0 (1) (1) 0 (1) (1) 0 (1) 0 0 0 (1) (1) 0 (1) 0 (1) 0 | 1 0 1 1 0 1 0 0 1 1 1 1 1 0 0 1 0 1 0 1 | 0 1 0 1 1 0 0 1 0 1 1 1 0 1 0 0 1 0 0 1 | 0 0 1 1 1 0 1 1 1 1 1 0 0 1 1 1 1 1 1 0 | 0 1 1 1 0 0 1 1 0 1 1 1 1 0 1 0 1 1 1 0 | 1 0 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 | 0 1 0 1 0 0 1 1 0 1 1 1 1 0 1 0 1 0 1 1 | 0 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 | 0 1 1 1 1 0 1 1 0 1 0 1 0 1 1 0 1 0 1 0 | 1 1 1 1 1 0 1 1 1 1 0 0 0 1 1 1 1 1 1 1 | 3 (7) 6 10 (7) 3 (8) (9) 5 (10) 6 5 4 (7) (8) 5 (9) 6 (8) 4 | 9 49 36 100 49 9 64 81 25 100 36 25 16 49 64 25 81 36 64 16 |
20=N | 10=N1 | 12=N2 | 10=N3 | 14=N4 | 13=N5 | 15=N6 | 12=N7 | 16=N8 | 12=N9 | 16=N10 | 130=∑Xt | 934=∑Xt2 |
p | 0,5 | 0,6 | 0,5 | 0,7 | 0,65 | 0,75 | 0,6 | 0,8 | 0,6 | 0,8 | ||
q | 0,5 | 0,4 | 0,5 | 0,3 | 0,35 | 0,25 | 0,4 | 0,2 | 0,4 | 0,2 | ||
Langkah 2 | : | Mencari mean dari skor total, yaitu Mt, dengan menggunakan rumus: Mt=∑XtN Telah diketahui: ∑Xt=130 dan N=20. Jadi: Mt=13020=6.5 |
Langkah 3 | : | Mencari deviasi standar total, yaitu SDt, dengan menggunakan rumus: SDt=∑Xt2N–∑XtN2 Telah diketahui: ∑Xt2=934 ∑Xt=130 dan N=20. Jadi: SDt=93420–130202=46,7-6,52 =46,7-42,25 =4,45=2,11 |
Langkah 4 | : | Mencari (menghitung) Mp untuk butir item nomor 1 sampai dengan nomor 10, yang untuk meringkas pembicaraan, dituangkan dalam Tabel 15.3. |
Langkah 5 | : | Mencari (menghitung) koefisien korelasi r dari item nomor 1 sampai dengan nomor 10, dengan menggunakan rumus: rumus rpbi=Mp–MtSDt p q |
Tabel 15.3. Perhitungan-Perhitungan untuk Memperoleh Mp dari Butir Item Nomor 1 Sampai dengan Nomor 10.
Nomor item | Tester yang Jawabannya Betul: | Mean (Rata-rata hitung) dari skor total yang dijawab dengan betul Mp | |
1 | B-D-E-G-H-J-N-0-Q dan S N1=10 | 7+10+7+8+9+10+7+8+9+810 | =8,300 |
2 | A-C-D-F-I-J-K-L-M-P-R-T N2=12 | 3+6+10+3+5+10+6+5+4+5+6+412 | =5,583 |
3 | B-D-E-H-J-K-L-N-Q dan T N3=10 | 6+10+7+9+10+6+5+7+9+410 | =7,300 |
4 | C-D-E-G-H-I-J-K-N-O-P-Q-R-S N4=14 | 6+10+7+8+9+5+10+6+7+8+5+9+6+814 | =7,429 |
5 | B-C-D-G-H-J-K-L-M-O-Q-R-S N5=13 | 7+6+10+8+9+10+6+5+4+8+9+6+813 | =7,385 |
6 | A-D-E-F-G-H-I-J-K-N-O-P-Q-R-S N6=15 | 3+10+7+3+8+9+5+10+6+7+8+5+9+6+815 | =6,933 |
7 | B-D-G-H-J-K-L-M-O-Q-S-T N7=12 | 7+10+8+9+10+6+5+4+8+9+8+412 | =7,333 |
8 | B-C-D-E-F-G-H-I-J-M-N-O-P-Q-R-S N8=16 | 7+6+10+7+3+8+9+5+10+4+7+8+5+9+6+816 | =7,000 |
9 | B-C-D-E-G-H-J-L-N-O-Q-S N9=12 | 7+6+10+7+8+9+1+5+7+8+9+812 | =7,833 |
10 | A-B-C-D-E-G-H-I-J-N-O-P-Q-R-S-T N10=16 | 3+7+6+10+7+8+9+5+10+7+8+5+9+6+8+416 |
Untuk meringkas pembicaraan, hasil-hasil perhitungan rpbi disajikan dalam tabel 15.4. berikut ini.
Tabel 15.4. Perhitungan-Perhitungan untuk Mengetahui Koefisien Korelasi rpbi dalam Rangka Uji Validitas Item Nomor 1 sampai dengan Nomor 10.
Nomor Item | Mp | Mt | SDt | p | q | rpbi=Mp–MtSDt p q | Interpretasi | |
1 | 8,300 | 6,5 | 2,11 | 0,50 | 0,50 | 0,853 | rpbi>rt | Valid |
2 | 5,583 | 6,5 | 2,11 | 0,60 | 0,40 | -0,532 | Kor. Negatif | Invalid |
3 | 7,300 | 6,5 | 2,11 | 0,50 | 0,50 | 0,379 | rpbi<rt | Invalid |
4 | 7,429 | 6,5 | 2,11 | 0,70 | 0,30 | 0,673 | rpbi>rt | Valid |
5 | 7,385 | 6,5 | 2,11 | 0,65 | 0,35 | 0,572 | rpbi>rt | Valid |
6 | 6,933 | 6,5 | 2,11 | 0,75 | 0,25 | 0,355 | rpbi<rt | Invalid |
7 | 7,333 | 6,5 | 2,11 | 0,60 | 0,40 | 0,684 | rpbi>rt | Valid |
8 | 7,000 | 6,5 | 2,11 | 0,80 | 0,20 | 0,474 | rpbi>rt | Valid |
9 | 7,833 | 6,5 | 2,11 | 0,60 | 0,40 | 0,774 | rpbi>rt | Valid |
10 | 7,000 | 6,5 | 2,11 | 0,80 | 0,20 | 0,474 | rpbi>rt | Valid |
Bertitik toal dari hasil analisis tersebut di atas, ternyata dari sebanyak 10 butir item yang diuji validitasnya, 7 butir item di antaranya telah dapat dinyatakan sebagai item yang valid, yaitu item nomor 1, 4, 5, 7, 8, 9 dan 10. Sedangkan 3 butir item lainnya, yakni butir item nomor 2, 3, dan 6 merupakan item yang invalid.
Rangkuman
Dua prinsip dasar permasalahan dalam penilaian adalah menentukan apakah sebuah tes telah mengukur apa yang hendak diukur dan apakah sebuah tes telah tepat digunakan untuk membuat suatu keputusan tentang pengambil tes. Validitas atau kesahihan berasal dari kata validity yang berarti sejauh mana ketetapan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Pengujian validitas tes secara rasional dapat dibedakan atas dua macam yaitu: (a) validitas isi (content validity); dan (b) validitas konstruk (construct validity); dan (c) validitas empiris atau validitas kriteria. Pengujian validitas tes secara empirik dibedakan atas dua macam yaitu: (a) validitas ramalan; dan (b) validitas bandingan.
Validitas isi dari suatu tes hasil belajar adalah validitas yang diperoleh setelah dilakukan penganalisisan, penelusuran atau pengujian terhadap isi yang terkandung dalam tes hasil belajar tersebut. Construct validity menunjuk kepada seberapa jauh suatu tes mengukur sifat atau bangunan pengertian (construct) tertentu dan validitas ini penting bagi tes-tes yang digunakan untuk menilai kemampuan dan sifat-sifat kejiwaan seseorang.
Daftar Pustaka
Ahiri, Jafar. 2002. “Analisis Faktor Sebagai Alat Evaluasi Validitas Konstruk”, Matahari: Jurnal Pendidikan dan Manajemen PPs UHAMKA. Vol.3 No. 1.
Aiken, Lewis R. 1994. Psychological Testing and Assessment. Boston: Allyn and Bacon.
Anastasi, Anne dan Susan Urbina. 1997. Psychological Testing. New Jersey: Prentice-Hall, Inc Company.
Djaali, Pudji Mulyono, 2004. Pengukuran dalam Bidang Pendidikan, Jakarta: Program Pascasarjana Universitas Negeri Jakarta.
Gregory, Robert J. 2000. Psychological Testing: Principles and Applications. Boston : Allyn and Bacon.
Gronlund, Norman E dan Linn, Robert L. 1985. Measurement and Evaluation in Teaching. New York: McMillan Publishing Company.
Kerlinger, Fred N. 2002. Azas-Azas Penelitian Behavioral. Terjemahan Landung R Simatupang, Yogyakarta: Gadjah Mada University Press.
Nunnaly, Jum C. 1978. Introduction to Psychological Measurement. New York: McGraw-Hill Book Company.
Sangaji, E. Mamang, Sopiah. 2010. Metodologi Penelitian: Pendekatan Praktis dalam Penelitian, Yogyakarta: Penerbit Andi.
Sekaran, Uma. 2006. Metodologi Penelitian untuk Bisnis, Terjemahan Kwan Men Yon, Jakarta: Salemba Empat.
Spherd, L.A. 1993. Evaluating Test Validity, Washington DC: American Educational Research Association.
Surapranata, Sumarna, 2004. Panduan Penulisan Tes Tertulis, Bandung: Remaja Rosdakarya.
Sudijono, Anas, 2003. Pengantar Evaluasi Pendidikan. Rajawali Press: Jakarta.
Sudjana, Nana, 2001. Penilaian Hasil Proses Belajar Mengajar. Rosdakarya: Bandung.
Wahidmurni, Alfin Mustikawan, dan Ali Ridho, 2010. Evaluasi Pembelajaran: Kompetensi dan Praktek. Yogyakarta: Nuha Litera.
William Wiersma dan Stephen G. Jurs. 1990. Educational Measurement and Testing. Boston: Allyn and Bacon.
Orang-orang yang maju dalam hidup ini adalah orang-orang yang bangkit dan mencari lingkungan yang mereka inginkan, kemudian jika mereka tak dapat menemukannya, mereka menciptakannya.
George Bernard Shaw



