2011-2016년 의학교육평가컨소시엄 임상종합평가의 효과성

Effectiveness of Medical Education Assessment Consortium Clinical Knowledge Mock Examination (2011-2016)

Article information

Korean Med Educ Rev. 2018;20(1):20-31
Publication date (electronic) : 2018 February 28
doi : https://doi.org/10.17496/KMER.2018.20.1.20
1Department of Medical Education, Pusan National University School of Medicine, Yangsan;
2Medical Education Assessment Consortium;
3Medical Education Assessment Corporation, The Korea Association of Medical Colleges;
4Department of Pathology, Chung-Ang University College of Medicine, Seoul, Korea
이상엽1,2,orcid_icon, 이예리2,3, 김미경2,4
1부산대학교 의과대학 의학교육학교실
2의학교육평가컨소시엄
3한국의과대학ㆍ의학전문대학원협회 의학교육평가사업단
4중앙대학교 의과대학 병리학교실
Corresponding author Sang Yeoup Lee Department of Medical Education, Pusan National University School of Medicine, 49 Busandaehak-ro, Mulgeum-eup, Yangsan 50612, Korea Tel: +82-51-510-8124 Fax: +82-51-510-8125 E-mail: saylee@pnu.edu
Received 2017 May 16; Revised 2017 November 24; Accepted 2017 December 12.

Trans Abstract

Good assessment is crucial for feedback on curriculum and to motivate students to learn. This study was conducted to perform item analysis on the Medical Education Assessment Consortium clinical knowledge mock examination (MEAC CKME) (2011–2016) and to evaluate several effects to improve item quality using both classical test theory and item response theory. The estimated difficulty index (P) and discrimination index (D) were calculated according to each course, item type, A (single best answer)/R (extended matching) type, and grading of item quality. The cut-off values used to evaluate P were: >0.8 (easy); 0.6–0.8 (moderate); and <0.6 (difficult). The cut-off value for D was 0.3. The proportion of appropriate items was defined as those with P between 0.25–0.75 and D ≥0.25. Cronbach α was used to assess the reliability and was compared with those of the Korean Medical Licensing Examination (KMLE). The results showed the recent mean difficulty and decimation index was 0.62 and 0.20 for the first MEAC CKME and 0.71 and 0.19 for the second MEAC CKME, respectively. Higher grade items evaluated by a self-checklist system had better D values than lower grade items and higher grade items gradually increased. The preview and editing process by experts revealed maintained P, decreased recall items, increased appropriate items with better D values, and higher reliability. In conclusion, the MEAC CKME (2011–2016) is deemed appropriate as an assessment to evaluate students’ competence and prepare year four medical students for the KMLE. In addition, the self-checklist system for writing good items was useful in improving item quality.

서 론

평가는 학생과의 대화의 장이기도 하고 학생이 공부하고 싶은 마음이 생기도록 하며, 학생은 평가를 통해 자신이 부족한 부분을 알게 된다. 또 학교는 평가를 통해 취약한 교과과정이 있는지를 살펴볼 수도 있고, 심지어 평가는 과락 여부를 결정하는 기준이 되기도 한다[1]. 의과대학 ․ 의학전문대학원(이후 의과대학으로 통칭)의 교육목표는 의학지식을 습득하고 임상술기능력을 길러 실제 진료에서 문제를 해결하고 전인적인 치료를 행하는 의사가 되도록 하는 것이며[2], 이를 위해 학생이 갖추어야 하는 의학지식과 임상능력을 평가하기 위해 필기시험, 구두시험, 임상술기시험 등 다양한 평가방법이 활용된다. 이 중에서도 필기시험의 경우, 좋은 문항을 잘 개발하기만 한다면 Anderson 등[3]이 제시한 교육목표 분류법, 즉 기억(remembering), 이해(understanding), 적용(applying), 분석(analysing), 평가(evaluating), 창의(creating) 중에서 창의를 제외한 나머지는 모두 필기시험으로 측정할 수 있다. 물론 이러한 목적을 이루려면 도입하려는 평가가 측정도구의 양호도지수, 즉 난이도, 변별도, 신뢰도, 타당도 등이 적정한 평가라는 것이 전제가 되어야 한다[4]. 잘 아는 대로 우리나라에서 의사가 되려면 의과대학을 졸업한 후에 반드시 의사국가시험에 합격해야 한다. 의과대학마다 이 최소한의 목표를 달성하기 위해 나름의 교육과정을 운영하고 있고, 그들의 의학과 4학년이 과연 의사국가시험 필기시험을 제대로 준비하고 있는지를 알고 싶어 한다. 따라서 국내 여러 의과대학 의학과 4학년 학생들이 공동으로 평가를 받게 되면 그 속에서 자기 의과대학의 역량을 점검해 볼 수 있기에 많은 의과대학이 이러한 성격의 평가의 시행을 원하는 바이다.

20개 의과대학이 이러한 목적을 가지고 2008년 11월 13일 기본의학교육평가컨소시엄을 조직하였고, 2011년 5월 13일부터는 의학교육평가컨소시엄으로 명칭을 변경하여 운영해 왔다. 2013년부터는 전국 41개 의과대학 중 39개 의과대학이, 2015년부터는 40개 의과대학이 참여하여 주로 의학과 1–2학년을 위한 기초종합평가와 의학과 3–4학년을 위한 임상종합평가 시험에 응시하고 있다. 2009년 8월 26–27일 및 9월 9–10일로 나누어 20개 의과대학에서 처음으로 임상종합평가를, 2009년 12월 23일에는 처음으로 기초종합평가를 시행하였다. 임상종합평가는 2010년부터 기존의 연 1회에서 연 2회 시행으로 횟수를 늘려 1차 임상종합평가는 8월 말, 2차 임상종합평가는 12월 초에 시행하고 있고, 기초종합평가는 계속해서 연 1회 시행하고 있다. 기초종합평가와 임상종합평가 중 한 가지만 응시하는 경우가 각각 1개 대학, 2개 대학이 있어 대개 39개 의과대학이 임상종합평가에, 38개 의과대학이 기초종합평가에 응시하고 있다. 의사국가시험 필기시험은 5지 선다형, 즉 단일정답형(A형)과 확장결합형(R형) 문항으로 구성되며 시험과목 수, 교시별 문제 수, 문제형식, 시험시간 등이 명시된 시험시간표는 매년 조금씩 변경되고 있다. 의학교육평가컨소시엄은 가능한 의사국가시험 필기시험 준비에 도움이 되고자 매해 달라지는 의사국가시험 필기시험의 시험시간표와 구성에 맞추어 매년 자체적으로 출제계획표를 구성하여 출제계획표에 맞추어 모든 참여대학이 참여하여 3배수에 해당하는 문항을 개발하고 수정작업을 거쳐 1차 임상종합평가에 사용될 문항을 먼저 선정하고, 이후 2차 임상종합평가 문항을 선정한다. 나머지 미선정된 문항은 폐기하거나 다음에 사용하기 위해 문항은행에 보관하고 있다.

의학교육평가컨소시엄은 컨소시엄 참여대학 의학생이 보다 좋은 문항으로 시험을 치르도록 하기 위해 그동안 다각도의 노력을 기울여 왔다. 2013년 시험의 질을 전문적으로 관장하는 문항개발관리소위원회가 구성되었고 2013년 1차 임상종합평가부터는 문항의 질 등급을 나누기 위한 자가점검표를 만들어 활용하기 시작하였다. 2013년 기초종합평가부터는 출제된 문항을 수정하고 선정하기 전에 전문위원들이 문항을 사전에 검토하는 사전검토(preview)과정을 시행하였고, 2014년부터는 해당 과정을 임상종합평가까지 확대하였다. 아울러 2015년 임상종합평가부터는 시험지 인쇄 전에 선정이 완료된 문항을 최종적으로 다시 검토하고 시험지 편집을 재확인하기 위한 편집워크숍을 신설하여 수행하였다. 따라서 저자 등은 첫째, 2011년부터 2016년까지 연도별로 임상종합평가문항을 연도별, 과목별, 유형별, 등급별, A/R형별로 구분한 후 고전검사이론과 문항반응이론에 따른 난이도, 변별도, 신뢰도 등을 분석하고 둘째, 컨소시엄의 문항의 질 관리 노력에 따른 변화를 살펴보며, 셋째, 이를 의사국가시험의 공개된 분석결과와 비교해봄으로써 임상종합평가의 효과성을 평가하고자 하였다.

연구대상 및 방법

1. 연구자료

1차 임상종합평가 문항에 대한 4학년 응답결과는 2011–2016년, 2차 임상종합평가는 2011년 자료가 확보되지 않아 2012–2016년 자료를 분석대상으로 하였다(Table 1). 이때 과목(총론, 각론 및 보건의약관계법규), 응시시기, 문항유형(암기형, 해석형, 문제해결형, 응 용형), 문항의 형식(A형/R형), 문항의 질 등급(A, B, C) 등의 요인을 포함하였다. 응용형은 미국의사국시험 필기시험의 분류대로 해석형과 문제해결형을 합친 것이다. 문항의 질 등급은 문항개발관리소위원회가 미국의사국가고시 기초의학 및 임상의학 문항개발 지침[5]을 바탕으로 개발한 자가점검표에 따라 나누었고, 문항개발과정에서 보다 좋은 문항을 개발하도록 할 뿐 아니라 개발된 문항을 정리하는 워크숍을 통해 보다 더 좋은 문항이 되도록 안내자 역할을 하였다. 자가점검표는 다음과 같이 9가지 항목으로 구성하였다. (1) 중요하고 흔한 것을 다루거나 혹은 다소 드물더라도 놓치면 위중해지는 것을 다루면 1점, 아니면 0점, (2) 해석 또는 문제해결형이면 1점, 아니면 0점, (3) 첫 문장이 환자가 표현하는 말로 시작하면 1점, 아니면 0점, (4) 신체진찰 내용이 기술되면 1점, 아니면 0점, (5) 문항줄기에 검사실 검사가 제시되어 있으면 1점, 아니면 0점, (6) 문항줄기에 영상검사 자료가 제시되어 있으면 1점, 아니면 0점, (7) 커버 더 옵션 규칙을 지켰으면 1점, 아니면 0점, (8) 답가지가 균질되면 1점, 아니면 0점, (9) 틀린 4가지 답가지가 모두 매력적이면 1점, 아니면 0점을 부여하였다. 이 중에 총점이 7–9점이면 좋은 문항(A), 4–6점이면 보통 문항(B), 1–3점이면 나쁜 문항(C)으로 나누었다.

Basal characteristics of MEAC CKME, 2011–2016

2. 통계분석

문항분석에는 고전검사이론과 문항반응이론을 모두 사용하였다. 전체적으로 그리고 과목별(총론, 각론 및 보건의약관계법규), 문항유형별(암기형, 해석형, 문제해결형, 응용형), 문항의 형식별(A형/R 형), 문항의 질 등급별(A, B, C)로 구분해서 고전검사이론에 의한 난이도, 교정난이도(문항추측도가 제거된 난이도), 변별도를 구했고, 문항반응이론을 적용한 것은 3모수 로지스틱모형(TCL 8.3 for Windows; Scriptics Corp., Mountain View, CA, USA)으로 난이도, 변별도 및 추정치(본 논문에서는 제시하지 않음)를 구했다. 이때 TCL 8.3 for Windows (Scriptics Corp.)을 사용하여 개발한 알고리즘을 사용하였다. 문항난이도는 문항의 쉽고 어려운 정도를 나타내는 지수로서 높으면 쉬운 문항이고 낮으면 어려운 문항으로 해석하였다. 문항반응이론에 의한 변별도는 각 문항이 피험자의 능력 수준을 변별할 수 있는 정도를 나타내는 지수로서 높을수록 문항변별도가 높은 문항으로 해석하였다[4]. 고전검사이론에 의한 변별도는 상위 27%와 하위 27%의 집단의 난이도 차이로 구했고 해석은 마찬가지이다. 한국보건의료인국가시험원에서는 2015년도 79회 의사국가시험 문항분석부터 제시한 총점과의 상관계수로 구하는 변별도와 구분하기 위해 변별도 대신에 분별도라고 부르지만, 여기서는 지난 2011년부터 2016년 임상종합평가의 분석결과와 일관되게 비교하고자 이 값을 사용하였다. 또한 79회, 80회 의사국가시험 문항분석처럼 난이도 0–0.6, 0.6–0.8 및 0.8–1.0으로 구분하여 해당 비율을 구했고, 변별도는 0.3 전후로 구분하여 해당 비율을 구했다. 적정문항의 수와 비율은 고전검사이론의 난이도 0.25–0.75이면서 고전검사이론의 변별도 0.25 이상일 때로 임의로 정하여 산정하였다[6]. 신뢰도는 Cronbach α 값으로 제시하였으며, 참고로 P지역 연합모의고사와 국가고시필기시험의 신뢰도를 함께 제시하였다[710]. 신뢰도는 시험이 평가하고자 하는 것을 일관성 있게 측정하는지로 시험이 오차 없이 정확하게 측정한 정도를 의미하며, 1에 가까울수록 신뢰도가 높다고 해석하였다.

결 과

1. 난이도

1) 과목별

1차 임상종합평가의 고전검사이론에 의한 난이도는 2011년과 2013년을 제외하고는 0.62–0.63 (100점 만점 점수로 환산하면 62–63점)으로 안정적으로 유지되었고, 의학총론, 의학각론 및 보건의약관계법규 과목별로도 치우침이 없이 일정한 난이도를 유지하였다(Figure 1A). 문항반응이론에서는 -0.5부터 0.5까지의 난이도는 중간을 의미하고, 0.5부터 2.0까지는 문항이 어려운 것을 뜻하는데[11], 문항반응이론에서 임상종합평가는 모두 중간 정도의 난이도를 보였다. 반면에 2차 임상종합평가의 고전검사이론에 의한 난이도는 1차 임상종합평가보다 높은데, 처음에는 0.69, 0.68이었다가 2014년부터는 0.71로 일정하게 나타났다. 과목별로 보면 100점으로 환산했을 때 총론은 1차 임상종합평가에 비해 평균 3.6점 높아진 데 비해 의학각론과 보건의약관계법규의 성적은 각각 10점과 11.8점 높아졌다. 난이도에서 문항을 추측하여 문항의 답을 맞힌 응시자의 비율인 문항추측도를 제거한 난이도가 교정난이도이므로 난이도보다 값이 더 낮게 나타났다(Table 2).

Figure 1.

(A) Difficulty index and discrimination index of total exam; (B) discrimination index according to grading of item quality; (C) discrimination index according to A (single best answer)/R (extended matching) types of MEAC clinical knowledge mock exam; (D) number of editing error, (first+second) MEAC clinical knowledge mock exam; (E) percentage of reasonable item, first MEAC clinical knowledge mock exam; and (F) percentage of reasonable item, second MEAC clinical knowledge mock exam, 2012–2016. MEAC, Medical Education Assessment Consortium; KMLE, Korean Medical Licensing Examination.

Difficulty index of MEAC CKME according to courses, 2011–2016

2) 유형별

1차 임상종합평가의 암기형 비율은 2012년 48.4%에서 2016년 11.9%로 무려 1/4로 크게 줄었다. 2차 임상종합평가의 암기형 비율도 2012년 26.5%에서 2016년 10.3%로 절반 이하로 줄었다. 난이도는 지식의 정도를 묻는 유형에 있어서는 1차 임상종합평가에서는 문제해결형 또는 응용형의 난이도지수가 낮게 나타나 의사국가시험과 같은 경향을 보였으나, 2차 임상종합평가에서는 그 차이가 줄어들었다(Table 3).

Difficulty index of MEAC CKME according to item types, 2011–2016

3) 등급별 및 A/R별

문항등급별 난이도의 차이는 거의 없어 보이지만, 의사국가시험과 마찬가지로 문항의 형태에 있어서는 A형 문항보다는 R형 문항의 난이도지수가 낮은 것으로 볼 때 학생들은 R형 문항을 보다 더 어려워한다는 것을 알 수 있다(Table 4).

Difficulty index of MEAC CKME according to grading of item quality and A/R type, 2011–2016

2. 변별도

1) 과목별, 유형별

1차 임상종합평가의 고전검사이론에 의한 변별도는 전체적으로는 0.20이고, 과목별로는 의학각론이 나머지보다 높았다. 문제유형별로는 차이가 없었다. 반면에, 2차 임상종합평가는 전체적으로는 변별도가 0.18이고, 과목별로는 마찬가지로 의학각론이 나머지보다 높았고, 문제유형에 있어서는 문제해결형, 해석형, 암기형 순서로 높았다. 이는 문항반응이론에 의한 변별도 또한 마찬가지였다. 문항반응이론에 따라 3모수 로지스틱모형을 사용한 문항분석에서 문항변별도 지수가 0.34 이하이면 변별력이 거의 없는 문항, 0.3–1.7 이면 변별력이 어느 정도 있는 문항, 1.7 이상이면 변별력이 매우 높은 문항으로 임의로 분류하였을 때, 전체문항의 변별도는 1차, 2차 임상종합평가 모두 약 0.5였다. 연도별로도 유사한 경향이었다(Table 5).

Discrimination index of MEAC CKME according to course and item type, 2011–2016

2) 등급별

A등급의 비율이 1차 임상종합평가의 경우 2011년 50.4%였으나, 2016년에는 62.2%로 증가하였고, 반면에 C등급의 문항은 2011년 11.3%에서 2016년에는 4.1%로 감소하였다(Table 6). 등급별로는 고전검사이론과 문항반응이론 모두 A등급의 변별도가 B등급이나 C등급보다 높았다(Figure 1B).

Discrimination index of MEAC CKME according to grading of item quality, 2011–2016

3) A/R형별

고전검사이론과 문항반응이론 모두 A형 문항보다는 R형 문항의 변별도가 더 높았다. 이는 의사국가시험 필기시험도 마찬가지였다(Figure 1C). 하지만 80회 의사국가시험의 A형(0.17)과 R형(0.25) 문항의 변별도 차이가 0.08인데 비해 같은 해의 1차 임상종합평가의 A형(0.20)과 R형(0.22) 문항의 변별도 차이는 0.02로 크지 않았다. 이는 같은 해 2차 임상종합평가도 유사한 경향을 보였다(Table 7).

Discrimination index of MEAC CKME according to grading of A/R types, 2011–2016

3. 신뢰도

신뢰도는 1차 임상종합평가의 경우 2012년부터 2016년까지 0.933–0.972로 매우 높았고, 이는 의사국가시험의 신뢰도와 유사하 거나 약간 더 높았고, P지역의 연합모의고사보다 높았다. 반면에 2차 임상종합평가는 높은 편이지만, 1차보다는 상대적으로 다소 낮았다(Table 8).

Reliability (Cronbach α) of MEAC CKME, 2011–2016, compared to a local consortium exam and Korean Medical Licensing Examination

4. 난이도와 변별도 구간별 비율

1) 연도별

1차 임상종합평가의 2012–2016년 난이도 0.6–0.8의 비율은 평균 28.5% (25.4%–31.5%)이고, 0.8–1.0의 비율은 평균 28.0% (21.7%–30.8%)로 유사한 반면에, 2차는 난이도 0.8–1.0에 속하는 비율이 1차에 비해 약 2배 증가하였는데, 응시자들의 역량이 높아져서 그런 것인지 아니면 문항의 질 유지 측면에서 미흡한 것인지에 대해 검토가 필요하다. 참고로 제80회 의사국가시험은 각각 24.0%와 50.8% 로 쉬운 문항의 비율이 매우 높았다. 변별도 0.3 이상의 비율은 약 20%로 의사국가시험과 유사하였다(Table 9). 적정문항의 정의를 고전검사이론 난이도(P) 25–75이면서 고전검사이론 변별도(D) 0.25 이상일 때로 임의로 정했을 때 1차 임상종합평가에서 적정문항의 비율은 약 25%였으며 2012년부터 그 비율이 조금씩 증가하는 추세를 보였다(Figure 1E). 반면에 2차 임상종합평가는 적정문항의 비율이 1차보다 낮았다(Figure 1F).

Subgroup rates of difficulty index and discrimination index of MEAC CKME, 2011–2016

2) 문항유형별

2012–2016년 1차 임상종합평가에 비해 2차 임상종합평가에서 암기형, 해석형 및 문제해결형 모두 난이도 0.8–1.0의 쉬운 문항의 비율이 더 높았고, 해석형과 문제해결형을 합친 응용형의 경우 난이도 0.8–1.0의 쉬운 문항의 비율 또한 1차 임상종합평가보다 2차 임상종합평가에서 약 20% 더 많았다. 변별도 0.3 이상의 비율은 암기형보다 해설형이나 문제해결형이 더 높은 경향을 보였다(Table 10).

Subgroup rates of difficulty index and discrimination index of MEAC CKME according to item types, 2011–2016

3) 등급별

문항개발과정에서 자가점검표를 활용한 문항등급에 있어서 A등급의 비율은 서서히 증가하여 2016년 1차 임상종합평가에서 62.2%로 최고로 높았고, 반면에 C등급의 문항은 4.1%로 가장 낮았다. 1차, 2차 임상종합평가 모두 등급별로 난이도 분포는 고르게 나타났으나, 변별도 0.3 이상인 비율은 A문항이 B, C문항보다 의미 있게 높았다. 가장 최근 2016년 1차 임상종합평가의 경우 변별도 0.3 이상인 비율은 A문항 중에서는 25.4%인 반면에 B, C문항 중에서는 각각 13.2%와 13.3%였고, 2016년 2차 임상종합평가의 경우에도 변별도 0.3 이상인 비율은 A문항 중에서는 18.0%인 반면에 B, C문항 중에서는 각각 9.6%와 9.1%였다(Table 11).

Subgroup rates of difficulty index and discrimination index of MEAC CKME according to grading of item quality, 2011–2016

4) A/R형별

난이도 0–0.6의 어려운 문항의 비율이 A형 문항에서보다는 R형 문항에서 매우 높았고, 0.3 이상의 변별도를 가진 비율이 A형 문항에서보다는 R형 문항에서 많게는 약 10%까지 높았다. 이는 1차 임상종합평가가 2차보다 더 뚜렷하게 나타났다(Table 12).

Subgroup rates of difficulty index and discrimination index of MEAC CKME according to A/R types, 2011–2016

고 찰

의학교육평가컨소시엄 임상종합평가는 연 2회 시행되는데, 의학교육평가컨소시엄에서는 출제계획표에 따른 1회 시험문항의 3배수를 각 참여 의과대학별로 분배하여 사전에 출제하도록 하고 있다. 이를 위해 의학교육평가컨소시엄에서는 각 의과대학마다 그 해의 출제과 출제할 교수를 대상으로 좋은 문항을 출제하도록 출제워크숍을 시행하고 있다. 출제한 교수들이 전부 참여하는 문항정리워크숍을 통해 출제된 문항은 수정되고 수정된 문항은 출제계획표에 따라 1차, 2차 임상종합평가별로 분배된다. 2014년부터는 문항개발관리소위원회 내 선정된 전문검토위원이 문항정리워크숍을 시행하기 이전에 사전검토하는 과정을 시행하고 있다. 2015년부터는 편집워크숍을 추가적으로 시행하여 전문검토위원이 최종 인쇄 전에 출제된 문항을 최종적으로 검토하고 편집과정의 오류를 줄이고자 노력하고 있다. 그 결과 이미지 누락, 표기오류 등의 오류는 크게 줄었다(Figure 1D).

임상종합평가의 난이도는 컨소시엄 시행 당시 의사국가시험보다 난이도지수를 낮게 하여 학생들이 부족한 것을 인지하고 더 열심히 학업에 임하도록 하기 위하려는 의도대로 본 연구의 분석결과 연도별 차이가 없이 평균 점수 약 60점이 되도록 잘 시행이 되었다. 반면에, 의사국가시험 필기시험의 전체 난이도지수는 76회부터 80회까지 0.74–0.77로 일정한 편이다. 적정 난이도 0.6–0.8 구간의 비율은 77회, 78회, 79회, 80회 의사국가시험 필기시험의 경우 최근 들어 증가하는 추세이기는 하지만[710], 각각 19.8%, 21.4%, 23.5%, 24.0%에 불과한 반면, 임상종합평가는 약 30%로 그보다 높다. 또 의사국가시험에 비해 임상종합평가의 난이도가 의학총론, 의학각론 및 보건의약관계법규 과목별로 차이가 없었다. 그 예로 2016년 1차 임상종합평가의 경우 의학총론, 의학각론 및 보건의약관계법규의 난이도지수가 각각 0.63, 0.61 및 0.65로 비슷한 반면에 80회 의사국가시험의 난이도지수는 각각 0.70, 0.74, 0.88로 과목마다 다르게 나타났다. 의사국가시험과 달리 의학교육평가컨소시엄에서는 자가점검표를 이용하여 문항의 질 등급을 매기는데, 이유는 알 수 없지만, 예상과 달리 문항의 질 등급별로는 난이도에 있어 차이가 없었다. 문항의 형태에 있어서는 의사국가시험과 마찬가지로 A형 문항보다는 R형 문항의 난이도지수가 낮았다. 전체 R형 문항 중에서 난이도 0–0.6으로 어려운 문항에 속하는 비율이 A형 문항 중에서 보다 높았다. 문항유형에 있어서는 1차 임상종합평가가 2차보다 문제해결형 또는 응용형의 난이도지수가 낮게 나타나 의사국가시험과 같은 경향을 보였고, 1차 임상종합평가에 비해 2차가 난이도 0.8–1.0에 속하는 문항의 비율이 약 2배 증가하였는데, 이는 응시자들의 문제해결능력 등의 역량이 향상되었기 때문에 그렇다고 볼 수도 있겠으나, 2차 임상종합평가의 문항의 질 유지 혹은 난이도 조정이 미흡했을 가능성도 있어 추후 이 부분에 대한 개선노력이 필요하다고 여겨진다. 그동안 1차, 2차 임상종합평가 모두 암기형 비율은 크게 줄었다. 특히 2016년 1차 임상종합평가의 경우 11.9%로 2011년의 48.4%보다는 1/4로 크게 줄었으나, 여전히 높은 보건의약관계법규 문항 탓에 의사국가시험보다는 아직 높아 앞으로 암기형 문항을 더욱 줄이기 위한 노력이 필요하다. 하지만 매년 일정한 난이도를 유지하고 있고, 전체뿐 아니라 과목별로 난이도의 차이가 없고, 의사국가시험에 비해 난이도지수 0.6–0.8 구간에 속하는 문항의 비율이 높다는 점이 의학교육평가컨소시엄 임상종합평가 시험의 강점이라고 하겠다[710].

의사국가시험 필기시험의 전체 변별도지수는 76회부터 80회까지 0.17–0.18로 일정하게 유지되고 있는데, 특히 1차 임상종합평가의 변별도는 약 0.20으로 이보다 높은 편이었다. 특히 의사국가시험의 변별도 0.3 이상의 비율은 18.8%, 15.0%, 30.8%, 20.0%로 일정하지가 않았던 반면에, 1차 임상종합평가의 변별도 0.3 이상의 비율은 약 20%로 일정한 편이다. 과목별로는 의사국가시험과 임상종합평가 모두 의학각론의 변별도가 가장 높았다. 그 예로 2016년 1차 임상종합평가의 전체 변별도는 0.20이었고, 과목별로는 의학총론이 0.15, 의학각론이 0.21, 보건의약관계법규가 0.18이었던 반면에, 같은 해에 시행되었던 80회 의사국가시험의 전체 변별도는 0.18이고, 과목별로는 의학총론이 0.16, 의학각론이 0.19, 보건의약관계법규는 0.10으로 의사국가시험의 과목 간 변별도 차이가 0.09로서 임상종합평가의 0.6보다 컸다. 문제유형에 있어서는 2016년 1차 임상종합평가의 경우 문제유형별로는 차이가 없이 모두 0.20으로 동일한 반면에, 80회 의사국가시험은 문제해결형(0.19), 해석형(0.17), 암기형(0.13) 순서로 차이가 있었다. 임상종합평가의 경우 문항반응이론에 의한 변별도는 약 0.5로 적정 수준이었고, 과목별, 유형별 특징은 고전검사이론에 의한 변별도와 마찬가지였다. 하지만 고전검사이론의 변별도 0.3 이상의 비율은 암기형 문항보다 해설형 문항이나 문제해결형 문항에서 다소 더 높았고, 2차 임상종합평가는 1차와 달리 문제유형별로 변별도의 차이를 보였다. 문항의 형태에 있어서 2014년 이후가 그 이전보다 A형과 R형 문항 모두 변별도가 더 높아졌다. A형과 R형 문항의 변별도를 비교하면, 1, 2차 임상종합평가 모두 의사국가시험 필기시험과 마찬가지로 고전검사이론과 문항 반응이론 모두 A형 문항보다는 R형 문항의 변별도가 더 높았고, 0.3 이상의 변별도를 가진 비율을 보더라도 A형 문항보다는 R형 문항에서 많게는 약 10%까지 훨씬 높았다. 하지만 A형과 R형 문항의 변별도 차이가 의사국가시험에 비해 임상종합평가가 작았는데, 이는 임상종합평가의 A형 문항의 변별도가 의사국가시험보다 상대적으로 높고, R형의 변별도가 상대적으로 낮기 때문이었다[12]. 2013년 1차 임상종합평가부터는 문항의 질 등급을 나누기 위한 자가점검표를 활용하였는데, 이는 앞서 등급 간에 차이가 없었던 난이도와 달리 변별력을 높이기 위한 전략으로는 유용한 것으로 입증되었다. 고전검사이론과 문항반응이론 모두 A등급의 변별도가 B등급이나 C등급보다 높아 문항의 질이 높을수록 변별력이 높은 문항인 것을 알 수 있다.

임의로 적정문항의 정의를 고전검사이론 난이도(P) 25–75이면서 고전검사이론 변별도(D) 0.25 이상일 때로 정했을 때, 1차 임상종합평가의 적정문항의 비율이 2012년부터 점점 증가하여 2016년 약 25%였으나(Figure 1E), 2차 임상종합평가의 적정문항의 비율이 1차보다 낮았다(Figure 1F). 이는 최초 3배수 출제된 문항 중에서 좋은 문항을 1차 임상종합평가에 우선적으로 배치를 했기 때문일 수 있지만, 향후 전체적으로 보다 좋은 문항을 많이 개발하여 2차 임상종합평가의 경우에도 변별력이 높은 보다 좋은 문항이 출제되도록 노력을 기울여야 할 것이다.

신뢰도는 0.9가 최대이고 그보다 낮으면 신뢰도를 높이기 위한 노력을 기울여야 하고, 그 이상이면 문항의 수가 충분히 많기 때문에 문항의 수를 보다 줄일 것을 추천하고는 있지만, 신뢰도가 0.9 이상이면 국가시험 혹은 전국적 시험으로는 매우 신뢰할 만한 시험으로 간주한다[13]. 본 연구에서 1차 임상종합평가의 신뢰도는 0.933–0.972로 매우 높았고, 이는 같은 해 실시되었던 의사국가시험이나 P지역의 연합모의고사와 유사하거나 약간 더 높았다. 반면에 2차 임상종합평가 역시 신뢰도는 0.9 이상으로 높은 편이지만, 1차에 비해서는 낮아 더 좋은 문항을 개발할 필요가 있겠다.

연구의 제한점으로는 아쉽게도 문항의 질 평가에 있어 중요한 요소인 답가지의 매력도까지는 제시하지 못한 것이다. 마찬가지로 자가검검표 9번 항목(틀린 4가지 답가지가 모두 매력적이면 1점, 아니면 0점)과 답가지 매력도와 비교 또한 시행하지 못했다. 대신에 문항추측도를 제거한 난이도, 즉 교정난이도를 제시하였다. 또 문항반응이론으로 문항을 분석할 때 난이도와 변별도만 제시하였고, 아쉽게도 문항정보함수를 이용한 문항들의 측정오차에 대한 정보와 검사정보함수를 통한 시험의 성격까지는 제시하지 못하였다. 이는 후속연구를 통해 제시하도록 하겠다.

요약하면, 결론적으로 고전검사이론과 문항반응이론에 의한 다각도의 분석결과 의학교육평가컨소시엄에서 수행한 임상종합평가는 전국 의과대학 의학과 4학년 학생들이 자신의 역량을 점검하고 의사국가시험을 준비하기 위한 평가로 도움이 된다고 여겨진다. 비 록 여기서 자료를 제시하지는 않았지만, 2017년 3월에 시행한 설문조사에서 임상종합평가에 참여하는 38개 대학 중에 31개 대학이 임상종합평가시험의 질에 대해 90.3%가 우수하다고 응답한 바 있다. 2013년부터 활용하기 시작한 자가점검표는 측정의 양호도 측면에서 우수한 좋은 문항을 개발하는 데 매우 유용한 것으로 나타났다. 그 결과 갈수록 A등급 문항의 비율이 가장 높아져서 고무적이다. 출제할 교수에게 사전에 출제워크숍을 통해 문항개발지침을 교육하고, 출제가 되면 전문검토위원이 수정이 필요한 사항이 있는지를 사전에 검토하고, 출제한 교수들이 문항정리워크숍을 통해 전문영역별로 다같이 모여 함께 수정하고, 선정하여 교시별로 배분하고, 이후 다시 전문검토위원이 편집워크숍을 통해 임상종합평가 시험지를 인쇄하기 전에 선정이 완료된 문항을 최종적으로 검토하고, 시험지 구성과 편집을 살펴보는 등 일련의 노력들을 통해 난이도를 일정하게 유지하고, 갈수록 암기형 문항을 줄여가고, 보다 변별력이 좋은 문항의 비율을 높임으로써 결국은 적정문항의 비율을 높이고 높은 신뢰도를 확보하게 되었다. 82회 의사국가시험 필기시험부터는 의사국가시험 평가목표가 105개 의사직무상황으로 바뀌어 출제되는 첫 해이다. 이제 의학교육평가컨소시엄은 2017년부터 한국의과대학ㆍ의학전문대학원협회 산하 의학교육평가사업단으로 전환되어 41개 의과대학이 모두 참여하게 되었다. 이를 통해 전국의 의과대학 및 의학전문대학원 학생들이 의사국가시험 필기시험에 충분히 대비할 수 있도록 이러한 노력들은 계속되어야 할 것이다.

감사의 글

이 연구는 부산대학교병원 의학연구소 학술연구비의 지원을 받아 연구되었다(2014-19). 또한 분석과정에 헌신적으로 도움을 준 부산대학교 의과대학 의학교육지원실의 이선희, 최수연 선생님에게 깊은 감사를 드린다.

저자 기여

이상엽: 연구설계, 통계, 초고작성, 연구전체 총괄; 이예리: 연구실행, 결과분석; 김미경: 연구설계-실행-분석 총괄

References

1. Baik SH. The new horizon for evaluations in medical education in Korea. J Educ Eval Health Prof. 2005;2(1):7–22.
2. Miller GE. The assessment of clinical skills/competence/performance. Acad Med. 1990;65(9 Suppl):S63–7.
3. Anderson LW, Krathwohl DR, Airasian PW, Cruikshank KA, Mayer RE, Pintrich PR, et al. A taxonomy for learning, teaching, and assessing: a revision of Bloom's taxonomy of educational objectives. Boston (MA): Pearson/Allyn and Bacon; 2001.
4. Baik SH. Major reforms and issues of the medical licensing examination systems in Korea. Korean Med Educ Rev. 2013;15(3):125–31.
5. Case SM, Swanson DB. Constructing written test questions for the basic and clinical sciences. 3rd ed.th ed. Philadelphia (PA): National Board of Medical Examiners; 2002.
6. Reeder FF, Joos AE. Fire service instructor: principles and practice. 2nd ed.th ed. Burlington (MA): Jones & Bartlett Learning; 2013.
7. Korea Health Personnel Licensing Examination Institute. 77th Medical licensing examination item analysis report, 2013. Seoul: Korea Health Personnel Licensing Examination Institute; 2015.
8. Korea Health Personnel Licensing Examination Institute. 78th Medical licensing examination item analysis report, 2014. Seoul: Korea Health Personnel Licensing Examination Institute; 2015.
9. Korea Health Personnel Licensing Examination Institute. 79th Medical licensing examination item analysis report, 2015. Seoul: Korea Health Personnel Licensing Examination Institute; 2015.
10. Korea Health Personnel Licensing Examination Institute. 80th Medical licensing examination item analysis report, 2016. Seoul: Korea Health Personnel Licensing Examination Institute; 2016.
11. Lim HS, Lee YM, Ahn DS, Lee JY, Im H. Item analysis of clinical performance examination using item response theory and classical test theory. Korean J Med Educ. 2007;19(3):185–95.
12. Levine HG, McGuire CH, Nattress LW Jr. The validity of multiple choice achievement tests as measures of competence in medicine. Am Educ Res J. 1970;7(1):69–82.
13. Tavakol M, Dennick R. Making sense of Cronbach's alpha. Int J Med Educ. 2011;2:53–5.

Article information Continued

Table 1.

Basal characteristics of MEAC CKME, 2011–2016

Year Total items Courses MCQ types Medical school Year 4 student Total score Courses
General medicine Specialized medicine Medical law A type a) R type b) General medicine score Specialized medicine score Medical law
1st MEAC CKME
2011 450 (100.0) 105 (23.3) 325 (72.2) 20 (4.4) 391 (86.9) 59 (13.1) 30 2,252 288.5±41.6 61.3±9.9 215.0±31.1 12.2±3.7
2012 400 (100.0) 80 (20.0) 300 (75.0) 20 (5.0) 348 (87.0) 52 (13.0) 34 2,575 247.5±33.3 52.7±6.7 183.8±26.8 11.0±2.9
2013 400 (100.0) 80 (20.0) 300 (75.0) 20 (5.0) 344 (86.0) 56 (14.0) 38 2,974 232.9±33.6 47.4±7.6 173.3±25.9 12.2±2.8
2014 400 (100.0) 74 (18.5) 306 (76.5) 20 (5.0) 349 (87.3) 51 (12.7) 38 2,956 239.1±49.0 42.6±8.1 187.6±39.8 8.9±3.4
2015 400 (100.0) 80 (20.0) 300 (75.0) 20 (5.0) 340 (85.0) 60 (15.0) 39 3,042 251.1±34.5 52.1±7.3 187.7±26.8 11.3±3.2
2016 360 (100.0) 60 (16.7) 280 (77.7) 20 (5.6) 302 (83.9) 58 (16.1) 39 2,986 222.6±30.2 38.0±4.8 171.6±25.2 13.0±3.1
2nd MEAC CKME
2012 400 (100.0) 82 (20.5) 298 (74.5) 20 (5.0) 348 (87.0) 52 (13.0) 30 1,982 276.1±30.8 55.3±6.4 207.3±24.9 13.5±2.2
2013 400 (100.0) 80 (20.0) 300 (75.0) 20 (5.0) 344 (86.0) 56 (14.0) 37 2,641 271.5±30.9 51.6±7.0 205.7±23.7 14.2±2.7
2014 400 (100.0) 80 (20.0) 302 (75.5) 18 (4.5) 344 (86.0) 56 (14.0) 38 2,762 284.2±29.8 54.6±6.4 216.3±23.5 13.4±2.3
2015 400 (100.0) 80 (20.0) 300 (75.0) 20 (5.0) 340 (85.0) 60 (15.0) 39 2,885 284.8±28.7 52.8±6.3 218.9±22.5 13.0±2.6
2016 360 (100.0) 60 (16.7) 280 (77.7) 20 (5.6) 302 (83.9) 58 (16.1) 39 2,951 255.5±25.7 38.8±5.1 203.1±20.7 13.7±2.5

Values are presented as number (%) or mean±standard deviation.

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; MCQ, multiple choice question.

a)

Single best answer.

b)

Extended matching.

Figure 1.

(A) Difficulty index and discrimination index of total exam; (B) discrimination index according to grading of item quality; (C) discrimination index according to A (single best answer)/R (extended matching) types of MEAC clinical knowledge mock exam; (D) number of editing error, (first+second) MEAC clinical knowledge mock exam; (E) percentage of reasonable item, first MEAC clinical knowledge mock exam; and (F) percentage of reasonable item, second MEAC clinical knowledge mock exam, 2012–2016. MEAC, Medical Education Assessment Consortium; KMLE, Korean Medical Licensing Examination.

Table 2.

Difficulty index of MEAC CKME according to courses, 2011–2016

Year Total General medicine Specialized medicine Medical law
P CP P (IRT) P CP P (IRT) P CP P (IRT) P CP P (IRT)
1st MEAC CKME
2011 0.58±0.23 0.55±0.29 -0.47±2.65 0.58±0.25 0.48±0.31 -0.17±2.97 0.66±0.23 0.58±0.29 -0.59±2.57 0.61±0.18 0.51±0.23 -0.02±1.99
2012 0.62±0.24 0.52±0.30 -0.20±2.84 0.66±0.22 0.57±0.27 -0.54±3.11 0.61±0.24 0.52±0.30 -0.15±2.74 0.55±0.23 0.44±0.29 0.42±3.07
2013 0.58±0.24 0.48±0.30 0.04±2.74 0.59±0.25 0.49±0.31 -0.04±2.63 0.58±0.24 0.47±0.30 0.08±2.76 0.61±0.22 0.51±0.28 -0.07±2.90
2014 0.62±0.24 0.53±0.30 -0.19±2.00 0.61±0.24 0.51±0.29 -0.34±2.59 0.64±0.24 0.54±0.30 -0.21±1.84 0.49±0.21 0.36±0.26 0.77±1.64
2015 0.63±0.24 0.53±0.30 -0.37±2.73 0.65±0.22 0.56±0.27 -0.44±2.82 0.63±0.25 0.53±0.31 -0.38±2.70 0.57±0.24 0.46±0.30 -0.04±2.87
2016 0.62±0.24 0.52±0.31 -0.20±2.85 0.63±0.25 0.55±0.32 -0.70±3.54 0.61±0.25 0.52±0.31 -0.10±2.69 0.65±0.17 0.56±0.21 -0.14±2.78
2nd MEAC CKME
2012 0.69±0.26 0.61±0.32 -0.89±2.65 0.68±0.26 0.59±0.32 -0.79±3.07 0.70±0.26 0.62±0.32 -0.91±2.48 0.68±0.30 0.60±0.37 -0.93±3.39
2013 0.68±0.24 0.60±0.29 -0.95±2.79 0.65±0.27 0.57±0.33 -0.75±3.04 0.69±0.23 0.61±0.29 -0.94±2.71 0.71±0.20 0.64±0.26 -1.85±3.04
2014 0.71±0.24 0.64±0.30 -1.24±2.79 0.68±0.24 0.60±0.30 -0.96±3.15 0.72±0.24 0.65±0.30 -1.30±2.69 0.74±0.21 0.68±0.26 -1.49±2.92
2015 0.71±0.24 0.64±0.29 -1.14±2.87 0.66±0.24 0.58±0.30 -0.36±3.14 0.73±0.23 0.66±0.29 -1.37±2.75 0.65±0.26 0.56±0.32 -0.92±3.16
2016 0.71±0.24 0.64±0.29 -1.28±2.87 0.65±0.25 0.56±0.32 -0.65±3.38 0.73±0.23 0.66±0.29 -1.41±2.74 0.68±0.23 0.60±0.29 -1.45±2.94

Values are presented as mean±standard deviation.

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; P, difficulty index (by classical test theory); CP, corrected difficulty index (by classical test theory); P (IRT), difficulty index (by item response theory).

Table 3.

Difficulty index of MEAC CKME according to item types, 2011–2016

Year Recall Interpretation Problem solving Application
P CP P (IRT) P CP P (IRT) P CP P (IRT) P CP P (IRT)
1st MEAC CKME
2011 0.63±0.25 0.54±0.31 -0.34±2.78 0.66±0.23 0.58±0.28 -0.85±2.59 0.64±0.21 0.55±0.26 -0.34±2.43 0.65±0.22 0.56±0.27 -0.58±2.51
(218) (218) (218) (111) (111) (111) (121) (121) (121) (232) (232) (232)
2012 0.60±0.25 0.51±0.31 -0.12±3.06 0.69±0.21 0.62±0.26 -0.93±2.75 0.58±0.24 0.48±0.30 0.16±2.59 0.62±0.23 0.53±0.29 -0.22±2.76
(102) (102) (102) (113) (113) (113) (178) (178) (178) (298) (298) (298)
2013 0.59±0.24 0.49±0.30 0.23±2.65 0.60±0.25 0.50±0.31 -0.14±2.96 0.57±0.24 0.46±0.30 0.07±2.62 0.58±0.24 0.48±0.30 -0.01±2.76
(84) (84) (84) (134) (134) (134) (179) (179) (179) (316) (316) (316)
2014 0.60±0.21 0.50±0.26 -0.18±1.40 0.67±0.23 0.59±0.29 -0.49±1.97 0.60±0.24 0.50±0.31 -0.01±2.06 0.63±0.24 0.53±0.30 -0.19±2.04
(30) (30) (30) (135) (135) (135) (232) (232) (232) (367) (367) (367)
2015 0.60±0.23 0.51±0.28 -0.11±2.78 0.65±0.26 0.57±0.32 -0.68±2.72 0.62±0.23 0.52±0.29 -0.24±2.71 0.63±0.24 0.54±0.30 -0.42±2.72
(63) (63) (63) (141) (141) (141) (196) (196) (196) (337) (337) (337)
2016 0.63±0.18 0.53±0.22 -0.45±2.53 0.61±0.25 0.51±0.31 0.05±2.86 0.62±0.26 0.53±0.32 -0.33±2.92 0.62±0.25 0.52±0.32 -0.17±2.90
(43) (43) (43) (134) (134) (134) (183) (183) (183) (217) (317) (317)
2nd MEAC CKME
2012 0.68±0.27 0.60±0.34 -0.80±2.88 0.73±0.24 0.66±0.30 -1.27±2.52 0.67±0.26 0.59±0.32 -0.63±2.57 0.69±0.25 0.62±0.32 -0.92±2.57
(106) (106) (106) (127) (127) (127) (161) (161) (161) (294) (294) (294)
2013 0.68±0.24 0.60±0.31 -0.83±3.04 0.70±0.24 0.62±0.31 -1.26±2.82 0.68±0.23 0.60±0.29 -0.80±2.68 0.69±0.23 0.61±0.29 -0.98±2.73
(82) (82) (82) (118) (118) (118) (194) (194) (194) (315) (315) (315)
2014 0.67±0.29 0.58±0.36 -0.90±3.34 0.73±0.23 0.67±0.29 -1.48±2.69 0.70±0.23 0.63±0.29 -1.14±2.75 0.71±0.23 0.64±0.29 -1.28±2.73
(41) (41) (41) (150) (150) (150) (209) (209) (209) (359) (359) (359)
2015 0.59±0.27 0.49±0.34 0.04±3.20 0.72±0.23 0.65±0.29 -1.20±2.93 0.73±0.23 0.66±0.28 -1.31±2.73 0.72±0.23 0.66±0.29 -1.27±2.81
(38) (38) (38) (147) (147) (147) (215) (215) (215) (362) (362) (362)
2016 0.70±0.22 0.63±0.27 -1.33±2.69 0.73±0.24 0.66±0.30 -1.42±2.92 0.71±0.24 0.63±0.30 -1.18±2.88 0.72±0.24 0.64±0.30 -1.28±2.89
(37) (37) (37) (137) (137) (137) (184) (184) (184) (321) (321) (321)

Values are presented as mean±standard deviation (number of items).

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; P, difficulty index (by classical test theory); CP, corrected difficulty index (by classical test theory); P (IRT), difficulty index (by item response theory).

Table 4.

Difficulty index of MEAC CKME according to grading of item quality and A/R type, 2011–2016

Year Grading of item quality A/R type
A B C Type A a) Type R b)
P CP P (IRT) P CP P (IRT) P CP P (IRT) P CP P (IRT) P CP P (IRT)
1st MEAC CKME
2011 0.65±0.22 0.56±0.27 -0.49±2.51 0.62±0.25 0.52±0.32 -0.30±2.93 0.70±0.24 0.63±0.30 -0.88±2.21 0.65±0.23 0.56±0.28 -0.47±2.63 0.61±0.29 0.51±0.36 -0.43±2.80
(227) (227) (227) (171) (171) (171) (51) (51) (51) (391) (391) (391) (59) (59) (59)
2012 0.61±0.24 0.52±0.30 -0.13±2.87 0.65±0.21 0.56±0.26 -0.51±2.56 0.62±0.17 0.52±0.21 -2.58±4.58 0.63±0.23 0.54±0.28 -0.31±2.83 0.52±0.29 0.40±0.36 0.58±2.77
(341) (341) (341) (57) (57) (57) (2) (2) (2) (348) (348) (348) (52) (52) (52)
2013 0.57±0.24 0.46±0.31 0.18±2.70 0.61±0.23 0.51±0.29 -0.11±2.71 0.64±0.28 0.55±0.35 -1.18±3.20 0.60±0.22 0.50±0.28 -0.02±2.71 0.47±0.31 0.34±0.39 0.46±2.92
(241) (241) (241) (138) (138) (138) (17) (17) (17) (344) (344) (344) (56) (56) (56)
2014 0.63±0.24 0.53±0.30 -0.20±2.01 0.62±0.23 0.53±0.29 -0.07±1.86 0.60±0.30 0.51±0.38 -0.91±2.75 0.63±0.23 0.54±0.29 -0.16±1.78 0.56±0.27 0.45±0.34 -0.41±3.16
(278) (278) (278) (104) (104) (104) (13) (13) (13) (349) (349) (349) (51) (51) (51)
2015 0.64±0.24 0.55±0.31 -0.44±2.53 0.61±0.23 0.51±0.29 -0.10±2.89 0.70±0.28 0.62±0.35 -2.12±3.19 0.64±0.24 0.55±0.29 -0.43±2.78 0.56±0.26 0.45±0.33 -0.03±2.41
(227) (227) (227) (157) (157) (157) (16) (16) (16) (340) (340) (340) (60) (60) (60)
2016 0.61±0.25 0.52±0.32 -0.13±2.82 0.63±0.23 0.54±0.29 -0.44±2.91 0.57±0.18 0.47±0.22 0.61±2.95 0.64±0.23 0.55±0.29 -0.39±2.84 0.51±0.29 0.39±0.36 0.78±2.75
(224) (224) (224) (121) (121) (121) (15) (15) (15) (302) (302) (302) (58) (58) (58)
2nd MEAC CKME
2012 0.70±0.25 0.62±0.31 -0.49±2.51 0.65±0.30 0.57±0.37 -0.43±3.09 0.67±0.28 0.59±0.35 -1.59±3.24 0.71±0.24 0.64±0.30 -1.02±2.58 0.54±0.31 0.43±0.38 0.04±2.94
(337) (337) (227) (59) (59) (59) (4) (4) (4) (348) (348) (348) (52) (52) (52)
2013 0.69±0.24 0.61±0.30 -0.90±2.80 0.69±0.23 0.62±0.28 -1.12±2.63 0.59±0.27 0.49±0.34 -0.53±3.69 0.69±0.23 0.61±0.28 -0.99±2.76 0.66±0.28 0.57±0.35 -0.66±3.02
(245) (245) (245) (132) (132) (132) (16) (16) (16) (341) (341) (341) (56) (56) (56)
2014 0.71±0.24 0.64±0.30 -1.25±2.64 0.72±0.22 0.65±0.28 -1.47±3.03 0.65±0.21 0.56±0.26 -0.04±2.99 0.71±0.24 0.64±0.29 -1.25±2.84 0.70±0.24 0.63±0.31 -1.20±2.48
(271) (271) (271) (106) (106) (106) (20) (20) (20) (344) (344) (344) (56) (56) (56)
2015 0.75±0.23 0.69±0.28 -1.62±2.54 0.67±0.24 0.59±0.30 -0.64±3.15 0.63±0.25 0.54±0.31 -0.24±2.91 0.72±0.23 0.65±0.28 -1.20±2.93 0.66±0.27 0.57±0.34 -0.80±2.52
(210) (210) (210) (171) (171) (171) (18) (18) (18) (340) (340) (340) (60) (60) (60)
2016 0.73±0.23 0.66±0.29 -1.44±2.86 0.69±0.24 0.62±0.30 -1.10±2.94 0.66±0.18 0.58±0.23 -0.65±2.12 0.72±0.23 0.65±0.29 -1.31±2.89 0.68±0.27 0.60±0.34 -1.17±2.79
(211) (211) (211) (136) (136) (136) (11) (11) (11) (302) (302) (302) (58) (58) (58)

Values are presented as mean±standard deviation (number of items).

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; P, difficulty index (by classical test theory); CP, corrected difficulty index (by classical test theory); P (IRT), difficulty index (by item response theory).

a)

Single best answer.

b)

Extended matching.

Table 5.

Discrimination index of MEAC CKME according to course and item type, 2011–2016

Year Total Courses Item types
General principles Each system Health law Recall Interpretation Problem solving Application of knowledge
D D (IRT) D D (IRT) D D (IRT) D D (IRT) D D (IRT) D D (IRT) D D (IRT) D D (IRT)
1st MEAC CKME
2011 0.21±0.12 0.56±0.28 0.19±0.13 0.51±0.29 0.22±0.12 0.58±0.27 0.20±0.08 0.46±0.1 0.22±0.13 0.59±0.28 0.21±0.12 0.52±0.27 0.21±0.11 0.53±0.27 0.21±0.12 0.53±0.27
(450) (450) (105) (105) (325) (325) (20) 8 (20) (218) (218) (111) (111) (121) (121) (232) (232)
2012 0.20±0.11 0.50±0.26 0.17±0.11 0.45±0.30 0.21±0.11 0.52±0.25 0.13±0.08 0.40±0.2 0.17±0.11 0.46±0.24 0.18±0.11 0.47±0.30 0.22±0.11 0.54±0.24 0.20±0.11 0.51±0.27
(400) (400) (80) (80) (300) (300) (20) 2 (20) (102) (102) (113) (113) (178) (178) (298) (298)
2013 0.19±0.11 0.51±0.28 0.19±0.09 0.51±0.25 0.20±0.12 0.51±0.29 0.15±0.09 0.41±0.2 0.20±0.10 0.52±0.28 0.18±0.11 0.46±0.26 0.21±0.12 0.54±0.29 0.19±0.12 0.50±0.28
(400) (400) (80) (80) (300) (300) (20) 4 (20) (84) (84) (134) (134) (179) (179) (316) (316)
2014 0.20±0.11 0.97±0.56 0.18±0.11 0.85±0.59 0.21±0.11 1.02±0.55 0.19±0.08 0.78±0.4 0.21±0.10 0.94±0.53 0.20±0.10 1.01±0.54 0.20±0.11 0.96±0.57 0.20±0.11 0.98±0.56
(400) (400) (74) (74) (306) (306) (20) 4 (20) (30) (30) (135) (135) (232) (232) (367) (367)
2015 0.20±0.11 0.51±0.27 0.19±0.11 0.46±0.28 0.21±0.11 0.52±0.26 0.18±0.10 0.53±0.2 0.19±0.10 0.47±0.25 0.21±0.11 0.54±0.28 0.21±0.11 0.49±0.26 0.21±0.11 0.51±0.27
(400) (400) (80) (80) (300) (300) (20) 3 (20) (63) (63) (141) (141) (196) (196) (337) (337)
2016 0.20±0.11 0.49±0.25 0.15±0.10 0.41±0.26 0.21±0.11 0.51±0.24 0.18±0.10 0.39±0.2 0.20±0.11 0.47±0.28 0.20±0.11 0.49±0.25 0.20±0.11 0.48±0.24 0.20±0.11 0.49±0.24
(360) (360) (60) (60) (280) (280) (20) 2 (20) (43) (43) (134) (134) (183) (183) (317) (317)
2nd MEAC CKME
2012 0.21±0.09 0.57±0.27 0.17±0.09 0.47±0.26 0.22±0.09 0.60±0.26 0.14±0.06 0.51±0.2 0.19±0.09 0.58±0.26 0.21±0.09 0.59±0.28 0.21±0.09 0.55±0.26 0.21±0.09 0.56±0.27
(400) (400) (82) (82) (298) (298) (20) 6 (20) (106) (106) (127) (127) (161) (161) (294) (294)
2013 0.19±0.10 0.49±0.24 0.19±0.11 0.50±0.25 0.19±0.10 0.49±0.24 0.17±0.08 0.37±0.1 0.18±0.11 0.50±0.29 0.19±0.10 0.49±0.26 0.20±0.09 0.48±0.21 0.19±0.09 0.48±0.23
(400) (400) (80) (80) (300) (20) (20) 5 (20) (82) (82) (118) (118) (194) (194) (315) (315)
2014 0.19±0.10 0.50±0.26 0.17±0.10 0.44±0.26 0.20±0.10 0.53±0.26 0.18±0.09 0.40±0.1 0.17±0.09 0.53±0.31 0.19±0.10 0.50±0.24 0.20±0.10 0.50±0.27 0.19±0.10 0.50±0.25
(400) (400) (80) (80) (302) (302) (18) 8 (18) (41) (41) (150) (150) (209) (209) (359) (359)
2015 0.19±0.10 0.48±0.23 0.16±0.09 0.50±0.26 0.19±0.10 0.48±0.22 0.16±0.07 0.40±0.2 0.17±0.10 0.46±0.26 0.19±0.10 0.48±0.22 0.19±0.10 0.48±0.23 0.19±0.10 0.48±0.22
(400) (400) (80) (80) (300) (300) (20) 0 (20) (38) (38) (147) (147) (215) (215) (362) (362)
2016 0.19±0.10 0.46±0.24 0.17±0.10 0.44±0.26 0.19±0.10 0.48±0.23 0.15±0.06 0.32±0.1 0.18±0.07 0.37±0.14 0.18±0.10 0.46±0.24 0.19±0.11 0.48±0.25 0.19±0.10 0.48±0.24
(360) (360) (60) (60) (280) (280) (20) 5 (20) (37) (37) (137) (137) (184) (184) (321) (321)

Values are presented as mean±standard deviation (number of items).

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; D, discrimination index (by classical test theory); D (IRT), discrimination index (by item response theory); application, interpretation+problem solving.

Table 6.

Discrimination index of MEAC CKME according to grading of item quality, 2011–2016

Year A B C
A D D (IRT) B D D (IRT) C D D (IRT)
1st MEAC CKME
2011 0.22±0.12 (227) 0.53±0.26 (227) 0.20±0.12 (171) 0.56±0.29 (171) 0.27±0.11 (51) 0.68±0.23 (51)
2012 0.19±0.11 (341) 0.51±0.27 (341) 0.20±0.10 (57) 0.45±0.22 (57) 0.16±0.16 (2) 0.31±0.35 (2)
2013 0.20±0.12 (241) 0.54±0.30 (241) 0.19±0.10 (138) 0.46±0.24 (138) 0.21±0.12 (17) 0.52±0.25 (17)
2014 0.21±0.11 (278) 1.03±0.57 (278) 0.18±0.09 (104) 0.86±0.49 (104) 0.11±0.08 (13) 0.72±0.51 (13)
2015 0.22±0.11 (227) 0.54±0.26 (227) 0.19±0.11 (157) 0.46±0.26 (157) 0.13±0.10 (16) 0.49±0.40 (16)
2016 0.21±0.11 (224) 0.51±0.25 (224) 0.19±0.10 (121) 0.45±0.24 (121) 0.19±0.10 (15) 0.36±0.21 (15)
2nd MEAC CKME
2012 0.21±0.09 (337) 0.57±0.27 (337) 0.20±0.11 (59) 0.58±0.24 (59) 0.18±0.05 (4) 0.35±0.20 (4)
2013 0.19±0.10 (245) 0.49±0.23 (245) 0.20±0.10 (132) 0.51±0.27 (132) 0.15±0.08 (16) 0.39±0.22 (16)
2014 0.20±0.10 (271) 0.52±0.25 (271) 0.17±0.10 (106) 0.46±0.27 (106) 0.19±0.11 (20) 0.50±0.30 (20)
2015 0.20±0.09 (210) 0.49±0.21 (210) 0.17±0.11 (171) 0.47±0.25 (171) 0.17±0.08 (18) 0.46±0.23 (18)
2016 0.19±0.10 (211) 0.48±0.24 (211) 0.18±0.10 (136) 0.45±0.24 (136) 0.20±0.08 (11) 0.37±0.14 (11)

Values are presented as mean±standard deviation (number of items).

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; D, discrimination index (by classical test theory); D (IRT), discrimination index (by item response theory); application, interpretation+problem solving.

Table 7.

Discrimination index of MEAC CKME according to grading of A/R types, 2011–2016

Year 1st MEAC CKME 2nd MEAC CKME
Type A a) Type R b) Type A a) Type R b)
D D (IRT) D D (IRT) D D (IRT) D D (IRT)
2011 0.21±0.12 0.55±0.28 0.25±0.12 0.60±0.25
2012 0.19±0.11 0.48±0.26 0.21±0.11 0.59±0.28 0.21±0.09 0.57±0.27 0.20±0.11 0.58±0.27
2013 0.19±0.11 0.50±0.28 0.21±0.10 0.57±0.29 0.19±0.09 0.48±0.24 0.20±0.11 0.52±0.23
2014 0.20±0.11 0.95±0.52 0.22±0.11 1.12±0.77 0.19±0.10 0.51±0.27 0.20±0.09 0.47±0.20
2015 0.20±0.11 0.50±0.27 0.23±0.12 0.51±0.27 0.18±0.10 0.47±0.23 0.23±0.09 0.53±0.20
2016 0.20±0.11 0.47±0.25 0.22±0.12 0.58±0.24 0.18±0.10 0.46±0.25 0.21±0.09 0.47±0.19

Values are presented as mean±standard deviation.

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; D, discrimination index (by classical test theory); D (IRT), discrimination index (by item response theory); application, interpretation+problem solving.

a)

Single best answer.

b)

Extended matching.

Table 8.

Reliability (Cronbach α) of MEAC CKME, 2011–2016, compared to a local consortium exam and Korean Medical Licensing Examination

Year (total no. of items) 1st MEAC CKME 2nd MEAC CKME P local consortium exam Korean Medical Licensing Examination
2011 (450) 0.948 - - Null (76th)
2012 (400) 0.937 0.940 0.937 Null (77th)
2013 (400) 0.937 0.935 0.927 0.940 (78th)
2014 (400) 0.971 0.935 0.935 0.940 (79th)
2015 (400) 0.943 0.930 0.932 0.942 (80th)
2016 (360) 0.933 0.922 0.926 Null (81th)

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination.

Table 9.

Subgroup rates of difficulty index and discrimination index of MEAC CKME, 2011–2016

Year P a) D a)
0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3
1st MEAC CKME
2011 169 (37.6) 146 (32.4) 135 (30.0) 326 (72.4) 124 (27.6)
2012 175 (43.8) 102 (25.4) 123 (30.8) 325 (81.3) 75 (19.2)
2013 195 (48.8) 118 (29.5) 87 (21.7) 325 (81.3) 75 (19.2)
2014 164 (41.3) 118 (29.7) 115 (29.0) 317 (79.8) 80 (20.2)
2015 155 (38.8) 126 (31.5) 119 (29.7) 306 (76.5) 94 (23.5)
2016 150 (41.6) 106 (26.5) 104 (28.9) 285 (79.2) 75 (20.8)
2nd MEAC CKME
2012 130 (32.5) 82 (20.5) 188 (47.0) 345 (86.2) 55 (13.8)
2013 129 (32.5) 106 (26.7) 162 (40.8) 342 (86.1) 55 (13.9)
2014 112 (28.0) 100 (25.0) 188 (47.0) 339 (84.7) 61 (15.3)
2015 109 (27.3) 108 (27.0) 183 (45.7) 344 (86.0) 56 (14.0)
2016 92 (25.7) 97 (27.1) 169 (47.2) 306 (85.5) 52 (14.5)
Korean Medical Licensing Examination
80th (400) 101 (25.2) 96 (24.0) 203 (50.8) 319 (79.8) 81 (20.2)

Values are presented as number of items (%).

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; P, difficulty index (by classical test theory); D, discrimination index (by classical test theory).

a)

Reasonable item: P (0.25–0.75) and D (≥0.25).

Table 10.

Subgroup rates of difficulty index and discrimination index of MEAC CKME according to item types, 2011–2016

Year Recall Interpretation Problem solving Application
P D P D P D P D
0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3 0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3 0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3 0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3
1st MEAC CKME
2011 84/218 64/218 70/218 149/218 69/218 38/111 41/111 32/111 85/111 26/111 47/121 41/121 33/121 92/121 29/121 85/232 82/232 65/232 177/232 55/232
(38.5) (29.4) (32.1) (68.3) (31.7) (34.2) (36.9) (28.9) (76.6) (23.4) (38.8) (33.9) (27.3) (76.0) (24.0) (36.7) (35.3) (28.0) (76.3) (23.7)
2012 50/102 20/102 32/102 89/102 13/102 33/113 33/113 47/113 94/113 19/113 87/178 49/178 42/178 135/178 43/178 125/298 82/298 91/298 236/298 62/298
(49.0) (19.6) (31.4) (87.3) (12.7) (29.2) (29.2) (41.6) (83.2) (16.8) (48.9) (27.5) (23.6) (75.8) (24.2) (42.0) (27.5) (30.5) (79.2) (20.8)
2013 36/84 34/84 14/84 70/84 14/84 57/134 42/134 35/134 113/134 21/134 99/179 42/179 38/179 139/179 40/179 159/316 84/316 73/316 255/316 61/316
(42.8) (40.5) (16.7) (83.3) (16.7) (42.6) (31.3) (26.1) (84.3) (15.7) (55.3) (23.5) (21.2) (77.7) (22.3) (50.3) (26.6) (23.1) (80.7) (19.3)
2014 13/30 9/30 8/30 25/30 5/30 45/135 43/135 47/135 108/135 27/135 106/232 66/232 60/232 184/232 48/232 151/367 109/367 107/367 292/367 75/367
(43.3) (30.0) (26.7) (83.3) (16.7) (31.3) (31.9) (34.8) (80.0) (20.0) (45.7) (28.4) (25.9) (79.3) (20.7) (41.1) (29.7) (29.2) (79.6) (20.4)
2015 27/63 23/63 13/63 54/63 9/63 46/141 46/141 49/141 101/141 40/141 82/196 57/196 57/196 151/196 45/196 128/337 103/337 106/337 252/337 85/337
(42.9) (36.5) (20.6) (85.7) (14.3) (32.6) (32.6) (34.8) (71.6) (28.4) (41.8) (29.1) (29.1) (77.0) (23.0) (38.0) (30.6) (31.4) (74.8) (25.2)
2016 17/43 18/43 8/43 34/43 9/43 59/134 37/134 38/134 104/134 30/134 74/183 51/183 58/183 147/183 36/183 133/317 88/317 96/317 251/317 66/317
(39.5) (41.9) (18.6) (79.1) (20.9) (44.0) (27.6) (28.4) (77.6) (22.4) (40.4) (27.9) (31.7) (80.3) (19.7) (42.0) (27.7) (30.3) (79.2) (20.8)
2nd MEAC CKME
2012 38/106 18/106 50/106 94/106 12/106 36/127 26/127 65/127 110/127 17/127 53/161 37/161 71/161 135/161 26/161 92/294 64/294 138/294 251/294 43/294
(35.8) (17.0) (47.2) (88.7) (11.3) (28.3) (20.5) (51.2) (86.6) (13.4) (32.9) (23.0) (44.1) (83.9) (16.1) (31.3) (21.8) (46.9) (85.4) (14.6)
2013 29/82 18/82 35/82 73/82 9/82 34/118 28/118 56/118 98/118 20/118 66/194 58/194 70/194 169/194 25/194 100/315 88/315 127/315 269/315 46/315
(35.3) (22.0) (42.7) (89.0) (11.0) (28.8) (23.7) (47.5) (83.1) (16.9) (34.0) (29.9) (36.1) (87.1) (12.9) (31.8) (27.9) (40.3) (85.4) (14.6)
2014 15/41 8/41 18/41 38/41 3/41 32/150 41/150 77/150 129/150 21/150 65/209 51/209 93/209 172/209 37/209 97/359 92/359 170/359 301/359 58/359
(36.6) (19.5) (43.9) (92.7) (7.3) (21.3) (27.3) (51.4) (86.0) (14.0) (31.1) (24.4) (44.5) (82.3) (17.7) (27.0) (25.6) (47.4) (83.8) (16.2)
2015 15/38 13/38 10/38 34/38 4/38 40/147 33/147 74/147 124/147 23/147 54/215 62/215 99/215 186/215 29/215 94/362 95/362 173/362 310/362 52/362
(39.5) (34.2) (26.3) (89.5) (10.5) (27.2) (22.5) (50.3) (84.4) (15.6) (25.1) (28.8) (46.1) (86.5) (13.5) (26.0) (26.2) (47.8) (85.6) (14.4)
2016 10/37 12/37 15/37 35/37 2/37 34/137 32/137 71/137 120/137 17/137 48/184 53/184 83/184 151/184 33/184 82/321 85/321 154/321 271/321 50/321
(27.0) (32.4) (40.6) (94.6) (5.4) (24.8) (23.4) (51.8) (87.6) (12.4) (26.1) (28.8) (45.1) (82.1) (17.9) (25.5) (26.5) (48.0) (84.4) (15.6)

Values are presented as number of each items/total items (%).

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; P, difficulty index (by classical test theory); D, discrimination index (by classical test theory); application, interpretation+problem solving.

Table 11.

Subgroup rates of difficulty index and discrimination index of MEAC CKME according to grading of item quality, 2011–2016

Year A B C
P D P D P D
0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3 0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3 0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3
1st MEAC CKME
2011 85/227 78/227 64/227 167/227 60/227 69/171 52/171 50/171 132/171 39/171 15/51 16/51 20/51 27/51 24/51
(37.4) (34.4) (28.2) (73.6) (26.4) (40.4) (30.4) (29.2) (77.2) (22.8) (29.4) (31.4) (39.2) (52.9) (47.1)
2012 152/341 83/341 106/341 275/341 66/341 22/57 18/57 17/57 48/57 9/57 1/2 1/2 0/2 (0) 2/2 0/2
(44.6) (24.3) (31.1) (80.6) (19.4) (38.6) (31.6) (29.8) (84.2) (15.8) (50.0) (50.0) (100) (0)
2013 124/241 72/241 45/241 183/241 58/241 62/138 42/138 34/138 125/138 13/138 6/17 3/17 8/17 13/17 4/17
(51.4) (29.9) (18.7) (75.9) (24.1) (44.9) (30.4) (24.7) (90.6) (9.4) (35.3) (17.6) (47.1) (76.5) (23.5)
2014 113/278 80/278 85/278 211/278 67/278 44/104 35/104 25/104 91/104 13/104 6/13 2/13 5/13 13/13 0/13
(40.6) (28.8) (30.6) (75.9) (24.1) (42.3) (33.7) (24.0) (87.5) (12.5) (46.1) (15.4) (38.5) (100) (0)
2015 83/227 75/227 69/227 165/227 62/227 68/157 46/157 43/157 126/157 31/157 4/16 5/16 7/16 15/16 1/16
(36.6) (33.0) (30.4) (72.7) (27.3) (43.3) (29.3) (27.4) (80.3) (19.7) (25.0) (31.3) (43.7) (93.7) (6.3)
2016 95/224 58/224 71/224 167/224 57/224 46/121 44/121 31/121 105/121 16/121 9/15 4/15 2/15 13/15 2/15
(42.4) (25.9) (31.7) (74.6) (25.4) (38.0) (36.4) (25.6) (86.8) (13.2) (60.0) (26.7) (13.3) (86.7) (13.3)
2nd MEAC CKME
2012 107/337 71/337 159/337 292/337 45/337 21/59 11/59 27/59 49/59 10/59 2/4 0/4 (0) 2/4 4/4 0/4
(31.7) (21.1) (47.2) (86.6) (13.4) (35.6) (18.6) (45.8) (83.1) (16.9) (50.0) (50.0) (100) (0)
2013 82/245 59/245 104/245 212/245 33/245 38/132 40/132 54/132 110/132 22/132 7/16 6/16 3/16 16/16 0/16
(33.5) (24.1) (42.4) (86.5) (13.5) (28.8) (30.3) (40.9) (83.3) (16.7) (43.7) (37.5) (18.8) (100) (0)
2014 73/271 68/271 130/271 221/271 50/271 29/106 29/106 48/106 97/106 9/106 9/20 3/20 8/20 18/20 2/20
(26.9) (25.1) (48.0) (81.5) (18.5) (27.4) (27.4) (45.2) (91.5) (8.5) (45.0) (15.0) (40.0) (90.0) (10.0)
2015 43/210 57/210 110/210 176/210 34/210 59/171 46/171 66/171 151/171 20/171 7/18 5/18 6/18 16/18 2/18
(20.5) (27.1) (52.4) (83.8) (16.2) (34.5) (26.9) (38.6) (88.3) (11.7) (38.9) (27.8) (33.3) (88.9) (11.1)
2016 48/211 55/211 108/211 173/211 38/211 40/136 38/136 5/136 123/136 13/136 4/11 4/11 3/11 10/11 1/11
(22.7) (26.1) (51.2) (82.0) (18.0) (29.4) (27.9) (42.7) (90.4) (9.6) (36.4) (36.4) (27.2) (90.9) (9.1)

Values are presented as number of each items/total items (%).

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; P, difficulty index (by classical test theory); D, discrimination index (by classical test theory).

Table 12.

Subgroup rates of difficulty index and discrimination index of MEAC CKME according to A/R types, 2011–2016

Year Type A a) Type R b)
P D P D
0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3 0–0.6 0.6–0.8 0.8–1.0 <0.3 ≥0.3
1st MEAC CKME
2011 143/391 (36.6) 131/391 (33.5) 117/391 (29.9) 296/391 (75.7) 95/391 (24.3) 26/59 (44.1) 15/59 (25.4) 18/59 (30.5) 30/59 (50.8) 29/59 (49.2)
2012 146/348 (42.0) 92/348 (26.4) 110/348 (31.6) 285/348 (81.9) 63/348 (18.1) 29/52 (55.8) 10/52 (19.2) 13/52 (25.0) 40/52 (76.9) 12/52 (23.1)
2013 160/344 (46.5) 109/344 (31.7) 75/344 (21.8) 285/344 (82.8) 59/344 (17.2) 35/56 (62.5) 9/56 (16.1) 12/56 (21.4) 40/56 (71.4) 16/56 (28.6)
2014 141/348 (40.5) 105/348 (30.2) 102/348 (29.3) 280/348 (80.5) 6/348 (19.5) 23/49 (47.0) 13/49 (26.5) 13/49 (26.5) 37/49 (75.5) 12/49 (24.5)
2015 128/340 (37.6) 104/340 (30.6) 108/340 (31.8) 263/340 (77.4) 77/340 (22.6) 27/60 (45.0) 22/60 (36.7) 11/60 (18.3) 43/60 (71.7) 17/60 (28.3)
2016 112/302 (37.1) 100/302 (33.1) 90/302 (29.8) 244/302 (80.8) 58/302 (19.2) 38/58 (65.5) 6/58 (10.3) 14/58 (24.2) 41/58 (70.7) 17/58 (29.3)
2nd MEAC CKME
2012 103/348 (29.6) 71/348 (20.4) 174/348 (50.0) 301/348 (86.5) 47/348 (13.5) 27/52 (51.9) 11/52 (21.2) 14/52 (26.9) 44/52 (84.6) 8/52 (15.4)
2013 109/341 (32.0) 92/341 (27.0) 140/341 (41.0) 296/341 (86.8) 45/341 (13.2) 20/56 (35.7) 14/56 (25.0) 22/56 (39.3) 46/56 (82.1) 10/56 (17.9)
2014 98/344 (28.5) 84/344 (24.4) 162/344 (47.1) 289/344 (84.0) 55/344 (16.0) 14/56 (25.0) 16/56 (28.6) 26/56 (46.4) 50/56 (89.3) 6/56 (10.7)
2015 88/340 (25.9) 94/340 (27.6) 158/340 (46.5) 301/340 (88.5) 39/340 (11.5) 21/60 (35.0) 14/60 (23.3) 25/60 (41.7) 43/60 (71.7) 17/60 (28.3)
2016 73/301 (24.3) 88/301 (29.2) 140/301 (46.5) 263/301 (87.4) 38/301 (12.6) 19/57 (33.3) 9/57 (15.8) 29/57 (50.9) 43/57 (75.4) 14/57 (24.6)

Values are presented as number of each items/total items (%).

MEAC CKME, Medical Education Assessment Consortium clinical knowledge mock examination; P, difficulty index (by classical test theory); D, discrimination index (by classical test theory).

a)

Single best answer.

b)

Extended matching.