Các Phương pháp Đánh giá Năng lực và Chất lượng Giáo dục Mầm non trên Thế giới: Cơ sở Khoa học và Ứng dụng Thực tiễn

 

1. Tổng quan về Bối cảnh Chính sách và Sự chuyển dịch Mô hình Đánh giá

 

Trong bối cảnh giáo dục toàn cầu hiện đại, trọng tâm của Giáo dục và Chăm sóc Mầm non (Early Childhood Education and Care – ECEC) đã trải qua một sự chuyển dịch căn bản từ việc đảm bảo “quyền tiếp cận” sang đảm bảo “chất lượng”. Sự thay đổi này được thúc đẩy mạnh mẽ bởi Mục tiêu Phát triển Bền vững (SDG) 4.2 của Liên Hợp Quốc, cam kết rằng đến năm 2030, tất cả trẻ em gái và trai đều được tiếp cận với sự phát triển, chăm sóc và giáo dục mầm non có chất lượng để sẵn sàng cho giáo dục tiểu học.1

Các bằng chứng thực nghiệm từ các quốc gia thuộc mọi mức thu nhập—từ các nước OECD đến các nước đang phát triển—đều chỉ ra một thực tế đáng lo ngại: việc tăng tỷ lệ nhập học không đương nhiên dẫn đến cải thiện kết quả phát triển của trẻ nếu chất lượng dịch vụ không được đảm bảo.2 Thậm chí, việc mở rộng quy mô quá nhanh mà không đi kèm với cơ sở hạ tầng chất lượng (quality infrastructure) có thể làm trầm trọng thêm sự bất bình đẳng xã hội, khi trẻ em từ các gia đình khó khăn phải tiếp nhận dịch vụ giáo dục chất lượng thấp.2 Do đó, nhu cầu cấp thiết hiện nay không chỉ là đo lường bao nhiêu trẻ đến trường, mà là đo lường những gì đang diễn ra trong lớp học (chất lượng quy trình) và những gì trẻ thực sự đạt được (kết quả đầu ra).

Hệ thống đánh giá năng lực hiện đại không còn tồn tại dưới dạng các bài kiểm tra đơn lẻ, mà đã phát triển thành các hệ sinh thái phức tạp bao gồm: đánh giá sự phát triển của trẻ (Child Assessment), đánh giá chất lượng môi trường (Environmental Rating), và giám sát cấp độ quần thể (Population Monitoring).1 Báo cáo này sẽ phân tích sâu các phương pháp luận uy tín nhất hiện nay, đi sâu vào cơ sở tâm lý học (psychometrics), độ tin cậy (reliability), độ giá trị (validity) và các ứng dụng thực tiễn của chúng tại các quốc gia tiên tiến.

2. Các Khung Đánh giá Quy mô Quốc tế (International Large-Scale Assessments)

 

Sự ra đời của các khung đánh giá quốc tế phản ánh nhu cầu chuẩn hóa dữ liệu để so sánh hiệu quả giáo dục giữa các quốc gia. Các công cụ này được thiết kế với độ chính xác thống kê cao và khả năng áp dụng rộng rãi.

 

2.1. Nghiên cứu Quốc tế về Học tập Sớm và Hạnh phúc Trẻ em (OECD IELS)

 

Được ví như “PISA dành cho trẻ 5 tuổi”, OECD IELS là nỗ lực tham vọng nhất nhằm đo lường trực tiếp kỹ năng của trẻ em trên quy mô toàn cầu.

Khung Khái niệm và Phương pháp Luận:

IELS không chỉ tập trung vào các kỹ năng học thuật truyền thống mà mở rộng sang các lĩnh vực phi nhận thức, phản ánh quan điểm toàn diện về sự phát triển. Nghiên cứu tập trung vào trẻ 5 tuổi với bốn lĩnh vực cốt lõi:

  1. Đọc viết và Tính toán mới nảy sinh (Emergent Literacy and Numeracy): Đo lường khả năng nhận biết âm vị, từ vựng, và tư duy số học cơ bản.3
  2. Tự điều chỉnh (Self-regulation): Đây là điểm đột phá của IELS, khi coi khả năng ức chế hành vi, trí nhớ làm việc và sự linh hoạt nhận thức là nền tảng cho việc học tập suốt đời.3
  3. Kỹ năng Xã hội và Cảm xúc (Social and Emotional Skills): Bao gồm sự thấu cảm (empathy) và lòng tin (trust), những yếu tố quyết định khả năng hòa nhập học đường.3
  4. Hạnh phúc (Well-being): Đánh giá tổng quát về sức khỏe thể chất và tinh thần.5

Về mặt phương pháp, IELS sử dụng công nghệ tiên tiến với máy tính bảng và hướng dẫn bằng âm thanh, cho phép trẻ tương tác trực tiếp 1-1 dưới sự giám sát của quản trị viên.4 Điều này giảm thiểu sự thiên lệch do người đánh giá và tăng tính chuẩn hóa.

Độ Tin cậy và Các Chỉ số Tâm lý học (Psychometric Properties):

Các báo cáo kỹ thuật từ chu kỳ đầu tiên (2018) và chuẩn bị cho chu kỳ 2024 cho thấy IELS đạt độ tin cậy cao. Tại Vương quốc Anh, sai số chuẩn (standard error) cho các thước đo đọc viết và phát triển thể chất được ghi nhận ở mức rất thấp, với khoảng tin cậy chặt chẽ, cho phép suy rộng kết quả ra toàn bộ quần thể trẻ em.6 Phân tích cấu trúc biến tiềm ẩn (latent variable models) đã xác nhận tính hợp lệ của cấu trúc đánh giá đa chiều này.7 Tuy nhiên, thách thức lớn nhất của IELS nằm ở tính đại diện văn hóa; việc áp dụng một khung chuẩn hóa cao có thể bỏ qua các sắc thái giáo dục địa phương, dẫn đến những tranh luận về việc liệu công cụ này có thúc đẩy việc “dạy để thi” (teach to the test) hay không.5

 

2.2. Đo lường Chất lượng và Kết quả Học tập Sớm (MELQO)

 

MELQO đại diện cho một triết lý khác biệt: “Thích ứng có cấu trúc”. Được phát triển bởi liên minh UNESCO, UNICEF, World Bank và Viện Brookings, MELQO được thiết kế đặc biệt để hoạt động hiệu quả tại các quốc gia có thu nhập thấp và trung bình, nơi dữ liệu thường khan hiếm.8

Cấu trúc Mô-đun Kép:

MELQO giải quyết bài toán đánh giá toàn diện bằng cách tách biệt nhưng liên kết hai cấu phần:

  • MODEL (Measure of Development and Early Learning): Đánh giá trực tiếp trẻ em, kết hợp với phỏng vấn giáo viên và phụ huynh. Các lĩnh vực bao gồm toán học tiền tiểu học, ngôn ngữ, kỹ năng xã hội-cảm xúc và chức năng điều hành.9
  • MELE (Measure of Early Learning Environments): Đánh giá chất lượng môi trường học tập thông qua quan sát lớp học, tập trung vào tương tác sư phạm, cơ sở vật chất và an toàn.9

Quy trình Thích ứng và Độ Giá trị:

Sự đổi mới của MELQO nằm ở quy trình “bản địa hóa”. Thay vì áp đặt bộ câu hỏi cứng nhắc, MELQO yêu cầu các quốc gia tổ chức các “hội thảo thích ứng” (adaptation workshops) với sự tham gia của các chuyên gia địa phương, nhà ngôn ngữ học và giáo viên.10 Mục tiêu là đảm bảo rằng các mục hỏi (items) vẫn đo lường đúng cấu trúc cốt lõi (construct validity) nhưng phù hợp với văn hóa.

Ví dụ, tại Tanzania và Zanzibar, công cụ này đã trải qua nhiều vòng thử nghiệm thí điểm (piloting). Kết quả phân tích cho thấy sự liên kết chặt chẽ giữa điểm số chất lượng môi trường (MELE) và kết quả học tập của trẻ (MODEL), cung cấp bằng chứng thực nghiệm quan trọng cho chính sách quốc gia.9 Các chuyên gia lưu ý rằng khi một mục hỏi được thay đổi (ví dụ: thay đổi loại vật liệu đếm), độ tin cậy và giá trị phải được kiểm định lại thông qua thử nghiệm thực địa.10

 

2.3. Đánh giá Phát triển và Học tập Sớm Quốc tế (IDELA)

 

Được phát triển bởi Save the Children, IDELA được thiết kế để trở thành một công cụ mã nguồn mở, dễ sử dụng nhưng vẫn đảm bảo tính nghiêm ngặt về khoa học, đặc biệt phù hợp cho các bối cảnh khẩn cấp hoặc nguồn lực thấp.11

Bằng chứng về Độ Tin cậy và Hiệu lực:

IDELA nổi bật với các chỉ số tâm lý học xuất sắc đã được kiểm chứng qua nhiều nghiên cứu độc lập:

  • Độ tin cậy nhất quán nội bộ (Internal Consistency): Các nghiên cứu tại 6 quốc gia Châu Á cho thấy hệ số Alpha Cronbach cao cho các lĩnh vực cốt lõi.12
  • Độ tin cậy kiểm tra lại (Test-Retest Reliability): Tại các thử nghiệm thực địa, hệ số tương quan nội bộ (intraclass correlation coefficient) đạt 0.94, cho thấy tính ổn định của công cụ theo thời gian.13
  • Cấu trúc nhân tố: Phân tích nhân tố tại Ethiopia và các quốc gia khác xác nhận cấu trúc 4-5 nhân tố vững chắc (Vận động, Đọc viết sớm, Toán sớm, Cảm xúc xã hội), chứng minh rằng công cụ này đo lường chính xác các cấu trúc lý thuyết đã định.12

 

2.4. Chỉ số Phát triển Trẻ thơ 2030 (ECDI2030)

 

ECDI2030 là công cụ giám sát cấp quốc gia do UNICEF chủ trì để theo dõi chỉ tiêu SDG 4.2.1. Khác với IELS hay MELQO thường yêu cầu chuyên gia đánh giá, ECDI2030 thu thập dữ liệu thông qua báo cáo của người mẹ hoặc người chăm sóc chính.1

Cơ chế Khoa học:

Công cụ này bao gồm 20 câu hỏi về hành vi và kỹ năng của trẻ từ 24 đến 59 tháng tuổi, bao phủ ba lĩnh vực: Sức khỏe, Học tập và Sức khỏe tâm lý xã hội.1 Quá trình phát triển ECDI2030 kéo dài 5 năm với các phân tích định lượng và định tính sâu rộng để chọn ra các mục hỏi có độ nhạy cao nhất, loại bỏ các mục hỏi bị ảnh hưởng bởi văn hóa hoặc điều kiện kinh tế.1 Ưu điểm lớn nhất của nó là khả năng tích hợp vào các cuộc điều tra hộ gia đình lớn (như MICS), cho phép phân tách dữ liệu (disaggregation) để xác định các nhóm trẻ bị thiệt thòi, đảm bảo nguyên tắc công bằng của SDG.1

3. Đánh giá Chất lượng Quy trình và Môi trường (Process Quality Assessment)

 

Chất lượng quy trình (Process Quality)—được định nghĩa là bản chất của sự tương tác hàng ngày giữa giáo viên và trẻ—được coi là yếu tố dự báo mạnh mẽ nhất cho sự phát triển của trẻ, quan trọng hơn nhiều so với các yếu tố cấu trúc như tỷ lệ giáo viên/trẻ hay cơ sở vật chất.

 

3.1. Hệ thống Đánh giá Điểm số Lớp học (CLASS Pre-K)

 

CLASS (Classroom Assessment Scoring System) hiện là công cụ được nghiên cứu rộng rãi nhất và được coi là “tiêu chuẩn vàng” để đánh giá tương tác lớp học tại Hoa Kỳ và nhiều nước phương Tây.15

Cấu trúc Ba Lĩnh vực:

CLASS chia các tương tác trong lớp học thành ba lĩnh vực lớn, mỗi lĩnh vực bao gồm nhiều chiều cạnh (dimensions):

  1. Hỗ trợ Cảm xúc (Emotional Support): Đánh giá không khí lớp học (positive climate), sự nhạy cảm của giáo viên (teacher sensitivity) và sự tôn trọng quan điểm của trẻ.16
  2. Tổ chức Lớp học (Classroom Organization): Đánh giá quản lý hành vi, năng suất (productivity) và các định dạng hướng dẫn học tập (instructional learning formats).16
  3. Hỗ trợ Giảng dạy (Instructional Support): Đây là lĩnh vực thường có điểm số thấp nhất nhưng quan trọng nhất cho phát triển nhận thức, bao gồm phát triển khái niệm, chất lượng phản hồi và mô hình hóa ngôn ngữ.16

Phân tích Độ Tin cậy và Hiệu lực Dự báo:

  • Độ tin cậy liên quan sát viên (Inter-rater Reliability): Các nghiên cứu xác nhận rằng CLASS có độ tin cậy cao khi người đánh giá được đào tạo bài bản và tuân thủ quy trình kiểm định nghiêm ngặt.17 Tuy nhiên, điểm số có thể bị sai lệch bởi thời gian quan sát (sáng/chiều) hoặc loại hình hoạt động (nhóm nhỏ/cả lớp).18
  • Hiệu lực dự báo (Predictive Validity): Các phân tích tổng hợp (meta-analysis) cho thấy mối tương quan giữa điểm CLASS và kết quả học tập của trẻ là “dương tính nhưng khiêm tốn” (positive but modest).20 Một phát hiện quan trọng là “Hiệu ứng Ngưỡng” (Threshold Effect): trẻ em chỉ thực sự hưởng lợi khi chất lượng tương tác (đặc biệt là Hỗ trợ Giảng dạy) vượt qua một mức điểm nhất định (thường là mức trung bình cao). Ở các mức chất lượng thấp, sự khác biệt nhỏ về điểm số không dẫn đến sự thay đổi đáng kể về kết quả của trẻ.16

 

3.2. Thang đo Đánh giá Môi trường Giáo dục Mầm non (ECERS-3)

 

ECERS-3 là phiên bản nâng cấp của ECERS-R, với sự thay đổi chiến lược từ việc đếm số lượng học liệu sang đánh giá sâu hơn về sự tương tác và khả năng tiếp cận học tập.22

Cải tiến so với ECERS-R:

ECERS-3 loại bỏ các mục hỏi ít liên quan đến kết quả học tập (như quy định về ngủ trưa hay chào hỏi phụ huynh) để tập trung vào các tương tác sư phạm.22 Cấu trúc nhân tố của ECERS-3 đã được xác định lại qua các nghiên cứu giá trị, bao gồm 4 nhân tố chính: Cơ hội học tập, Tương tác giáo viên, Hoạt động Toán học, và Vận động thô.23

Dữ liệu Thực chứng:

  • Nghiên cứu cho thấy ECERS-3 có mối tương quan thuận chiều với sự phát triển chức năng điều hành (executive functions) của trẻ, một chỉ số quan trọng cho sự sẵn sàng đi học.23
  • Độ tin cậy của thang đo được duy trì ở mức cao, và quan trọng hơn, ECERS-3 cho thấy khả năng phân loại tốt hơn ở các dải chất lượng cao, khắc phục hiện tượng “hiệu ứng trần” (ceiling effect) của phiên bản cũ.22

4. Hệ thống Đánh giá Quá trình và Xác thực (Formative & Authentic Assessment)

 

Khác với các bài kiểm tra chuẩn hóa chỉ đưa ra kết quả tại một thời điểm (summative), các hệ thống đánh giá quá trình (formative) được tích hợp vào hoạt động hàng ngày, giúp giáo viên điều chỉnh phương pháp dạy học liên tục.

 

4.1. Teaching Strategies GOLD (TS GOLD)

 

TS GOLD là hệ thống đánh giá dựa trên quan sát (observation-based) phổ biến nhất tại Hoa Kỳ, được sử dụng bắt buộc trong nhiều chương trình Head Start và các bang.24

Cơ chế Hoạt động và Mô hình Rasch:

TS GOLD đánh giá 38 mục tiêu phát triển và học tập, bao gồm từ phát triển xã hội-cảm xúc đến các kỹ năng học thuật cụ thể như toán và văn học.26 Điểm đặc biệt của TS GOLD là việc sử dụng Mô hình Đo lường Rasch (Rasch Measurement Model). Mô hình này chuyển đổi các đánh giá định tính (quan sát hành vi) thành các thang đo định lượng tuyến tính (linear scales) có khoảng cách đều nhau.27

  • Ý nghĩa: Điều này cho phép theo dõi sự tăng trưởng của trẻ theo thời gian một cách chính xác về mặt toán học, bất kể trẻ bắt đầu từ điểm xuất phát nào.

Độ Tin cậy và Tính Công bằng:

Các báo cáo kỹ thuật quy mô lớn (với hàng trăm nghìn trẻ em) đã khẳng định các chỉ số tâm lý học xuất sắc của TS GOLD:

  • Độ tin cậy (Reliability): Hệ số tách biệt (Person Separation Index) đạt 3.34 – 3.77 và Alpha Cronbach đạt trên 0.96 cho các lĩnh vực chính, cho thấy khả năng phân biệt trình độ trẻ rất cao.27
  • Chứng nhận người đánh giá (Inter-rater Reliability Certification): Để đảm bảo tính khách quan, giáo viên phải trải qua quy trình chứng nhận trực tuyến. Họ phải đánh giá các hồ sơ mẫu (portfolios) và đạt độ đồng thuận ít nhất 80% so với các chuyên gia đánh giá (Master Raters).28
  • Tính bao trùm: Phân tích chức năng mục hỏi khác biệt (DIF – Differential Item Functioning) cho thấy công cụ này không có sự thiên vị đối với trẻ khuyết tật hay trẻ học tiếng Anh như ngôn ngữ thứ hai, biến nó thành công cụ lý tưởng cho các quần thể đa dạng.30

 

4.2. Child Observation Record (COR Advantage)

 

Phát triển bởi HighScope, COR Advantage cũng là một công cụ đánh giá xác thực hàng đầu, cạnh tranh trực tiếp với TS GOLD về độ uy tín khoa học.31

Đặc điểm Kỹ thuật:

COR Advantage đánh giá trẻ trên 8 danh mục nội dung (ví dụ: Tiếp cận học tập, Nghệ thuật sáng tạo, Khoa học & Công nghệ).

  • Độ tin cậy: Các nghiên cứu xác nhận (validation studies) cho thấy độ đồng thuận giữa các người chấm (Inter-scorer reliability) trung bình đạt 85.7%, với mức cao nhất là 93.5% cho lĩnh vực Xã hội học.31
  • Độ nhất quán nội bộ: Hệ số Alpha Cronbach cho các tiểu thang đo nằm trong khoảng 0.87 đến 0.94, khẳng định tính liên kết chặt chẽ của các mục hỏi.31
  • Công cụ này đã được chứng minh là có khả năng nắm bắt cả sự phát triển của trẻ bình thường và trẻ có nhu cầu đặc biệt trong cùng một khung đánh giá duy nhất, từ sơ sinh đến hết mẫu giáo.31

5. Công cụ Sàng lọc và Giám sát Dân số (Population Monitoring & Screening)

 

Nhóm công cụ này phục vụ mục đích y tế công cộng và hoạch định chính sách vĩ mô, không dùng để đánh giá năng lực học tập cá nhân trong lớp học.

 

5.1. Công cụ Phát triển Sớm (Early Development Instrument – EDI)

 

EDI là một “thước đo cộng đồng” (community measure) tiên phong, được phát triển tại Canada và hiện áp dụng rộng rãi tại Úc (AvEDI), Mỹ và nhiều quốc gia khác.32

Phương pháp Bản đồ Hóa (Mapping Vulnerability):

Giáo viên hoàn thành bảng kiểm gồm 103 mục cho từng trẻ vào thời điểm trẻ vào lớp 1 (khoảng 5-6 tuổi), bao phủ 5 lĩnh vực phát triển. Dữ liệu này sau đó được ẩn danh và tổng hợp theo địa lý để tạo ra các “Bản đồ Tình trạng Dễ bị tổn thương” (Vulnerability Maps). Các bản đồ này giúp chính quyền xác định các khu vực “trũng” về phát triển để phân bổ nguồn lực.32

Bằng chứng Khoa học Toàn cầu:

  • Độ tin cậy: Tại Úc và Canada, EDI có độ tin cậy nhất quán nội bộ rất cao (0.84 – 0.96) và độ tin cậy kiểm tra lại (test-retest) tốt.34
  • Giá trị dự báo dài hạn: Các nghiên cứu dọc (longitudinal studies) đã chứng minh rằng điểm số EDI tại thời điểm 5 tuổi có khả năng dự báo chính xác kết quả học tập của học sinh ở lớp 4 và thậm chí lớp 10. Trẻ thuộc nhóm “dễ bị tổn thương” trên EDI có nguy cơ cao gặp khó khăn học đường sau này.34
  • Thích ứng quốc tế: Nghiên cứu tại Jordan cho thấy phiên bản tiếng Ả Rập của EDI duy trì cấu trúc nhân tố và độ tin cậy cao, chứng minh tính khả thi của mô hình này trong các bối cảnh phi phương Tây.36

 

5.2. Bảng hỏi Độ tuổi và Giai đoạn (ASQ-3)

 

ASQ-3 là công cụ sàng lọc phát triển (developmental screening) do phụ huynh thực hiện, được coi là chuẩn mực trong lĩnh vực y tế và can thiệp sớm.37

Độ Nhạy và Độ Đặc Hiệu:

Sức mạnh của ASQ-3 nằm ở khả năng phân loại chính xác:

  • Độ nhạy (Sensitivity): Khả năng phát hiện đúng trẻ có nguy cơ chậm phát triển đạt trung bình 86%.37
  • Độ đặc hiệu (Specificity): Khả năng xác định đúng trẻ phát triển bình thường đạt 85%.37
  • Các nghiên cứu độc lập cũng xác nhận giá trị chẩn đoán cao (Diagnostic Odds Ratio) của ASQ-3, đặc biệt trong các lĩnh vực vận động và giao tiếp.38 Với chi phí thấp và dễ triển khai, ASQ-3 là công cụ đầu vào quan trọng để sàng lọc trước khi chuyển trẻ sang các đánh giá chuyên sâu hơn.

6. Phân tích Các Mô hình Quốc gia Điển hình: Từ Chính sách đến Thực tiễn

 

Sự lựa chọn phương pháp đánh giá phản ánh sâu sắc triết lý giáo dục và văn hóa của từng quốc gia. Dưới đây là phân tích so sánh giữa các mô hình tiêu biểu trên thế giới.

 

6.1. Hoa Kỳ: Dữ liệu hóa và Trách nhiệm Giải trình (Accountability)

 

Hệ thống giáo dục mầm non Hoa Kỳ, đặc biệt là chương trình liên bang Head Start, đặc trưng bởi sự quy định chặt chẽ về dữ liệu và tiêu chuẩn.

  • Khung Tiêu chuẩn: Head Start Early Learning Outcomes Framework (ELOF) quy định chi tiết các mốc phát triển cần đạt được từ sơ sinh đến 5 tuổi, chia thành các lĩnh vực như Tiếp cận học tập, Phát triển Nhận thức, Ngôn ngữ.39
  • Quy định Công cụ: Theo Tiêu chuẩn Hoạt động Head Start (HSPPS 1302.33), các chương trình bắt buộc phải sử dụng các công cụ đánh giá đã được chuẩn hóa và kiểm định. Danh sách các công cụ được phê duyệt (như tại bang Pennsylvania) bao gồm TS GOLD, COR Advantage, và Work Sampling System.40
  • Cơ chế Giám sát: Dữ liệu từ các đánh giá quá trình (như TS GOLD) được tổng hợp định kỳ (3 lần/năm) để báo cáo sự tiến bộ của trẻ. Đồng thời, công cụ CLASS được sử dụng trong các đợt tái cấp phép (Designation Renewal System) để đánh giá chất lượng giáo viên. Nếu điểm CLASS thấp dưới ngưỡng quy định, nhà cung cấp dịch vụ có thể bị mất hợp đồng.42

 

6.2. Phần Lan: Niềm tin Chuyên môn và Tư liệu hóa Sư phạm

 

Phần Lan đại diện cho mô hình Bắc Âu, nơi không có các bài kiểm tra chuẩn hóa (standardized tests) cho trẻ mầm non.

  • Triết lý: Hệ thống dựa trên niềm tin tuyệt đối vào năng lực của giáo viên (đều có trình độ thạc sĩ). Đánh giá được xem là công cụ để hỗ trợ việc học, không phải để xếp hạng hay kiểm soát.44
  • Phương pháp: Thay vì chấm điểm, giáo viên thực hiện Tư liệu hóa Sư phạm (Pedagogical Documentation). Họ quan sát, ghi chép, chụp ảnh và cùng với trẻ/phụ huynh xây dựng “Kế hoạch Giáo dục Mầm non Cá nhân” (Individual ECEC Plan).45 Quy trình này được quy định trong Chương trình Giáo dục Mầm non Quốc gia (National Core Curriculum for ECEC).45
  • Đánh giá Hệ thống: Thay vì kiểm tra từng trẻ, Trung tâm Đánh giá Giáo dục Phần Lan (FINEEC) thực hiện các đánh giá theo mẫu xác suất (sample-based) và đánh giá theo chuyên đề để giám sát chất lượng toàn hệ thống mà không gây áp lực lên từng đứa trẻ.47

 

6.3. Singapore: Kiểm định Chất lượng Nghiêm ngặt và Khung NEL

 

Singapore kết hợp giữa sự chặt chẽ của quản lý nhà nước và xu hướng giáo dục toàn diện hiện đại.

  • Khung NEL (Nurturing Early Learners): Định hướng chương trình cho trẻ 4-6 tuổi, tập trung vào các giá trị cốt lõi, kỹ năng xã hội-cảm xúc và các “phẩm chất học tập” (learning dispositions) như sự kiên trì, tò mò.49 Các nguyên tắc “iTeach” (ví dụ: Giáo viên là người hướng dẫn, Học qua chơi có mục đích) là kim chỉ nam cho phương pháp đánh giá.51
  • Hệ thống SPARK: Đây là khung kiểm định chất lượng quốc gia. Các trường mầm non muốn đạt chứng nhận SPARK phải trải qua quá trình đánh giá nghiêm ngặt sử dụng công cụ Quality Rating Scale (QRS). Phiên bản mới QRS 0-6 đánh giá toàn diện từ lãnh đạo, quy hoạch, quản lý nhân sự đến môi trường học tập.52 SPARK không chỉ là “con dấu chất lượng” mà còn là công cụ để các trường tự soi chiếu và cải thiện (self-appraisal).54

 

6.4. New Zealand: Câu chuyện Học tập (Learning Stories)

 

New Zealand nổi tiếng thế giới với khung chương trình Te Whāriki, nhấn mạnh vào bản sắc văn hóa và sự trao quyền.

  • Phương pháp Tự sự (Narrative Assessment): Công cụ chính là Learning Stories. Giáo viên viết các câu chuyện mô tả những khoảnh khắc học tập của trẻ, tập trung phân tích các “khuynh hướng” (dispositions) và “lý thuyết làm việc” (working theories) của trẻ.55
  • Tính ưu việt: Phương pháp này được đánh giá cao vì nó nắm bắt được bối cảnh (context) của việc học, sự tham gia của gia đình (whānau) và văn hóa bản địa (Māori), điều mà các bảng kiểm (checklists) khó làm được. Nó biến việc đánh giá thành một quá trình chia sẻ và tôn vinh sự phát triển của trẻ.57

7. Tổng hợp So sánh Dữ liệu Kỹ thuật (Psychometric Comparison)

 

Để cung cấp cái nhìn tổng quan về tính khoa học của các công cụ, bảng dưới đây tổng hợp các chỉ số kỹ thuật chính dựa trên dữ liệu nghiên cứu:

 

Công cụ Loại hình Đối tượng Độ tin cậy (Reliability Evidence) Độ giá trị (Validity Evidence) Ghi chú kỹ thuật
TS GOLD Đánh giá quá trình Cá nhân trẻ Alpha Cronbach > 0.96; Person Separation Index 3.34 – 3.77 27 Không thiên lệch (DIF) với nhóm ELL/Khuyết tật; Hiệu chỉnh bằng mô hình Rasch 30 Yêu cầu chứng nhận người chấm (Inter-rater reliability certification)
COR Advantage Đánh giá quá trình Cá nhân trẻ Inter-scorer reliability: 85.7% (TB); Alpha Cronbach: 0.87 – 0.94 31 Phân biệt tốt giữa các độ tuổi và nhóm phát triển 31 Tương thích cao với phương pháp HighScope
CLASS Pre-K Đánh giá môi trường Lớp học Inter-rater reliability cao (nếu đào tạo kỹ); Alpha Cronbach tốt 17 Tương quan dự báo (Predictive validity) dương tính nhưng nhỏ; Hiệu ứng ngưỡng 16 Điểm số nhạy cảm với thời gian và hoạt động quan sát
ECERS-3 Đánh giá môi trường Cơ sở vật chất/Tương tác Duy trì độ tin cậy cao của bản R; Cải thiện phân biệt ở mức chất lượng cao 22 Tương quan với chức năng điều hành của trẻ; Cấu trúc 4 nhân tố 23 Tập trung nhiều hơn vào tương tác so với bản cũ
EDI Giám sát dân số Quần thể trẻ Alpha Cronbach: 0.84 – 0.96; Test-retest: 0.82 – 0.94 34 Dự báo chính xác kết quả học tập lớp 4 và 10; Hợp lệ xuyên văn hóa (Jordan, Úc) 35 Công cụ vĩ mô, không dùng chẩn đoán cá nhân
IDELA Đánh giá trực tiếp Trẻ (LMICs) Test-retest ICC: 0.94; Alpha Cronbach cao 13 Cấu trúc nhân tố vững chắc (4-5 nhân tố); Nhạy cảm với can thiệp 12 Mã nguồn mở, dễ thích ứng

8. Các Xu hướng Chiến lược và Hàm ý Thực tiễn

 

Từ việc phân tích tổng hợp các tài liệu nghiên cứu, ba xu hướng chiến lược nổi bật cần được cân nhắc trong việc xây dựng hệ thống đánh giá:

 

8.1. Sự Hội tụ về “Kỹ năng Mềm” và Chức năng Điều hành

 

Dù xuất phát từ các triết lý khác nhau (OECD tập trung kinh tế, New Zealand tập trung văn hóa), tất cả các khung đánh giá hiện đại đều đang hội tụ về việc coi trọng Chức năng điều hành (Executive Function)Kỹ năng Xã hội-Cảm xúc (SEL). Các nghiên cứu từ IELS và MELQO đều chỉ ra rằng khả năng tự điều chỉnh (Self-regulation) là biến số dự báo thành công học đường mạnh mẽ, thậm chí hơn cả IQ.3 Do đó, bất kỳ hệ thống đánh giá uy tín nào hiện nay cũng phải dành trọng số lớn cho các chỉ số này.

 

8.2. Giải quyết Căng thẳng giữa “Trách nhiệm giải trình” và “Hỗ trợ sư phạm”

 

Có một sự căng thẳng cố hữu giữa nhu cầu quản lý vĩ mô (cần dữ liệu chuẩn hóa, so sánh được) và nhu cầu sư phạm vi mô (cần dữ liệu chi tiết, cá nhân hóa).

  • Mô hình “Dữ liệu hóa quan sát” của TS GOLD tại Mỹ cho thấy một hướng đi tiềm năng: sử dụng công nghệ và thuật toán (như mô hình Rasch) để chuyển đổi các quan sát định tính hàng ngày của giáo viên thành dữ liệu định lượng có thể báo cáo cấp quốc gia.59 Điều này giúp giảm thiểu việc phải tổ chức các kỳ thi riêng biệt gây áp lực cho trẻ, đồng thời tận dụng được dữ liệu phong phú từ quá trình học tập thực tế.

 

8.3. Tầm quan trọng sống còn của “Thích ứng Văn hóa”

 

Bài học từ MELQO 10 và IDELA 60 khẳng định rằng không thể chỉ đơn thuần “dịch” một công cụ đánh giá quốc tế sang ngôn ngữ địa phương. Các khái niệm như “tự lập” hay “kỹ năng xã hội” mang ý nghĩa rất khác nhau tùy thuộc bối cảnh văn hóa. Ví dụ, việc một đứa trẻ nhìn thẳng vào mắt người lớn có thể là biểu hiện của sự tự tin ở phương Tây, nhưng là sự thiếu tôn trọng ở một số văn hóa Á Đông. Do đó, quy trình thử nghiệm tâm lý học (psychometric validation) và thích ứng văn hóa là bước bắt buộc để đảm bảo độ giá trị của công cụ.

Tóm lại, việc xây dựng một hệ thống đánh giá năng lực học sinh mầm non uy tín không chỉ là việc lựa chọn một công cụ kỹ thuật, mà là việc xây dựng một hệ sinh thái cân bằng giữa đánh giá quá trình (để hỗ trợ trẻ), đánh giá môi trường (để cải thiện chất lượng) và giám sát hệ thống (để hoạch định chính sách). Các mô hình thành công trên thế giới đều cho thấy sự đầu tư nghiêm túc vào đào tạo giáo viên sử dụng công cụ và sự tôn trọng đối với các giai đoạn phát triển tự nhiên của trẻ.

Nguồn trích dẫn

  1. Early Childhood Development Index 2030 (ECDI2030) – UNICEF DATA, truy cập vào tháng 11 23, 2025, https://data.unicef.org/resources/early-childhood-development-index-2030-ecdi2030/
  2. Overview: MELQO: Measuring Early Learning Quality and Outcomes, truy cập vào tháng 11 23, 2025, https://unesdoc.unesco.org/ark:/48223/pf0000248053
  3. International Early Learning and Child Well-Being Study – ACER Research Repository, truy cập vào tháng 11 23, 2025, https://research.acer.edu.au/assessgems/20/
  4. IELS – IEA.nl, truy cập vào tháng 11 23, 2025, https://www.iea.nl/studies/additional/IELS
  5. International Early Learning and Child Well-being Study – OECD, truy cập vào tháng 11 23, 2025, https://www.oecd.org/en/about/projects/international-early-learning-and-child-well-being-study.html
  6. International early learning and child well-being study (IELS) – national report for England, truy cập vào tháng 11 23, 2025, https://dera.ioe.ac.uk/id/eprint/36942/2/IELS_national_report_Dec_2020%20%281%29.pdf
  7. Reliability and Validity of International Large- Scale Assessment – ERIC, truy cập vào tháng 11 23, 2025, https://files.eric.ed.gov/fulltext/ED609759.pdf
  8. Readiness to Learn | Brookings, truy cập vào tháng 11 23, 2025, https://www.brookings.edu/learning-metrics-task-force-2-0/readiness-to-learn/
  9. Measuring Early Learning and Quality Outcomes (MELQO) – Unicef, truy cập vào tháng 11 23, 2025, https://www.unicef.org/tanzania/media/1836/file/Measuring%20Early%20Learning%20and%20Quality%20Outcomes%20(MELQO)%20.pdf
  10. ELP – Measuring the quality of early learning programs – World Bank Documents, truy cập vào tháng 11 23, 2025, https://documents1.worldbank.org/curated/en/474431473958525937/pdf/108285-REVISED-PUBLIC-ELP-GN-MeasuringQuality-CEP.pdf
  11. Developing and Validating the International Development and Early Learning Assessment, truy cập vào tháng 11 23, 2025, https://idela-network.org/resource/developing-and-validating-idela/
  12. Assessing the Construct Validity of Save the Children’s International Development and – IDELA, truy cập vào tháng 11 23, 2025, https://idela-network.org/wp-content/uploads/2017/06/Construct-Validity-of-IDELA-Working-Paper-April-2016-FINAL.pdf
  13. Validity and reliability of the developmental assessment screening scale – PMC – NIH, truy cập vào tháng 11 23, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC4943118/
  14. International Development and Early Learning Assessment Technical Working Paper, truy cập vào tháng 11 23, 2025, https://idela-network.org/wp-content/uploads/2017/06/IDELA-technical-working-paper_Q4-2015.pdf
  15. An Assessment of the Validity of the ECERS-R with Implications for Assessments of Child Care Quality and its Relation to Child Development – NIH, truy cập vào tháng 11 23, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC3681422/
  16. Full article: Do Early Childhood Environment Rating Scale-3 and Pre-K Classroom Assessment Scoring System Scores Need to Reach Thresholds to Predict Children’s School Readiness?, truy cập vào tháng 11 23, 2025, https://www.tandfonline.com/doi/full/10.1080/10409289.2025.2535031
  17. Interrater Reliability of the Classroom Assessment Scoring System – Pre-K (CLASS Pre-K), truy cập vào tháng 11 23, 2025, https://www.researchgate.net/publication/299982128_Interrater_Reliability_of_the_Classroom_Assessment_Scoring_System_-_Pre-K_CLASS_Pre-K
  18. Live Versus Video Observations: Comparing the Reliability and Validity of Two Methods of Assessing Classroom Quality – ERIC, truy cập vào tháng 11 23, 2025, https://files.eric.ed.gov/fulltext/EJ1119363.pdf
  19. The Classroom Assessment Scoring System for PreK (CLASS-PreK) and Child Outcomes – NeMTSS Research Brief, truy cập vào tháng 11 23, 2025, https://nemtss.unl.edu/wp-content/uploads/2022/06/21-CLASS-PreK-and-Child-Outcomes.pdf
  20. A Systematic Review and Meta-Analysis of a Measure of Staff/Child Interaction Quality (the Classroom Assessment Scoring System) in Early Childhood Education and Care Settings and Child Outcomes – PubMed Central, truy cập vào tháng 11 23, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC5201239/
  21. Early childhood education and care quality and associations with child outcomes: A meta-analysis – Research journals – PLOS, truy cập vào tháng 11 23, 2025, https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0285985&type=printable
  22. Reliability and Validity of the ECERS-3™ | Environment Rating Scales®, truy cập vào tháng 11 23, 2025, https://ers.fpg.unc.edu/reliability-and-validity-ecers-3%E2%84%A2.html
  23. YEAR 3 REPORT: SEATTLE PRE-K PROGRAM EVALUATION – UW College of Education, truy cập vào tháng 11 23, 2025, https://education.uw.edu/sites/default/files/pdf/SPP_Evaluation_Year_3_Report.pdf
  24. Technical Manual for the Teaching Strategies GOLD® Assessment (2nd Edition), truy cập vào tháng 11 23, 2025, https://teachingstrategies.com/wp-content/uploads/2020/09/2020-Tech-Report_GOLD_B-3_V4.pdf
  25. INDIANA HEAD START & EARLY HEAD START NEEDS ASSESSMENT 2024 – IN.gov, truy cập vào tháng 11 23, 2025, https://www.in.gov/fssa/carefinder/files/2024-Head-Start-Needs-Assessment.pdf
  26. Teaching Strategies GOLD® Assessment System, truy cập vào tháng 11 23, 2025, https://teachingstrategies.com/wp-content/uploads/2017/03/GOLD-Tech-Summary-8-18-2011.pdf
  27. Technical Report – Teaching Strategies, truy cập vào tháng 11 23, 2025, https://teachingstrategies.com/wp-content/uploads/2021/08/GOLD-K-Tech-Report-Lambert-Kim-Burts.pdf
  28. Interrater Reliability Certification – Teaching Strategies, truy cập vào tháng 11 23, 2025, https://teachingstrategies.com/wp-content/uploads/2017/08/MyTeachingStrategies-How-To-Guide-for-Administrators_Interrater-Reliability.pdf
  29. Interrater Reliability Certification – Teaching Strategies, truy cập vào tháng 11 23, 2025, https://teachingstrategies.com/wp-content/uploads/2017/08/MyTeachingStrategies-How-To-Guide-for-Teachers_IRR.pdf
  30. Evidence of the Validity of Teaching Strategies GOLD® Assessment Tool for English Language Learners and Children with Disabilit, truy cập vào tháng 11 23, 2025, https://teachingstrategies.com/wp-content/uploads/2017/03/Abstract-GOLD-Validity-ELL-Disability-UPDATED-9-17-2014-1.pdf
  31. Technical Report of the COR Advantage Validation Study, truy cập vào tháng 11 23, 2025, http://www.redesetgrow.com/wp-content/uploads/technical-report-of-the-COR-advantage-validation-study.pdf
  32. Early Development Instrument | Center for Healthier Children, Families & Communities, truy cập vào tháng 11 23, 2025, https://healthychild.ucla.edu/programs/data-informed-futures/measures/early-development-instrument
  33. About the validity and reliability of the Australian version of the Early Development Instrument (AvEDI), truy cập vào tháng 11 23, 2025, https://www.aedc.gov.au/docs/default-source/default-document-library/aedc-fact-sheet—validity-and-reliability-of-the-avedi.pdf?sfvrsn=2197a0ad_1
  34. EARLY DEVELOPMENT INDEX (EDI) RESEARCH DOSSIER 2017 – First 5 Orange County, truy cập vào tháng 11 23, 2025, https://first5oc.org/wp-content/uploads/2017/08/EDI-Research-Dossier_Final2.pdf
  35. Validity and Psychometric Properties of the Early Development Instrument in Canada, Australia, United States, and Jamaica | Request PDF – ResearchGate, truy cập vào tháng 11 23, 2025, https://www.researchgate.net/publication/225816120_Validity_and_Psychometric_Properties_of_the_Early_Development_Instrument_in_Canada_Australia_United_States_and_Jamaica
  36. Psychometric properties and factor structure of the Early Development Instrument in a sample of Jordanian children – PubMed Central, truy cập vào tháng 11 23, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC9769466/
  37. Ages and Stages – ASQ-3, truy cập vào tháng 11 23, 2025, https://agesandstages.com/products-pricing/asq3/
  38. Classification Performance of the Ages and Stages Questionnaire: Influence of Maternal Education Level – NIH, truy cập vào tháng 11 23, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC10047153/
  39. Interactive Head Start Early Learning Outcomes Framework: Ages Birth to Five, truy cập vào tháng 11 23, 2025, https://headstart.gov/interactive-head-start-early-learning-outcomes-framework-ages-birth-five
  40. OCDEL Approved Child Assessment Information – Commonwealth of Pennsylvania, truy cập vào tháng 11 23, 2025, https://www.pa.gov/agencies/education/programs-and-services/instruction/early-learning/early-learning-standards/approved-child-assessment-information
  41. ELRC 25-02: OCDEL-Approved Curricula and Developmental Assessment Tools in Keystone STARS – The Pennsylvania Key, truy cập vào tháng 11 23, 2025, https://www.pakeys.org/elrc-25-02/
  42. Head Start Solutions – Curriculum, Assessment & More- Teaching Strategies, truy cập vào tháng 11 23, 2025, https://teachingstrategies.com/solution/head-start/
  43. Teaching Strategies® Curriculum and Assessment Solutions: Alignment to Head Start Program Performance Standards, truy cập vào tháng 11 23, 2025, https://teachingstrategies.com/wp-content/uploads/2021/08/Teaching-Strategies_Alignment-to-Head-Start-Program-Performance-Standards.pdf
  44. Finland’s children-centric school system: a global model for success – Humanium, truy cập vào tháng 11 23, 2025, https://www.humanium.org/en/finlands-children-centric-school-system-a-global-model-for-success/
  45. National core curriculum for ECEC in a nutshell | Finnish National Agency for Education, truy cập vào tháng 11 23, 2025, https://www.oph.fi/en/education-and-qualifications/national-core-curriculum-ecec-nutshell
  46. National core curriculum for early childhood education and care, truy cập vào tháng 11 23, 2025, https://www.oph.fi/sites/default/files/documents/National%20core%20curriculum%20for%20ECEC%202022.pdf
  47. Finland’s Approach to Early Childhood Care and Education Evaluation: Fostering Enhancement – UNESCO, truy cập vào tháng 11 23, 2025, https://www.unesco.org/en/early-childhood-education/finlands-approach-early-childhood-care-and-education-evaluation-fostering-enhancement
  48. Quality assurance in early childhood and school education – Eurydice network, truy cập vào tháng 11 23, 2025, https://eurydice.eacea.ec.europa.eu/eurypedia/finland/quality-assurance-early-childhood-and-school-education
  49. Nurturing Early Learners (NEL) Framework – Singapore – MOE, truy cập vào tháng 11 23, 2025, https://www.moe.gov.sg/preschool/curriculum
  50. EDUCATORS’ GUIDE FOR VALUES, SOCIAL AND EMOTIONAL COMPETENCIES AND LEARNING DISPOSITIONS, truy cập vào tháng 11 23, 2025, https://isomer-user-content.by.gov.sg/57/750b50bf-24eb-4aca-9fee-779ecc1f0745/Nurturing%20Early%20Learners%202022%20Educators%20Guide%20Values%20Social%20and%20Emotional%20Competencies%20and%20Learning%20Dispositions_v2.pdf
  51. Nurturing Early Learners – A Curriculum Framework for Preschool Education in Singapore, truy cập vào tháng 11 23, 2025, https://www.ecda.gov.sg/docs/growbeanstalklibraries/default-document-library/frameworks-and-guides/nurturing-early-learners/nel-framework.pdf
  52. SPARK | Quality Rating Scale – Early Childhood Development Agency (ECDA), truy cập vào tháng 11 23, 2025, https://www.ecda.gov.sg/sparkinfo/quality-rating-scale
  53. SPARK Quality Rating Scale (0-6) | PDF | Preschool | Early Childhood Education – Scribd, truy cập vào tháng 11 23, 2025, https://www.scribd.com/document/583448711/SPARK-Quality-Rating-Scale-0-6
  54. How does the new SPARK 2.0 tool differ from the Quality Rating Scale (QRS)? – ask gov, truy cập vào tháng 11 23, 2025, https://ask.gov.sg/ecda/questions/cm4mgs6sf0092ptnrhcyzii29
  55. Assessment Planning and evaluation – Te Whāriki Online – Ministry of Education, truy cập vào tháng 11 23, 2025, https://tewhariki.tahurangi.education.govt.nz/assessment-planning-and-evaluation/5637165598.p
  56. Early Childhood Assessment in Aotearoa New Zealand: Perspectives on Narrative Assessment – University of Canterbury, truy cập vào tháng 11 23, 2025, https://ir.canterbury.ac.nz/bitstreams/f9554256-cd33-47f7-b1b3-c7df2a75ff5f/download
  57. How to use learning stories in ECE assessment – The Education Hub, truy cập vào tháng 11 23, 2025, https://theeducationhub.org.nz/wp-content/uploads/2019/08/How-to-use-learning-stories-in-ECE-assessment.pdf
  58. Te Whāriki Early Childhood Curriculum – The Office of ECE (OECE), truy cập vào tháng 11 23, 2025, https://oece.nz/public/evidence/quality-teaching/te-whariki-early-childhood-curriculum/
  59. Technical Report – Teaching Strategies, truy cập vào tháng 11 23, 2025, https://teachingstrategies.com/wp-content/uploads/2018/05/CEMETR-2017-02-Lambert_0.pdf
  60. Baseline Study on International Development and Early Learning Assessment (IDELA), truy cập vào tháng 11 23, 2025, https://idela-network.org/wp-content/uploads/2018/08/Final-IDELA-Study-Report-Annex.pdf