Une mesure de la difficulté de la tâche. Eovup : le test comme méthode de diagnostic Capacité différenciatrice du test

Sciences pédagogiques CDU 37.011, 519.23

CAPACITÉ DE DIFFÉRENCIATION DU MATÉRIEL DE TEST POUR ÉVALUER LA QUALITÉ DE LA FORMATION Elena Vladimirovna Alpatskaya, candidate en sciences pédagogiques, professeur agrégé, Nikolay Viktorovich Bubnov, professeur principal, Alexander Vasilievich Minchenkov, candidat, Smolenskaya académie d'état culture physique, sports et tourisme

(SGAFKST) Résumé L'article est consacré au problème de la préparation du matériel de test pour évaluer la qualité de la formation. Tout matériel de contrôle doit avoir un certain nombre de propriétés (contenu informatif, fiabilité, capacité de différenciation). À cette fin, l'enseignant doit aborder la préparation de son matériel de test d'un point de vue scientifique, en utilisant des méthodes de statistiques mathématiques. Dans cet ouvrage, les auteurs, à l'aide d'exemples précis, examinent les moyens de déterminer la capacité différenciatrice d'un test, en se concentrant sur différents types de questions. Le matériel présenté est destiné à aider les enseignants à évaluer la qualité de l'apprentissage des élèves dans les disciplines enseignées.

Mots clés : qualité de l'enseignement, tests, capacité différenciatrice.

DOI : 10.5930/issn.1994−4683.2015.11.129.p9−14

CAPACITÉ DE DIFFÉRENCIATION DES MATÉRIAUX D'ESSAI POUR ÉVALUER LES

QUALITÉ DE L'ÉDUCATION

Elena Vladimirovna Alpatskaya, candidate en sciences pédagogiques, maître de conférences, Nikolay Viktorovich Bubnov, professeur principal, Alexander Vasilyevich Minchenkov, concurrent, Académie d'État d'éducation physique, de sport et de tourisme de Smolensk

Le problème des tests préparant à l'évaluation des étudiants"- les connaissances est abordé dans l'article. Le matériel de test doit être informatif, fiable, montrant la capacité de différenciation. La capacité de différenciation des tests permet de différencier un test fort d'un faible 1. Les auteurs considèrent dans cette étude des exemples de méthodes de détermination de la capacité de différenciation du test, en se concentrant sur les différents types de questions. L'article doit aider l'enseignant à évaluer la qualité des élèves" - l'éducation dans les matières étudiées.

Mots-clés : qualité de l'enseignement, test, capacité de différenciation.

La croissance rapide du développement de l’enseignement à distance en Russie nous oblige à nous tourner une fois de plus vers la question du test des connaissances des étudiants. Mais lors de l'enseignement à distance, l'étudiant doit acquérir non seulement des connaissances, mais également des compétences et des capacités, et l'enseignant, à son tour, est obligé d'évaluer et de déterminer le niveau de sa maîtrise. Le contrôle opérationnel à l'aide de programmes de tests a été obtenu en Dernièrement de plus en plus répandue. Il existe une attitude ambivalente à l’égard de cette méthode de contrôle dans le milieu pédagogique, mais elle doit être acceptée comme une réalité objective. En raison de la nature de nos activités professionnelles, nous avons dû participer à des tests d'étudiants dans divers domaines. disciplines académiques, incluant le cycle professionnel dans le sens de la formation « Education Physique ». Sur cette base, il a été conclu que le contrôle programmable des connaissances ne fournit pas toujours à l'enseignant des informations objectives pour gérer l'activité cognitive des élèves et la corriger. Cela peut s'expliquer par une approche peu qualifiée de l'élaboration et de la vérification de la qualité du processus de contrôle.

matériel grammatical. Avant d'introduire des programmes de tests dans le processus éducatif, les enseignants doivent vérifier la difficulté (capacité de différenciation), la fiabilité et le contenu informatif. Et ce n'est qu'après des tests et une vérification empirique que les programmes de test peuvent remplir efficacement diverses fonctions didactiques : enseigner, surveiller, gérer, activer et intensifier les activités des étudiants. L'analyse des sources littéraires nous a permis de conclure que sans l'application correcte de l'analyse mathématique et statistique, les programmes de tests développés ne peuvent avoir de valeur pratique pour le processus éducatif, notamment dans des conditions Apprentissage à distance. Certaines de ces méthodes de contrôle et d'évaluation de la qualité des programmes de tests, l'une des principales méthodes consistant à identifier la valeur diagnostique (difficulté ou facilité) des questions, seront présentées ci-dessous.

La valeur du diagnostic est déterminée par le pourcentage de réponses correctes par rapport au nombre total de réponses possibles. Une question est considérée comme assez difficile lorsque pas plus de 75 % des étudiants y répondent. Plus la difficulté d'une question est proche de 100 % ou de 0, moins il est possible d'obtenir des informations différenciées avec son aide. Comme l’a montré l’analyse essais de contrôle, utilisés à l'académie par des enseignants de diverses disciplines, les programmes de tests contiennent des questions auxquelles répondent pas plus de 80 à 85 % et pas moins de 10 à 15 % des étudiants.

L'exactitude des questions est déterminée par leur capacité de différenciation, qui est exprimée par l'indice de différenciation « I ». Il vous permet d'obtenir un maximum d'informations sur la question elle-même et le système de questions dans le but de leur amélioration qualitative ultérieure. Étudiants groupe d'étude doivent être divisés en deux sous-groupes : forts et faibles. L'indice de différenciation est déterminé par la formule : I = (O1-O2)^, où O : est le nombre de réponses correctes dans le sous-groupe fort ; O2 est le nombre de réponses dans le sous-groupe faible ; N est le nombre d'élèves testés. .

L'indice de différenciation peut varier de -1 à +1. Dans le programme de test développé, pour chaque question, la valeur acceptable est L=+0,4. Une valeur inférieure indique que la formulation et la qualité de cette question ne permettent pas de distinguer les étudiants selon leur niveau de préparation théorique. Si l’indice de différenciation est négatif, alors la question doit être retravaillée ou remplacée par une autre. Après avoir analysé et éliminé les questions insatisfaisantes en termes de difficulté, vous pouvez obtenir des programmes de tests contenant des questions à peu près tout aussi difficiles.

Pour une différenciation maximale, le nombre total de questions doit être d'un niveau de difficulté de 0,50. Le pouvoir différenciateur des questions montre dans quelle mesure une tâche particulière permet de distinguer les acquis positifs des élèves dans le contexte du matériel pédagogique testé.

Lors du test expérimental, il est recommandé d'analyser les questions et de calculer l'indice de différenciation à l'aide de tableaux spéciaux. Une telle table virtuelle est présentée dans le tableau 1.

Tableau 1

Analyse des questions incluses dans le programme de test_

Nombre de questions Groupe fort G1 Groupe faible G2 P1 Pg Indice de différenciation I

Nombre de bonnes réponses, p1 Nombre de bonnes réponses, p2

Le tableau indique quelles questions doivent être laissées dans le programme de test, mais également remplacées ou retravaillées. Également dans les programmes de test, il est nécessaire d'analyser les réponses proposées pour choisir sur des questions individuelles. Discuter avec ceux

En examinant les questions auxquelles, dans la plupart des cas, des réponses non sans ambiguïté, mais différentes ont été données, le groupe peut découvrir la raison de leur inexactitude. Si les questions et réponses sont mal formulées, elles doivent être révisées ou même exclues du programme de test.

Comme mentionné ci-dessus, selon les résultats d'une enquête menée sur les programmes de tests, les étudiants sont répartis en deux groupes : forts (G ! - avec un nombre élevé de réponses correctes) et faibles (G2 - avec un faible nombre de réponses). Afin de découvrir les questions mal rédigées, vous pouvez analyser les réponses à l'aide d'un tableau spécial (tableau 2). Cette option est donnée à titre d'exemple.

Tableau 2

Analyse des réponses proposées au choix pour les questions individuelles du _programme de test_

N° Groupe Réponses sélectionnées à la question 1 2 3 4 5

N G1 0 0 15 0 0

Remarque : les données sur les réponses correctes sont mises en évidence en gras, N est le nombre de questions.

Les options de réponse pour la première question montrent que le choix de la quatrième réponse est lié au fait qu'elle contient des informations qui ont amené six étudiants du groupe fort à la préférer à la bonne réponse. La raison peut être déterminée par l'enseignant lors de l'entretien en lui demandant de justifier son choix de réponse.

Dans la deuxième question, les réponses sont réparties de manière égale entre les quatre options incorrectes. Ce résultat suggère soit une formulation infructueuse de la question elle-même, soit la bonne réponse.

La troisième question est trop difficile pour les matières : 11 étudiants du groupe fort et les 15 étudiants du groupe faible ont donné la mauvaise réponse. Le choix légèrement plus large de la quatrième réponse par rapport aux autres options indique sa plausibilité, en particulier pour les étudiants du groupe le plus faible. L'absence totale de bonnes réponses dans le groupe faible indique que cette réponse (numéro 2) semble erronée à un étudiant qui ne connaît pas bien le cours étudié. Ces propriétés caractérisent la haute valeur didactique de la question et les options de réponse sélectives. Un entretien dans un groupe de test peut montrer que cette question n'est pas vraiment difficile, elle concerne simplement une partie du sujet que les étudiants maîtrisent mal.

Six étudiants du groupe faible ont mal répondu à la question M. Dans ce cas, le nombre de réponses incorrectes sélectionnées ne dit pas grand-chose sur l’exactitude de la question. Par conséquent, l'enseignant doit mener une discussion sur cette question avec les élèves, ce qui lui permettra d'identifier les éléments suivants : la question est-elle vraiment trop facile et n'a-t-elle pas de valeur didactique, ou la formulation elle-même oriente les élèves vers la bonne réponse, ou cette question est nécessaire, mais se rapporte à une question qui a été bien étudiée par les sujets Matériel pédagogique. Dans le premier cas, la question doit être exclue du programme de test, dans le second, retravaillée et dans le troisième, laissée inchangée.

Une analyse similaire des questions et réponses doit être effectuée pour chaque programme de test développé. Cela permettra d'apporter des ajustements en temps opportun au matériel programmé, avant qu'il ne soit directement introduit dans le processus éducatif.

La valeur diagnostique des questions peut être déterminée par d'autres méthodes. Citons-en quelques-uns.

Sur la base des résultats des tests expérimentaux du programme de test, les réponses incorrectes des étudiants sont inscrites dans des tableaux spéciaux (tableau 3).

Tableau 3

Questions Réponses incorrectes dans le groupe « faible », Uk Réponses incorrectes dans le groupe « fort », Ut Différence des réponses incorrectes dans les groupes « fort » et « faible » (Uk-Ut) Somme des réponses incorrectes dans les groupes « fort » et groupes « faibles » (Uk + Ut)

La valeur diagnostique (V) de chaque question du programme de test est déterminée

est déterminé par la formule : Bu =

K x (Um+ut)

Où K est le nombre total de questions (suivant

respectivement, et réponses possibles) - n - nombre de sujets (en « fort » (« faible ») N x 27 AG _

groupe). n =- où N est le nombre total d'étudiants qui ont répondu aux questions

programme de diffusion. Euh… mauvaises réponses dans le groupe « faible », Euh… mauvaises réponses dans le groupe « fort ».

À titre d'exemple, nous évaluons la valeur diagnostique d'un programme de tests auquel 60 étudiants ont participé (SH, et les réponses incorrectes ont été réparties comme indiqué dans le tableau 4. Le nombre d'étudiants en « faible » et « fort »

le groupe sera déterminé par la formule : n =

100 100 programme de vol N (https://site, 15).

Valeur diagnostique de la première question :

B = K x (Um + Um) = 10 (3 +1)

16. Nombre de questions dans le texte

2p (K -1) 2×16 (10 -1)

De même, la valeur diagnostique de la deuxième question BU2 = 31 %, de la troisième question BU3 = 48 % et de la dixième question BU10 = 59 %.

Si les valeurs BU sont comprises entre 16 % et 84 %, alors les questions du programme de test ont une valeur satisfaisante. S'il est inférieur à 16 %, alors les questions sont trop faciles pour les candidats, et s'il est supérieur à 84 %, alors elles sont trop difficiles.

La valeur diagnostique des questions du programme de contrôle peut être déterminée par les données numériques présentées dans les quatrième et cinquième colonnes du tableau 4. plus le nombre (Uy-Ut) indiqué dans la quatrième colonne du tableau est grand, plus la valeur diagnostique est élevée, plus le nombre (Uy+Ut) indiqué dans la cinquième colonne est grand, plus les questions sont difficiles.

Parfois, les nombres de la quatrième colonne peuvent avoir des valeurs négatives. Cela signifie que les étudiants « forts » répondent incorrectement à ces questions, tandis que les étudiants « faibles » y répondent correctement. Cela suggère que ces questions ne sont pas formulées de manière claire et sans ambiguïté et nécessitent une révision ou un remplacement important.

Dans certains programmes de test, les tâches (questions) varient (terminées et non terminées), c'est-à-dire que chacune d'elles ne peut avoir que deux états (1 ou 0, oui ou non, « + » ou « - »).

Par conséquent, pour étudier leur relation, vous pouvez utiliser le coefficient de conjugaison tétrachorique (corrélation) : t _ (A x D ~B x C)~ 0,5 x n

4 ans (A + B) x (C + D) x (A + C) x (B + D) "-

où T4 est le coefficient de corrélation tétrachorique. A, B, C et D - taille du groupe, ou fréquences variantes, réparties dans les cellules du tableau de corrélation à quatre champs correspondant, n - taille de l'échantillon.

Rbs _ —s- у—(—1), où m1 et m2 sont les moyennes arithmétiques des groupes alternatifs,

nj et n2 sont les volumes de ces groupes, N=n1+n2 - nombre total observations ou taille de l’échantillon, Sm est l’écart type pour l’ensemble de l’échantillon.

Pour calculer le Rbs, deux séries statiques sont comparées : l'une est quantitative, exprimant le succès global de la réponse au programme de test proposé, il s'agit le plus souvent du nombre de tâches correctement réalisées par les étudiants, l'autre série est qualitative. Il comporte deux groupes alternatifs (1 ou 0, "+" ou "-"). Le premier signifie que la tâche est terminée et le second signifie que la tâche n’est pas terminée. Le coefficient de contingence bisérial varie de -1 à +1. Lorsque m1=m2, Rbs=0. La signification de Rbs est évaluée à l'aide du test t de Student.

En conclusion, il convient de noter qu'il est recommandé de tester expérimentalement les programmes de tests sur une population étudiante adéquate. Si, par exemple, les programmes de tests sont destinés aux étudiants de première année, leur normalisation est effectuée sur la base des données d'une expérience à laquelle seuls les étudiants de première année ont participé. Lors de la création de matériel de test et de mesure, l'enseignant doit se rappeler que les tests développés ne peuvent être considérés comme complets s'ils ne reçoivent pas une note satisfaisante en termes de fiabilité et de contenu informatif. L’espace limité de l’article ne permet pas d’aborder ces deux questions.

1. Avanessov, V.S. Problèmes scientifiques tester le contrôle des connaissances / V. S. Avanesov. - M. : Maison d'édition "Testing Center", 1994. - 240 p.

2. Alpatskaya, E. V. Évaluation de la qualité des programmes de test à l'aide de méthodes de statistiques mathématiques : recommandations méthodologiques / E. V. Alpatskaya, N. V. Bubnov. — Smolensk : [b. i.], 2012. -21 p.

3. Andreeva, A. V. Utilisation de systèmes d'information automatisés pour évaluer et gérer la qualité de l'éducation [Ressource électronique] / A. V. Andreeva // Problèmes modernes de la science et de l'éducation. - 2013. - N° 1. - URL : http://es.rae.ru/science/195−881 (date d'accès 27/02/2015).

4. Mayorov, A. N. Théorie et pratique de la création de tests pour le système éducatif / A. N. Mayorov. - M. : Centre Intellect, 2002. - 296 p.

1. Avanesov, V.S. (1994), Les problèmes scientifiques du contrôle des connaissances des tests, maison d'édition Testing Center, Moscou.

2. Alpatskaïa, E.V. et Boubnov N.V. (2012), Méthodes de programmes de test d'évaluation de la qualité des statistiques mathématiques, SGAFKST, Smolensk.

3. Andreeva, A.V. (2013), « Les systèmes d'information automatisés pour évaluer et gérer la qualité de l'éducation », Journal of Modern Problems of Science and Education, No. 1, disponible sur : es.rae.ru/science/195−881, Moscou.

4. Majorov, A.N. (2002), La théorie et la pratique créant des tests d'éducation, Intellect-Centre, Moscou.

Coordonnées: [email protégé]

L'article a été reçu par la rédaction le 30 octobre 2015.

MÉTHODE DE FOOTDRAWING DANS LA FORMATION TECHNIQUE DES JOUEURS DE FOOTBALL Al Rubaie Nuhad Habbas, étudiant diplômé, Mikhail Alexandrovich Pravdov, docteur en sciences pédagogiques, professeur, branche Shuya de l'Université d'État d'Ivanovo, Shuya Résumé L'article présente les résultats d'une étude sur la mise en œuvre du footdrawing technique dans le processus de formation technique des joueurs de football. Il a été établi que l'utilisation d'actions motrices spéciales associées au dessin avec les pieds contribue au développement des capacités de coordination chez les footballeurs. Les principaux types de lignes à tracer, modélisant les trajectoires des mouvements du pied avec le ballon, ont été déterminés. Un équipement permettant de dessiner différentes parties des jambes lors de la simulation d'actions avec le ballon est présenté.

Mots clés : dessin avec un pied, trajectoires de la jambe d'un footballeur, matériel d'entraînement, capacités de coordination.

DOI : 10.5930/issn.1994−4683.2015.11.129.p14−18

MÉTHODE DE DESSIN DE PIEDS DANS LA PRÉPARATION TECHNIQUE DU

JOUEURS DE FOOTBALL

Al Rubaye Nuhad Kh Abbas, l'étudiant de troisième cycle,

Mikhaïl Alexandrovitch Pravdov, docteur en sciences pédagogiques, professeur à l'Université d'État d'Ivanovo (branche de Chouïa), Chouïa

L'article présente les résultats de l'étude sur la mise en œuvre de la méthode « footdrawing » lors de l'entraînement technique des joueurs. Il a été constaté que l'utilisation des actions motrices spécifiques liées au dessin du pied contribue au développement des capacités de coordination des joueurs. Les principaux types de lignes à tracer, simulant la trajectoire du mouvement du pied avec le ballon, ont Le matériel permettant de dessiner avec les différentes parties des jambes tout en simulant les actions avec le ballon a été présenté.

Mots clés : dessin des pieds, trajectoire des jambes du footballeur, équipement d'entraînement, capacités de coordination.

INTRODUCTION La caractéristique la plus importante du degré de compétence des joueurs de football est le niveau de préparation technique. Actuellement, la couche culturelle de recherche consacrée à la résolution des problèmes de formation technique des joueurs de football est représentée par de nombreux développements scientifiques et méthodologiques. Dans le même temps, la recherche de nouvelles approches, formes, moyens et méthodes de formation technique reste toujours la plus importante. problème réel pour les scientifiques et les praticiens. Dans l'éventail des domaines d'amélioration des composantes de l'entraînement technique, une attention particulière est portée aux problèmes associés à la formation de capacités motrices d'ordre supérieur chez les joueurs - un ensemble d'actions avec le ballon qui répondent aux paramètres de précision, de vitesse d'exécution lorsque réception, dribble, passe, feintes et frappes. L'analyse de la recherche scientifique nous permet de conclure que les travaux consacrés à l'étude de la cinématique des mouvements de parties individuelles de la jambe lors de l'exécution d'actions motrices avec un ballon en dynamique

Remplissez le formulaire avec votre emploi actuel
Autres emplois

La place de l'approche culturelle, reflétant l'orientation des valeurs de l'éducation, parmi les paradigmes éducatifs modernes est examinée. L'espace pédagogique d'un cours de littérature en tant qu'environnement social et éducatif est caractérisé, les mécanismes de sa construction sont donnés et le potentiel de ressources pour la mise en œuvre de l'approche culturelle est justifié. Les indicateurs suivants ont été pris en compte...

Le concept méthodologique et sa mise en œuvre dans un projet pédagogique innovant pour une étude approfondie des fondements de la physique relativiste quantique moderne et de la cosmologie en lycée. La recherche vise le développement de l'enseignement de la physique dans le contexte du paradigme éducatif moderne.

L'article traite du mécanisme d'interaction de toutes les parties intéressées pour résoudre le problème de la pertinence des activités. organismes éducatifs, la gamme et la qualité des programmes éducatifs, les conditions socio-économiques, les exigences du marché du travail et les attentes des consommateurs directs de services éducatifs. En tant que personnage clé du système de relations...

L'éducation moderne nous a obligé à jeter un nouveau regard sur le processus de travail éducatif à la maternelle. Rôle important L’utilisation des technologies modernes de l’information et de la communication peut jouer un rôle à cet égard. Grâce aux capacités des ordinateurs modernes, notamment les écrans tactiles, ou à l'aide d'une tablette, un enfant a la possibilité d'agir...

Une nouvelle approche pour la formation d'un modèle d'enseignement moderne est proposée. La structure du système d'information universitaire est considérée. Technologie en discussion système intelligent pour former une base de données unifiée de matériel pédagogique.

Les compétences ne peuvent être développées sans une base suffisante d'aka-. Ayant une telle connaissance, expliquez pourquoi les personnages de la comédie de Griboïedov se souviennent si souvent de Voltaire, pourquoi la mère de Tatiana Larina « était folle de Richardson elle-même » et sa fille « est tombée amoureuse des tromperies de Richardson et de Rousseau » ? Il n'y a rien à dire sur la compréhension littérature moderne avec son intertextualité, son abondance d'anciens...

En plus de l'utilisation de tests individuels de capacités spéciales, en Occident, ils utilisent largement tester les batteries, ceux. des groupes de tests qui mesurent des caractéristiques relativement indépendantes d'individus, qui contribuent ensemble à la mise en œuvre réussie d'une activité particulière. À l'aide de batteries, il est possible d'obtenir des profils d'indicateurs de test pour des caractéristiques significatives relativement indépendantes identifiées grâce à des études analytiques factorielles.

La première tentative visant à créer de telles batteries de capacités complètes a été les tests de Chicago sur les capacités mentales de base. (Tests d'aptitudes mentales primaires - PMA). Ils étaient basés sur le concept de L. Thurstone selon lequel il existe 12 capacités mentales primaires indépendantes qui sont à la base du succès. Activités éducatives. Publiés pour la première fois en 1941, ils étaient destinés aux lycéens et aux étudiants. Cette batterie a ensuite été améliorée (1962) pour inclure des tests de plus jeunes. Cependant, en raison de la présence d'un certain nombre de lacunes importantes (faible fiabilité et validité, insuffisance des normes, caractère déraisonnable d'un certain nombre d'indicateurs, dépendance excessive des résultats à la vitesse), il a désormais été remplacé par plus techniques modernes du même genre.

L'un d'eux est une batterie complète de tests de diverses capacités (Tests d'aptitude différentielle -DAT). Cette batterie, publiée en 1947, fut ensuite révisée à plusieurs reprises ; il est destiné à conseiller les élèves de la 8e à la 12e année dans le processus de leur éducation et de leur orientation professionnelle. Il est administré sous deux formes équivalentes, S et T, dont chacune comprend huit sous-tests.

Exemples de tâches

1. Pensée verbale.

Sélectionnez la paire de mots souhaitée pour combler les vides de la phrase. Le premier mot de la paire comble le vide au début de la phrase, le second à la fin :

Le soir et le petit-déjeuner...

A. Dîner - coin.

B. Doux - matin.

C. Porte - coin.

D. Le flux est la joie.

E. Dîner - matin. La bonne réponse est E.

2. Capacités numériques.

Pour chaque problème, trouvez la bonne réponse : Additionnez 13 et 12

E. Aucun des chiffres donnés. La bonne réponse est b.

3. La pensée abstraite.

Chaque tâche consiste en une série de chiffres qui changent selon une certaine règle. Après avoir compris la règle de changement des chiffres dans chaque tâche, vous devriez retrouver la suite de la série de chiffres en choisissant une réponse parmi les cinq options proposées.

4. Vitesse et précision de la perception.

Dans chaque tâche de test, l'une des cinq combinaisons de symboles proposées est soulignée. Le sujet devait cocher exactement la même combinaison sur le formulaire de réponse.

5. Réflexion technique.

Chaque tâche consiste en une situation technique décrite et une courte question à laquelle répondre nécessite une compréhension technique.

6. Relations spatiales.

Dans les tâches sur l'analyse représentée figure géométrique vous devez trouver une parmi quatre options de réponse.

7. L'alphabétisation.

Indiquez quel mot est écrit correctement et lequel est mal orthographié.

  • (Les bonnes réponses sont marquées de symboles x).
  • 8. Utilisation du langage.

Indiquez laquelle des parties alphabétiques de la phrase contient l’erreur et marquez cette partie sur votre feuille de réponses avec un x. Si la phrase ne contient aucune erreur, cochez H.

A. Allons-nous/au travail/la semaine prochaine ?

La batterie DAT a été standardisée et testée pour sa validité et sa fiabilité sur un échantillon représentatif de la population d'élèves américains de la 8e à la 12e année. L'échantillon comprenait plus de 64 000 élèves de 76 écoles réparties dans 33 États et dans le District de Columbia. Les données sur la validité du DAT s'élèvent à plusieurs milliers de coefficients, dont la plupart concernent la validité prédictive des acquis scolaires et la réussite des études ultérieures (dans les universités, les filières et écoles spécialisées, etc.). Il est reconnu que cette batterie fait un bon travail pour évaluer les capacités des individus dans les activités éducatives. général. Cependant, le critère éducatif ne permet pas toujours de prédire réalisations professionnelles, mais il n'y a pas suffisamment de données pour les critères professionnels.

Par conséquent, d’autres techniques sont utilisées aux fins de conseil professionnel. L’une des plus reconnues est la batterie de tests d’aptitude générale. (Batterie de Test d'Aptitude Générale - GATB). Il a été développé par le US Employment Service spécifiquement pour être utilisé dans les activités des consultants des agences gouvernementales. Cette batterie mesure neuf facteurs et comprend 12 tests. Le GATB présente les facteurs suivants :

  • 1) capacité d'apprentissage générale (évalué par la note totale de trois tests - vocabulaire, pensée mathématique et perception espace tridimensionnel);
  • 2) capacités verbales (mesuré par un test de vocabulaire dans lequel le candidat doit indiquer lequel des deux mots de chaque ensemble a un sens identique ou opposé) ;
  • 3) capacités numériques (évalué par des tests de calcul et de raisonnement mathématique) ;
  • 4) capacités spatiales (mesuré par un test de perception de l'espace tridimensionnel, comprenant des tâches pour comprendre le reflet d'objets tridimensionnels dans un espace bidimensionnel et la capacité d'imaginer le résultat d'un mouvement en trois dimensions) ;
  • 5) perception des formes (mesuré par deux tests dans lesquels le sujet compare des dessins de pièces et des formes géométriques) ;
  • 6) perception mentale (les tests sont similaires à ceux utilisés pour évaluer la perception des formes, mais les noms sont comparés, pas les dessins et les formes) ;
  • 7) la coordination motrice (mesuré par un test simple dans lequel le sujet fait certaines marques avec un crayon dans une série de carrés) ;
  • 8) motricité des doigts (mesuré par deux tests dans lesquels le sujet connecte et déconnecte respectivement des rivets et des rondelles) ;
  • 9) motricité manuelle (évalué à l'aide de deux tests dans lesquels le sujet bouge et retourne des pièces sur un plateau).

La batterie entière dure environ 2,5 heures.

La General Ability Test Battery a été standardisée sur un échantillon de 4 000 personnes, représentatif de la population ouvrière américaine. Des systèmes d'indicateurs ont été trouvés dans lesquels pour chaque profession les caractéristiques qui contribuent à sa maîtrise et leurs niveaux minimaux acceptables ont été établis. Par exemple, pour un comptable, il est nécessaire d’obtenir des scores d’au moins 105 sur le facteur de capacité générale d’apprentissage et d’au moins 115 sur le facteur de capacité numérique. Pour un mécanicien, le score minimum pour la capacité d'apprentissage générale est de 85, les compétences motrices spatiales et manuelles sont de 85 et la perception mentale est de 75.

Lors de la consultation, le profil des indicateurs d'un individu est comparé aux indicateurs normatifs des professions, et les professions dont les indicateurs normatifs sont atteints ou dépassés par le sujet peuvent lui être recommandées lors de la consultation.

Les indicateurs de différents types de fiabilité vont de 0,80 à 0,90. Les coefficients de validité sont satisfaisants. Les inconvénients du CATV incluent l'orientation des tests vers les performances de vitesse, ainsi que le manque de représentation de nombreuses capacités. Par exemple, cette batterie ne mesure pas la capacité technique, l’ingéniosité ou certains autres traits. Elle ne couvre donc pas les professions où ces caractéristiques sont requises.

En outre, il a été constaté que les profils de test des membres très performants d’une même profession peuvent différer. Par conséquent, lorsqu’on compare les profils individuels avec les profils normatifs de certaines professions, il n’est pas toujours possible de s’assurer de l’aptitude professionnelle d’un individu. Cela est dû au fait qu'il est possible de compenser largement certaines caractéristiques manquantes pour la bonne exécution d'une activité au détriment des autres. Comme mentionné ci-dessus, le même niveau de réussite peut être atteint de différentes manières. La personnalité humaine se caractérise par une grande plasticité, une grande variabilité et une capacité à se développer et à s'améliorer. La variabilité s'applique au monde de nombreuses professions et à la nature des exigences qu'elles imposent aux travailleurs. Rappelons encore une fois le rôle décisif de la motivation, des intérêts et des inclinations d’une personne.

Tout ce qui précède explique pourquoi la validation selon les critères de capacité d'apprentissage pour les différentes professions donne des coefficients de validité nettement supérieurs à la validation selon les critères de réussite professionnelle. Les diagnosticiens reconnaissent que les scores GATB peuvent être un bon indicateur de la réussite de la formation professionnelle et des performances professionnelles initiales (jusqu'à deux ans d'expérience).

Pour faciliter l'utilisation des indicateurs de cette batterie pour le conseil, métiers qui nécessitaient des fonctionnalités similaires dans les années 70. XXe siècle ont été regroupés en types relativement petits. On n'en a identifié que 60 types et pour chaque type, des indicateurs standard ont été établis en fonction des trois caractéristiques les plus importantes. Le tableau de bord final s'appelait le Modèle d'aptitude professionnelle - OAR), couvrant des milliers de métiers et de spécialités spécifiques.

La batterie Aptitude des forces armées américaines est utilisée pour travailler avec des étudiants du secondaire, ainsi qu'avec toute personne ayant exprimé un intérêt pour les métiers militaires. Batterie d'aptitude professionnelle des services armés - ASVAB), qui comprend 10 tests diagnostiquant des paramètres tels que les connaissances générales en sciences naturelles, la compréhension des paragraphes d'instructions, la connaissance des mathématiques, la compréhension technique, la sensibilisation à l'électronique et aux équipements automobiles, etc.

Le test de qualification des forces armées est utilisé pour sélectionner et affecter les recrues à l'armée américaine. (Test de qualification des forces armées -AFQT). Par ailleurs, chacune des forces de l'armée (armée de l'air, forces terrestres, etc.), à l'aide des sous-tests du Test de Qualification, développe ses propres méthodes et indicateurs combinés pour la sélection et la répartition du personnel selon ses critères.

Pour faciliter le test et l'emploi des personnes analphabètes et culturellement sous-développées, le service de l'emploi des États-Unis développe des batteries spéciales qui utilisent des procédures spéciales pour aider à naviguer dans le test et à comprendre correctement ses tâches et sa nature. Ces batteries comprennent du matériel et des plans de conversation pour soulager l’anxiété. Pour ces catégories de candidats, des brochures spéciales sont publiées qui expliquent ce que signifie réussir le test, y compris des exemples d'items et des feuilles de réponses du type utilisé dans le GATB. Ces batteries, conçues pour des populations particulières, comprennent les tests d'alphabétisation professionnelle de base. (Tests d'alphabétisation professionnelle de base - BOLT), qui comprend des tests de vocabulaire, de compréhension écrite, de calculs arithmétiques et de raisonnement mathématique. Les performances de cette batterie sont évaluées en fonction des exigences des différents groupes professionnels plutôt que de la scolarité.

En conclusion de la discussion sur les tests et batteries de capacités spéciales développés en Occident (principalement aux USA), notons que ce domaine du diagnostic est l'un des plus développés. Un grand nombre de tests et de batteries de capacités particulières ont été créés et utilisés tant dans le système éducatif qu'à des fins professionnelles. Malgré l'évaluation généralement positive des capacités de ces tests et batteries, les psychodiagnosticiens continuent de collecter des informations sur leur fiabilité et leur validité, de clarifier les paramètres des échantillons pour lesquels ils sont représentatifs, de clarifier l'impact de divers facteurs influençant leurs performances, d'améliorer les procédures de test. et leurs indicateurs, et développer des techniques spéciales pour utiliser ces indicateurs.

Dans le même temps, les psychodiagnosticiens arrivent de plus en plus à la conclusion que les prédictions concernant la réussite scolaire et professionnelle ne sont possibles que sur la base d'informations globales sur l'individu, lorsque les résultats des tests d'aptitude ne sont pas considérés isolément, mais seulement comme un aspect de l'évaluation ainsi que des indicateurs de techniques personnelles, des tests de réussite, des questionnaires biographiques, etc. Ainsi, E. Ghiselli a constaté que lors de l'examen des chauffeurs de taxi, la corrélation entre leur efficacité au travail et les indicateurs de tests de capacités spéciales n'était que de 0,22. Mais si l'on prend en compte les intérêts et la motivation professionnelle, ce coefficient peut être considérablement augmenté - jusqu'à 0,664 pour les conducteurs très motivés. Une autre étude menée par R. Grooms et N. Endler a révélé que les performances des étudiants très anxieux étaient davantage corrélées aux performances aux tests d'aptitude. (g = 0,63) que parmi les étudiants calmes (r = 0,19).

Il est également important de souligner qu'actuellement les diagnostiqueurs occidentaux reconnaissent la dépendance des tests d'aptitude à l'égard de la formation des individus, des compétences et des connaissances qu'ils ont acquises. Ainsi, les chercheurs ont conclu que les résultats du test de jugement Meyer Art sont soumis à influence significative formation professionnelle (corrélations de 0,4 à 0,69 entre le niveau d'éducation artistique et les résultats aux tests de Meyer). Les résultats du test de mesure du talent musical Seashore se sont révélés sensibles à l'influence de la pratique et de la formation. Par conséquent, de plus en plus, les psychodiagnosticiens ont tendance à ne pas utiliser le terme « capacité » dans les noms de ce groupe de tests, le remplaçant par les concepts d'« efficacité », de « réussite », etc. de « capacité » par rapport aux tests et parlent de différences de connaissances et de compétences qui permettent, sous certaines conditions, d’atteindre certains résultats.

  • Anastassi A. Tests psychologiques : en 2 volumes M.. 1982. 2 Ibid.
  • Anastassi A.
  • Anastassi A. Tests psychologiques : en 2 volumes M., 1982.
  • Arntzen F. Einfuhrung in die Begabungspsychologie. Göttingen. 1976.

La difficulté d’un item est caractérisée par un indice qui correspond à la proportion d’individus qui résolvent correctement l’item (Bortz & Döring, 2005). Auparavant, cet indicateur s'appelait l'indice de popularité. L’objectif de l’indice de difficulté est de différencier les tâches très difficiles de celles qui sont plus faciles. Les tâches pour lesquelles tous les sujets donnent la bonne réponse, ou les tâches pour lesquelles personne n'a trouvé la réponse, sont considérées comme inadaptées. L'indice de difficulté doit nécessairement se situer entre ces cas extrêmes. Dans les tests, le niveau de difficulté doit couvrir toute la gamme possible des caractéristiques mesurées par le test.

La difficulté des items de test avec une réponse en deux étapes (par exemple, vrai/faux) est calculée comme suit :

Nr = nombre de sujets ayant donné la bonne réponse, N = nombre de sujets, p = Difficulté de l'item (uniquement pour les items avec une réponse en deux étapes !) Cela fournit une solution pour le cas le plus simple. Si les sujets n'ont pas résolu la tâche ou si l'on soupçonne que certaines tâches ont été accomplies « au hasard », alors il faut s'appuyer sur d'autres solutions alternatives. (vgl. Fisseni, 1997, 41-42).

Calcul de la difficulté des tâches avec réponses (alternatives) en plusieurs étapes : Le cas où p n'est pas défini. Solutions possibles à ce problème : effectuez une dichotomie de valeurs définies (par exemple, 0 et 1), auquel cas la difficulté d'une tâche avec une réponse en deux étapes est calculée. Calcul de la moyenne et de la variance (la moyenne équivaut à p, mais la variance doit également être prise en compte).

Index des tâches avec des réponses à plusieurs niveaux :

Formule simplifiée :

Pour un calcul plus précis, différents auteurs suggèrent différentes manières(vgl. Fisseni, 2004, 43-45). La différence de difficulté entre deux tâches peut être vérifiée à l'aide d'un tableau multidisciplinaire. Ces formules ne peuvent être utilisées qu'au niveau des tests, c'est-à-dire lorsqu'aucun test n'est requis et/ou lorsque les sujets ont été capables d'accomplir toutes les tâches.

Capacité de différenciation des tâches.

Indicateurs de capacité de différenciation des tâches

Coefficient de criminativité,

Coefficient point-bisérial

corrélations,

Coefficient de corrélation bisériale,

Coefficient de corrélation Phi.

Un indicateur important de la qualité d'une tâche de test est la capacité de différenciation, qui détermine dans quelle mesure une tâche donnée fait la distinction entre les sujets « meilleurs » et « faibles ».

Le concept de capacité de différenciation repose sur l'hypothèse fondamentale selon laquelle les candidats qui effectuent haut niveau On s’attend à ce que ceux qui ont une formation dans un sujet donné soient plus susceptibles de répondre correctement à n’importe quel élément sur ce sujet que ceux qui ont un faible niveau de formation.

Au contraire, les tâches auxquelles soit tous les candidats ont répondu correctement, soit tous ont répondu incorrectement, n'ont pas de capacité de différenciation, c'est-à-dire ne faites pas de distinction entre les sujets forts et les sujets faibles.

Les items dépourvus de pouvoir discriminant ne fournissent aucune information sur les différences entre les individus. Plusieurs procédures statistiques existent pour quantifier le caractère discriminant d'une tâche. Ces indicateurs sont extrêmement utiles pour analyser la qualité des devoirs, car ils orientent les rédacteurs vers des devoirs spécifiques qui doivent être améliorés.

Coefficient de criminativité

Dans la théorie classique des tests pour l'évaluation de la qualité tâches de test Le coefficient discriminant - Dj - est largement utilisé. Ce coefficient est calculé sur la base des résultats des tests en identifiant deux groupes de sujets « contrastés ». Dans la plupart des cas, il s'agit de 27 % des étudiants « faibles » et 27 % des « meilleurs » de l'ensemble de l'échantillon.

Le coefficient est trouvé par la formule Dj = Рu - Рl, où Рu et Рl sont les parts d'élèves des groupes les meilleurs et les plus faibles qui ont répondu correctement à la (j-ième) tâche donnée.

La valeur du coefficient Dj peut varier de -1 à +1.

Si la valeur de Dj est proche de -+1, alors cette tâche a une capacité discriminante élevée, c'est-à-dire que le « meilleur » groupe d'élèves de l'échantillon y répond beaucoup plus souvent que le groupe « faible ».

L'interprétation du coefficient de pouvoir discriminant Dj selon la théorie classique des tests est présentée dans le tableau

Coefficient de corrélation bisériale ponctuelle.

Le coefficient de corrélation point-bisérial est un indicateur statistique qui peut être utilisé pour analyser la capacité de différenciation des tâches.

Cet indicateur évalue le degré de relation statistique entre deux variables : le profil de réponse pour une tâche spécifique et le résultat du test qui en résulte.



Pour la j-ème tâche, le coefficient de corrélation point-bisérial est calculé à l'aide de la formule :

Ici, x 1 est la valeur moyenne sur X objets avec une valeur de « un » sur Y ;

x 0 – valeur moyenne sur X objets avec une valeur de « zéro » sur Y ;

s x – écart type de toutes les valeurs le long de X ;

n 1 – nombre d'objets « un » dans Y, n 0 – nombre d'objets « zéro » dans Y ;

n = n 1 + n 0 – taille de l'échantillon.

Selon la théorie du test, une valeur du coefficient de corrélation point-bisérial rpbis égale ou supérieure à 0,3 est un indicateur acceptable de sa qualité.

Grâce à cet indicateur statistique, l'auteur de la tâche peut évaluer sa capacité de différenciation. D'une manière générale, les tâches avec une valeur plus élevée de cet indicateur distinguent mieux les sujets formés et non préparés. En pratique, les tâches présentant un coefficient de corrélation point-bisérial négatif sont soit supprimées de la banque de tâches, soit complètement révisées.

  • Veksler Vitaly Abramovitch, Candidat en Sciences, Professeur agrégé, Professeur agrégé
  • Université d'État de Saratov nommée d'après N. G. Chernyshevsky
  • DISCRIMINATIVITÉ
  • ESSAI
  • STANDARDISATION DES TESTS
  • TESTS PÉDAGOGIQUES
  • TESTOLOGIE

L'article aborde les enjeux de standardisation du test et de vérification de sa qualité à l'aide de l'outil de discriminativité (vérification de la capacité différenciatrice du test et tâche distincte). La progression du test est démontrée à l’aide d’un exemple.

  • Caractéristiques de la conception de tâches de test non standard
  • Caractéristiques de la détermination de la validité d'un test pédagogique
  • Utiliser un logiciel de test dans la pratique pédagogique

La normalisation d'un test est un ensemble de procédures interconnectées qui permettent de créer des conditions égales pour tous les candidats et implique une approche uniforme de la procédure de réalisation et d'évaluation des résultats de l'exécution des tâches par les candidats.

  1. Aucun sujet ne peut bénéficier d’avantages, même minimes, par rapport aux autres.
  2. Le groupe de candidats doit être « motivé et aligné » avant de passer le test.
  3. Les tests sur différents groupes de sujets doivent prendre des intervalles de temps égaux et être effectués dans les mêmes conditions externes. Si le test doit être utilisé une seconde fois dans des conditions déjà significativement différentes de celles dans lesquelles il a été réalisé initialement, une certaine corrélation de ces conditions entre elles ou une adaptation du test aux nouvelles conditions modifiées sera nécessairement nécessaire.
  4. Le contenu du test doit répondre aux exigences des normes pédagogiques.
  5. Tous les sujets effectuent les mêmes tâches (formes de tâches parallèles et similaires).
  6. Le test comprend des tâches d'une ou plusieurs formes avec des coefficients de pondération correspondants, dont les valeurs sont obtenues statistiquement.
  7. Établir des normes. La norme de test est un certain niveau formé conditionnellement, qui peut être considéré comme une moyenne, reflétant le développement d'une certaine population, éventuellement importante, de personnes conditionnellement similaires à un sujet donné selon un certain nombre de caractéristiques sociodémographiques identifiées lors d'une étude complémentaire. Dans la plupart des cas, nous pouvons identifier le résultat d'un test d'un individu sur la base d'une comparaison avec les scores obtenus à un test donné par d'autres personnes. La norme du test sera généralement déterminée à la suite du test d'un large échantillon de sujets d'un certain âge et sexe, avec une moyenne ultérieure des scores obtenus avec leur différenciation ultérieure en groupes : division par âge, sexe, statut social, niveau de l'urbanisation, des indicateurs psychophysiques et un certain nombre de nombreux autres indicateurs nécessaires dans le contexte de cette différenciation particulière. Dans le même temps, ce groupe de personnes sera appelé échantillon de normalisation et servira d'indicateur pour l'établissement de normes. En règle générale, toute norme peut changer avec le temps, en corrélation avec des changements naturels ou autres qui y sont liés, il existe donc une règle selon laquelle les normes d'un test, notamment intellectuel, doivent être révisées au moins une fois tous les cinq ans. . Un système de notation basé sur des normes doit être préalablement développé et appliqué aux réponses de tous les candidats sans exception.
  8. La vérification des épreuves doit être strictement réglementée, c'est-à-dire que les examinateurs reçoivent des normes de réponses correctes et des critères d'évaluation standardisés.
  9. La standardisation du test consiste également à rapprocher la procédure d'évaluation de celle généralement admise. environnement d'apprentissage normes.
  10. Le test doit nécessairement être adapté socioculturellement, c'est-à-dire qu'il est nécessaire de garantir que les tâches de test et les notes que le candidat reçoit pour ces tâches correspondent aux caractéristiques culturelles qui se sont développées dans une société particulière où ce test est utilisé, s'il est emprunté à un autre pays.
  11. Pour garantir une uniformité totale des conditions de test, le développeur décrit des instructions détaillées pour réaliser chaque test nouvellement développé.
  12. Prise en compte des « facteurs externes ». Par exemple, lorsque vous lisez une instruction ou une tâche à haute voix, vous devez prendre en compte le ton de votre voix, la vitesse de votre parole, votre intonation, vos pauses et votre expression faciale.
  13. Le test doit être accompagné d’un manuel d’utilisation décrivant :
    • le but du test et sa description ;
    • indications pour l'utilisation;
    • composition de pâte;
    • des informations sur le test (objectifs, taille et composition de l'échantillon, principales caractéristiques statistiques) ;
    • des instructions sur la procédure de test ;
    • clés;
    • difficulté et caractère discriminant du test (« discriminativité » - « subtilité de la mesure », c'est-à-dire la capacité de différencier les candidats concernant les résultats « minimum » et « maximum » du test, capacité de différenciation) ;
    • des données sur la fiabilité et la validité du test ;
    • autres documents statistiques ;
    • règles et instructions pour le traitement des données ;
    • conception à l’échelle, règles et caractéristiques de l’interprétation des données.

Ainsi, si les tests sont standardisés, on peut alors dire qu'il est possible de comparer les scores obtenus par un sujet avec ceux de la population générale ou des groupes correspondants. Cela garantit une interprétation adéquate de l’indicateur d’un sujet individuel.

La criminativité est mesurée par l'indice delta de Ferguson et prend sa valeur maximale avec une distribution uniforme (rectangulaire) des indicateurs (d=1).

Lors de l'élaboration d'un test, il est bien entendu nécessaire de s'efforcer de garantir que ses tâches permettent de mesurer avec la plus grande précision possible la propriété testée. Par exemple, si, à la suite de l'examen, presque tous les sujets ont reçu à peu près les mêmes résultats, cela ne peut que signifier que le test prend des mesures de manière très grossière et inexacte, sans aucune gradation particulière distinguant les caractéristiques des sujets. Plus le nombre de gradations de résultats pouvant être obtenues à l'aide du test est grand, plus sa résolution sera élevée. La mesure de la finesse de mesure (ou du degré de différentiabilité des résultats) d'un test est appelée discriminabilité.

Le caractère discriminatif du test est mesuré par l'indice delta de Ferguson (Fig. 1) :

Fig. 1. Indicateur delta de Ferguson

Cette formule introduit les notations suivantes : N – nombre de sujets, n – nombre de tâches, f i – fréquence d'apparition de chaque indicateur. Le caractère discriminatif le plus faible du test est déterminé à δ = 0, le plus élevé à δ = 1.

Considérons exemple le plus simple calculer l'indice de scriminativité des tâches.

Des tests sont en cours sur le thème « Processus d'information" 7 personnes participent aux tests, le nombre de tâches est de 4.

Objectif de la tâche : maîtriser l'habileté de calculer l'indice de scriminativité.

Algorithme de calcul :

  1. Faites un tableau de fréquence pour chaque indicateur.
  2. Calculez la fréquence à laquelle les valeurs des indicateurs se produisent pour un test donné.
  3. Mettez ces nombres au carré et additionnez-les.
  4. Ajoutez un au nombre de tâches.
  5. Mettez au carré le nombre de sujets.
  6. Multipliez le nombre de tâches par le résultat de l'étape 4.
  7. Nous avons maintenant tous les éléments de la formule. Remplacez-les et calculez le coefficient.
  8. Tirer une conclusion sur le caractère discriminant du test « Processus informationnels ».

Matériel : microcalculatrice ou ordinateur, tableau des données primaires (Fig. 2).

Riz. 2 – tableau des données primaires reflétant les résultats en points pour sept matières

A partir du tableau des données primaires, nous obtenons un tableau des fréquences d'apparition de chaque indicateur (Fig. 3).

Fig. 3 – Tableau des fréquences d'apparition de chacun des indicateurs de test, réalisé sur la base de l'analyse du tableau des données de fréquence proposé dans la Fig. 1.

Calculons les carrés des fréquences (Fig. 4) :

Riz. 4 – tableau des carrés de fréquence déterminés à partir du tableau de fréquence des indicateurs de test.

Effectuons des calculs avec l'indicateur delta de Ferguson, où n=4 (nombre de tâches), N=7 (nombre de sujets), N 2 =49 (Fig. 5).

Riz. 5 – Calcul de l’indicateur delta de Ferguson

Sur la base du calcul effectué, nous pouvons conclure : δ = 0,97, cet indicateur indique la forte discriminabilité du test « Processus d'information », puisque la plus grande discriminabilité se situe à δ = 1. L'indicateur δ = 0,97 se rapproche de un.

La discriminabilité ou le pouvoir de différenciation en tant que mesure reflète la capacité globale d'un test créé par un chercheur à séparer les candidats ayant un score global élevé de ceux ayant un score faible et permet de vérifier la qualité des éléments de test créés.

Pour vérifier la qualité des tâches individuelles, nous utiliserons la méthode des groupes extrêmes. Cette méthode permet de déterminer si une tâche peut différencier les élèves. Une tâche à laquelle peuvent répondre aussi bien des sujets ayant des capacités élevées que faibles n'a pas une bonne capacité de différenciation. Ainsi, le but de l'utilisation de cette méthode dans la pratique est de supprimer les tâches de mauvaise qualité.

Pour déterminer la capacité différenciatrice d'une tâche, nous utiliserons la formule de la méthode des groupes extrêmes (Fig. 6).

Riz. 6 – Formule de calcul d'un indicateur reflétant la capacité différenciatrice d'une tâche par la méthode des groupes extrêmes avec décodage des composantes

Décrivons l'indicateur d'interprétation obtenu à la suite du calcul du résultat :

a) si D est compris entre 0,3 et 1 – la tâche est efficace (a une grande capacité de différenciation entre les sujets, la qualité de la tâche est élevée) ;

b) si D est compris entre 0,1 et 0,3 – la tâche a un faible degré de différenciation (la tâche est « faible », il est recommandé de la supprimer et de la remplacer par une autre) ;

c) si D est inférieur à 0,1, la tâche n'est pas de grande qualité (elle doit être supprimée et remplacée par une autre).

Considérons l'exemple le plus simple de calcul de l'indicateur de capacité de différenciation à l'aide de la méthode des groupes extrêmes.

Les tests ont été effectués sur un groupe de 30 sujets. Le nombre de tâches est de 10. Les résultats obtenus sont présentés dans le tableau des fréquences d'apparition des indicateurs (Fig. 7). Objet de l'étude : il faut vérifier la qualité de la tâche n°1.

Riz. 7 – Tableau des fréquences d’apparition des indicateurs de test (données initiales pour le calcul)

Calculons les principaux indices dont nous aurons besoin dans la formule principale. Nous déterminerons 27% du nombre de sujets pour créer des groupes extrêmes. Nous obtiendrons environ 8 sujets (nous arrondirons les résultats). Ainsi, nous prendrons 8 personnes qui ont marqué un petit nombre de points (dans notre exemple 0,1,2,3 points) - c'est ainsi que se forme un groupe faible et 8 personnes qui ont marqué le plus de points (dans notre exemple - 9,10 points) - c'est ainsi que nous formons un groupe fort. Voyons maintenant comment ces sujets ont répondu à la tâche n°1 (Fig. 8).

Riz. 8 – résultats de l'exécution de la tâche de test (tâche n° 1) par des sujets des groupes extrêmes (groupe fort et faible).

Présentons les données de substitution dans la formule de la méthode des groupes extrêmes (Fig. 9).

Remplaçons les données et obtenons le résultat suivant (Fig. 10).

Riz. 10 – Calcul de l’indicateur de la méthode des groupes extrêmes.

Sur la base des données obtenues, nous pouvons conclure : la tâche n°1 du test est efficace, puisque l'indicateur est compris entre 0,3 et 1.

Ainsi, la standardisation du test est un processus ciblé qui permet de déterminer les conditions d'une réussite du test de haute qualité et de rendre le test psychologiquement confortable pour les candidats. La standardisation du test est également très importante dans les cas où les indicateurs des sujets sont comparés. Dans ce cas, il est important d’élaborer des normes ou des indicateurs normatifs. Pour obtenir des normes standards, un plus grand nombre de sujets doivent être soigneusement sélectionnés selon des critères clairement définis. L'interprétation des résultats des tests aura caractère significatif Ce n'est que si le test lui-même a été créé avec une haute qualité que l'un des indicateurs de cette caractéristique peut être le caractère discriminant à la fois du test dans son ensemble et de chaque tâche séparément.

Bibliographie

  1. Avanessov V.S. Tests : histoire et théorie // Gestion scolaire, 1999, n° 12.
  2. Avanessov V.S. Formes de tâches de test : un manuel pour les enseignants des écoles, lycées, enseignants des universités et collèges. 2e éd. retravaillé et élargi. - M. : Centre d'Essai, 2005. - 156 p.
  3. Anastasi A., Urbina S., Alekseev A.A. Tests psychologiques - Saint-Pétersbourg, 2007. Ser. Master de psychologie (7e édition internationale)
  4. Veksler V.A. Aspects psychologiques et pédagogiques des tests // V.A. Veksler, O.L.. 2015. T. 1. N° 35. P. 199-204.
  5. Veksler V.A. Exigences ergonomiques pour les ressources pédagogiques électroniques // Psychologie, sociologie et pédagogie. 2015. N° 5 (44). p. 37-39.
  6. Veksler V.A. L'émergence de la testologie //Recherche scientifique moderne et innovation. 2015. N° 5-4 (49). p. 113-116.
  7. Efremova N.F., Zvonnikov V.I., Chelyshkova M.B. Mesures pédagogiques dans le système éducatif // Pédagogie. 2006. - N° 2. - P. 14-22.
  8. Mayorov A.N. Théorie et pratique de la création de tests pour le système éducatif. – M. : « Centre de renseignement », 2001. -296 p.
  9. Raven John Tests pédagogiques : problèmes, idées fausses, perspectives / Trad. de l'anglais - M. : « Cogito-Centre », 1999.-144 p.
  10. Samylkina N.N. Moyens modernes d'évaluation des acquis d'apprentissage : manuel - M. : Binom. Laboratoire de connaissances, 2012. - 197 p.

1. Batterie de test d'aptitude différentielle (DAT)
une batterie complète de huit tests conçue pour être utilisée dans le conseil scolaire et professionnel destiné aux élèves du secondaire.


Association Américaine de Psychologie
Année de création : 1947, révisé 1963 et 1973
But: prévision de réussite dans l’enseignement supérieur et consultation professionnelle.
Le score total des sous-tests « Raisonnement verbal » et « Capacités numériques » est considéré comme un indice des capacités d'apprentissage ; il est en corrélation au niveau de 0,70 à 0,80 avec le critère complexe des résultats scolaires.
Tranche d'âge: Lycéens américains de la 7e à la 12e année
Temps de test : 5 heures
Le test DAT est un test limite. La fiabilité du test est très élevée (0,90). Les corrélations croisées des sous-tests sont proches de 0,5. Les résultats de la comparaison des données des tests avec les évaluations des performances scolaires ont montré que les corrélations sont assez importantes.

Description des sous-tests DAT :

1) pensée verbale. Des doubles analogies sont utilisées. Le candidat doit combler les lacunes des mots dans une phrase en sélectionnant la paire de mots souhaitée dans la liste.
2) capacités numériques. Le sujet est présenté avec des équations simples. Il doit choisir la réponse appropriée.
3) la pensée abstraite. Une série de figures est disposée dans un certain ordre. Le sujet doit continuer la série en sélectionnant la figure appropriée parmi les 5 proposées.
4) relations spatiales. Des développements de corps géométriques sont présentés. Le sujet doit sélectionner une figure correspondant au développement.
5) réflexion technique. Des images sont données qui décrivent une certaine situation physique. Vous devez répondre à la question en comprenant le principe physique du mécanisme.
6) rapidité et précision de la perception. Une série de paires de lettres sont présentées, dont une est mise en évidence. Le candidat doit trouver cette combinaison sur la feuille de réponses.
7) alphabétisation. Le sujet du test se voit présenter une liste de mots et doit vérifier leur orthographe correctement.
8) utilisation de la langue. Une phrase est donnée qui contient des erreurs grammaticales ou syntaxiques. Le sujet doit les trouver.

Le neuvième indicateur, une mesure de la capacité d'apprentissage (ou capacité académique), est un dérivé obtenu en combinant les indicateurs des tests de « raisonnement verbal » et de « capacité numérique ». En complément, la batterie comprend également le Questionnaire de Planification de Carrière.

Les formes existantes de ce test (S et T) ont été standardisées sur un échantillon national de 60 000 élèves et disposent de données normatives par niveau et par sexe.

Les données de validité présentées dans le manuel indiquent que les indicateurs de D. t.s. prédire les performances dans diverses matières au secondaire et différencier les élèves par rapport à leurs futures activités professionnelles. Cependant, il existe peu de preuves étayant la validité différentielle des modèles de performances dans les différents tests de cette batterie.

2. Batterie de tests d’aptitude générale (GATB)
But: diagnostics de la structure du renseignement, ainsi que des capacités perceptuelles et sensorimotrices à des fins d'orientation professionnelle et de placement du personnel dans l'armée et à des postes gouvernementaux.
Développé par le US Employment Service pour une utilisation dans le domaine de la sélection professionnelle et de l'orientation professionnelle.
Année de création: 1940, version ultérieure 1956
Tranche d'âge: travailler, entrer dans le service et étudier divers types travail
Temps de test : 2,5 heures
Les normes standard ont été obtenues à partir d’un échantillon de 4 000 travailleurs et employés américains. La fiabilité du test est très élevée (r=0,90). La validité externe du test se caractérise par une forte corrélation positive avec la réussite de l'activité professionnelle. Pour différents groupes, il varie de 0,40 à 0,84. Pour la plupart des professions, ce chiffre est de 0,6.

Le développement du GATB s'est basé sur l'analyse factorielle d'un ensemble préliminaire de 50 tests, au cours desquels 9 facteurs principaux ont été identifiés que le GATB diagnostique :

G - capacité générale à apprendre, à suivre des instructions, à raisonner et à évaluer. Le score est obtenu en additionnant les indicateurs de 3 tests : verbal, numérique et un test de perception de l'espace tridimensionnel. (essais III, IV, VI) ;
V - capacités verbales. Ils sont mesurés par un test d'identification de mots d'un groupe ayant des significations similaires ou opposées. (essai IV)
N - capacités numériques. Testé avec deux tests : problèmes d'arithmétique (50 problèmes) et exercices d'arithmétique (50 tâches simples avec une seule action). (essais II, IV)
S - capacités spatiales. Ils sont testés avec des tâches de perception des formes : le sujet reçoit un dessin avec un développement d'une figure tridimensionnelle, il doit sélectionner une image correspondant au développement. (essai III)
P - perception de la forme. Mesuré par deux tests. Le premier test présente deux ensembles de formes sur deux parties d'une feuille. Les figures sont les mêmes, ne différant que par leur emplacement et leur rotation. Vous devez trouver des chiffres identiques. Le deuxième test consiste à déterminer laquelle des quatre images correspond au motif. (essais V, VII)
Q - perception mentale des mots (vitesse de perception du commis). Le sujet doit identifier l'identité de l'orthographe des mots par paires (150 paires) (test I)
K-coordination motrice. Le sujet du test doit tracer le plus rapidement possible des lignes en carrés sur la base du modèle. (essai VIII)
F - motricité des doigts. Elle est mesurée par deux tests « d'agilité psychomotrice ». Lors du premier test, le sujet doit, à l'aide de ses deux mains, retirer les tiges des trous de la partie supérieure de la planche et les insérer dans les trous de la partie inférieure. Le test est répété trois fois. Dans le deuxième test, le sujet retire chacune des 48 tiges des trous d'une main, la tourne et insère l'autre extrémité dans le même trou. Le test est répété trois fois. (essais XI, XII) ;
M - motricité manuelle. Mesuré par deux tests de dextérité numérique. Des planches avec 100 trous sont fournies (50 chacune dans les parties supérieure et inférieure). En haut de la planche, des rivets métalliques sont insérés dans les trous. Une tige avec un jeu de rondelles est fixée à la planche. Lors du premier test, le sujet doit prendre un rivet, mettre une rondelle et les insérer dans le bas de la planche. Lors du deuxième test, il doit remettre les rivets et les rondelles dans leur position d'origine. (essai IX, X).

Le GATB comprend 12 tests visant à analyser diverses capacités complexes pertinentes dans un large éventail d'activités professionnelles. Huit sous-tests sont des tests à blanc, quatre nécessitent des appareils spéciaux. Tous les sous-tests sont des tests de vitesse. La composition des tests GATB est la suivante.

Je teste. Comparaison et identification des similitudes et des différences entre paires de mots par composition de lettres (150 paires).
IIe essai. Exercices d'arithmétique (50 problèmes simples avec une opération arithmétique).
IIIe essai. Perception des formes.
Essai IV. Vocabulaire.
Essai V. Comparaison d'images.
VI épreuve. Problèmes arithmétiques
VIIe essai. Comparaison de formes géométriques.
VIIIe essai. Reproduction de lignes de dessin à partir d'un échantillon.
IXe essai. Agilité psychomotrice.
Essai X. Agilité psychomotrice.
XIe épreuve. Mobilité des doigts.
XIIe épreuve. Mobilité des doigts.

La procédure d'examen dure environ 2,5 heures.