Caractéristiques et limites des méthodes de statistiques mathématiques. Statistiques mathématiques pour spécialistes dans divers domaines. Problèmes à résoudre de manière autonome

Statistiques mathématiques est une branche des mathématiques qui étudie les méthodes approximatives de collecte et d'analyse des données à partir de résultats expérimentaux afin d'identifier les modèles existants, c'est-à-dire trouver les lois de distribution des variables aléatoires et leurs caractéristiques numériques.

En statistique mathématique, il est d'usage de distinguer deux grands domaines de recherche ::

1. Estimation des paramètres de la population générale.

2. Tester des hypothèses statistiques (certaines hypothèses a priori).

Concepts de base statistiques mathématiques sont : population, échantillon, fonction de distribution théorique.

Population générale est un ensemble de toutes les statistiques d'observation imaginables Variable aléatoire.

X G = (x 1, x 2, x 3, ..., x N, ) = (x i; i=1,N)

La variable aléatoire observée X est appelée caractéristique ou facteur de l'échantillon. La population générale est un analogue statistique d'une variable aléatoire ; son volume N est généralement grand, c'est pourquoi une partie des données en est sélectionnée, appelée population échantillon ou simplement échantillon.

X B = (x 1, x 2, x 3, ..., x n, ) = (x i; i=1,n)

Х В М Х Г, n £ N

Échantillon est un ensemble d'observations (objets) sélectionnées au hasard dans la population générale pour une étude directe. Le nombre d’objets dans l’échantillon est appelé taille de l’échantillon et est noté n. Généralement, l’échantillon représente 5 à 10 % de la population.

Utiliser un échantillon pour construire des modèles qui régissent une variable aléatoire observée permet d’éviter son observation continue (de masse), qui est souvent un processus gourmand en ressources, voire tout simplement impossible.

Par exemple, une population est un ensemble d’individus. L'étude d'une population entière prend du temps et coûte cher, c'est pourquoi les données sont collectées auprès d'un échantillon d'individus considérés comme représentatifs de cette population, ce qui permet de tirer des conclusions sur cette population.

Cependant, l'échantillon doit satisfaire à la condition représentativité, c'est à dire. assurer une représentation raisonnable de la population. Comment constituer un échantillon représentatif (représentatif) ? Idéalement, ils s’efforcent d’obtenir un échantillon randomisé. Pour ce faire, une liste de tous les individus de la population est dressée et ils sont sélectionnés au hasard. Mais parfois, les coûts liés à l'établissement d'une liste peuvent s'avérer inacceptables, puis ils prélèvent un échantillon acceptable, par exemple une clinique, un hôpital, et étudient tous les patients de cette clinique atteints d'une maladie donnée.

Chaque élément de l'échantillon est appelé une variante. Le nombre de répétitions de variantes dans un échantillon est appelé fréquence d’apparition. La quantité s'appelle fréquence relative options, c'est-à-dire se trouve comme le rapport de la fréquence absolue des variantes au volume total de l’échantillon. Une séquence d'options écrites par ordre croissant est appelée série de variations.


Considérons trois formes de séries de variations : classées, discrètes et à intervalles.

Série classée- il s'agit d'une liste d'unités individuelles de la population par ordre croissant de la caractéristique étudiée.

Discret série de variations est un tableau composé de colonnes ou de lignes : une valeur spécifique de la caractéristique x i et la fréquence absolue n i (ou fréquence relative ω i) de la manifestation de la i-ème valeur de la caractéristique x.

Un exemple de série de variations est le tableau

Écrivez la distribution des fréquences relatives.

Solution: Trouvons les fréquences relatives. Pour ce faire, divisez les fréquences par la taille de l'échantillon :

La distribution des fréquences relatives a la forme :

0,15 0,5 0,35

Contrôle : 0,15 + 0,5 + 0,35 = 1.

Une série discrète peut être représentée graphiquement. Dans un système de coordonnées cartésiennes rectangulaires, sont marqués les points avec les coordonnées () ou () qui sont reliés par des lignes droites. Une telle ligne brisée s'appelle polygone de fréquence.

Construisez une série à variations discrètes (DVR) et tracez un polygone de répartition de 45 candidats en fonction du nombre de points qu'ils ont obtenus aux examens d'admission :

39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 41 42 39 41 37 43 41 38 43 42 41 40 41 38 44 40 39 41 40 42 40 41 42 40 43 38 39 41 41 42.

Solution: Pour construire une série de variations différentes significations on place la caractéristique x (variantes) par ordre croissant et on note sa fréquence sous chacune de ces valeurs.

Construisons un polygone pour cette distribution :

Riz. 13.1. Polygone de fréquence

Série de variations d'intervalle utilisé pour un grand nombre d’observations. Pour construire une telle série, vous devez sélectionner le nombre d'intervalles de la caractéristique et définir la longueur de l'intervalle. S'il y a un grand nombre de groupes, l'intervalle sera minime. Le nombre de groupes dans une série de variations peut être trouvé à l'aide de la formule de Sturges : (k est le nombre de groupes, n est la taille de l'échantillon) et la largeur de l'intervalle est

où est le maximum ; - la valeur minimale est une option, et leur différence R est appelée plage de variation.

Un échantillon de 100 personnes de la population de tous les étudiants universitaires en médecine est à l'étude.

Solution: Calculons le nombre de groupes : . Ainsi, pour constituer une série d’intervalles, il est préférable de diviser cet échantillon en 7 ou 8 groupes. L'ensemble des groupes dans lesquels les résultats d'observation sont divisés et la fréquence d'obtention des résultats d'observation dans chaque groupe est appelé totalité statistique.

Pour représenter visuellement la distribution statistique, utilisez un histogramme.

Histogramme de fréquence est une figure en escalier constituée de rectangles adjacents construits sur une ligne droite, dont les bases sont identiques et égales à la largeur de l'intervalle, et la hauteur est égale soit à la fréquence de chute dans l'intervalle, soit à la fréquence relative ω i.

Les observations du nombre de particules entrant dans le compteur Geiger en une minute ont donné les résultats suivants :

21 30 39 31 42 34 36 30 28 30 33 24 31 40 31 33 31 27 31 45 31 34 27 30 48 30 28 30 33 46 43 30 33 28 31 27 31 36 51 34 31 36 34 37 28 30 39 31 42 37.

Sur la base de ces données, construisez une série de variations d'intervalles avec des intervalles égaux (intervalle I 20-24 ; intervalle II 24-28, etc.) et dessinez un histogramme.

Solution: n = 50

L'histogramme de cette distribution ressemble à :

Riz. 13.2. Histogramme de distribution

Options de tâche

№ 13.1. Toutes les heures, la tension du réseau électrique était mesurée. Les valeurs (B) suivantes ont été obtenues :

227 219 215 230 232 223 220 222 218 219 222 221 227 226 226 209 211 215 218 220 216 220 220 221 225 224 212 217 219 220.

Construisez une distribution statistique et dessinez un polygone.

№ 13.2. Les observations de la glycémie chez 50 personnes ont donné les résultats suivants :

3.94 3.84 3.86 4.06 3.67 3.97 3.76 3.61 3.96 4.04

3.82 3.94 3.98 3.57 3.87 4.07 3.99 3.69 3.76 3.71

3.81 3.71 4.16 3.76 4.00 3.46 4.08 3.88 4.01 3.93

3.92 3.89 4.02 4.17 3.72 4.09 3.78 4.02 3.73 3.52

3.91 3.62 4.18 4.26 4.03 4.14 3.72 4.33 3.82 4.03

Sur la base de ces données, construisez une série de variations d'intervalles avec des intervalles égaux (I - 3,45-3,55 ; II - 3,55-3,65, etc.) et représentez-la graphiquement, dessinez un histogramme.

№ 13.3. Construisez un polygone de distributions de fréquences de vitesse de sédimentation érythrocytaire (ESR) pour 100 personnes.

Méthodes de statistiques mathématiques


1. Introduction

La statistique mathématique est une science qui traite du développement de méthodes d'obtention, de description et de traitement de données expérimentales afin d'étudier les modèles de phénomènes de masse aléatoires.

En statistique mathématique, on distingue deux domaines : les statistiques descriptives et les statistiques inductives (inférence statistique). Les statistiques descriptives traitent de l'accumulation, de la systématisation et de la présentation des données expérimentales sous une forme pratique. Les statistiques inductives basées sur ces données permettent de tirer certaines conclusions concernant les objets sur lesquels des données sont collectées ou des estimations de leurs paramètres.

Les domaines typiques des statistiques mathématiques sont :

1) théorie de l'échantillonnage ;

2) théorie des évaluations ;

3) tester des hypothèses statistiques ;

4) analyse de régression ;

5) analyse de variance.

La base des statistiques mathématiques est une série des idées originales sans lequel l'apprentissage est impossible méthodes modernes traitement des données expérimentales. Parmi les premiers figurent les concepts de population générale et d’échantillon.

Avec masse production industrielle Il est souvent nécessaire de déterminer si la qualité du produit répond aux normes sans vérifier chaque produit fabriqué. Étant donné que la quantité de produits fabriqués est très importante ou que les tests de produits visent à les rendre inutilisables, un petit nombre de produits est contrôlé. Sur la base de ce contrôle, il est nécessaire de tirer une conclusion sur l'ensemble de la série de produits. Bien sûr, vous ne pouvez pas dire que tous les transistors d'un lot de 1 million de pièces sont bons ou mauvais en vérifiant l'un d'entre eux. D'autre part, étant donné que le processus de sélection des échantillons à tester et les tests eux-mêmes peuvent prendre du temps et entraîner des coûts élevés, la portée des tests de produits doit être telle qu'elle puisse donner une représentation fiable de l'ensemble du lot de produits. tout en étant de taille minimale. Pour cela, nous introduisons un certain nombre de concepts.

L'ensemble des objets étudiés ou des données expérimentales est appelé population générale. On désignera par N le nombre d'objets ou la quantité de données qui composent la population générale. La valeur N est appelée le volume de la population. Si N>>1, c'est-à-dire que N est très grand, alors N = ¥ est généralement considéré.

Un échantillon aléatoire, ou simplement un échantillon, est une partie d'une population sélectionnée au hasard. Le mot « aléatoire » signifie que la probabilité de sélectionner n'importe quel objet dans la population est la même. Il s’agit d’une hypothèse importante, mais elle est souvent difficile à tester en pratique.

La taille de l'échantillon est le nombre d'objets ou la quantité de données qui composent l'échantillon et est désignée par n. Dans ce qui suit, nous supposerons que les éléments de l'échantillon peuvent être attribués, respectivement, valeurs numériques x 1, x 2, ... x n. Par exemple, dans le processus de contrôle qualité des transistors bipolaires fabriqués, il pourrait s'agir de mesures de leur gain CC.


2. Caractéristiques numériques de l'échantillon

2.1 Moyenne de l'échantillon

Pour un échantillon particulier de taille n, sa moyenne d'échantillon

est déterminé par la relation

où x i est la valeur des éléments de l'échantillon. En règle générale, vous souhaitez décrire les propriétés statistiques d’échantillons aléatoires plutôt que d’un seul d’entre eux. Cela signifie qu’un modèle mathématique est envisagé, qui suppose un nombre suffisamment grand d’échantillons de taille n. Dans ce cas, les éléments de l'échantillon sont considérés comme des variables aléatoires Xi, prenant des valeurs xi avec une densité de probabilité f(x), qui est la densité de probabilité de la population générale. Alors la moyenne de l'échantillon est aussi une variable aléatoire

égal à

Comme précédemment, nous désignerons des variables aléatoires en majuscule, et les valeurs des variables aléatoires sont en minuscules.

La valeur moyenne de la population à partir de laquelle l'échantillon est tiré sera appelée moyenne générale et notée m x. On peut s’attendre à ce que si la taille de l’échantillon est significative, la moyenne de l’échantillon ne différera pas significativement de la moyenne de la population. Puisque la moyenne de l’échantillon est une variable aléatoire, l’espérance mathématique peut être trouvée :

Ainsi, l’espérance mathématique de la moyenne de l’échantillon est égale à la moyenne générale. Dans ce cas, la moyenne de l’échantillon est dite estimation impartiale moyenne générale. Nous reviendrons sur ce terme plus tard. Puisque la moyenne de l’échantillon est une variable aléatoire qui fluctue autour de la moyenne générale, il est souhaitable d’estimer cette fluctuation en utilisant la variance de la moyenne de l’échantillon. Considérons un échantillon dont la taille n est significativement plus petite que la taille de la population N (n<< N). Предположим, что при формировании выборки характеристики генеральной совокупности не меняются, что эквивалентно предположению N = ¥. Тогда

Les variables aléatoires X i et X j (i¹j) peuvent donc être considérées comme indépendantes :

Remplaçons le résultat obtenu dans la formule de variance :

où s 2 est la variance de la population.

De cette formule, il s'ensuit qu'avec l'augmentation de la taille de l'échantillon, les fluctuations de la moyenne de l'échantillon autour de la moyenne générale diminuent à mesure que s 2 /n. Illustrons cela par un exemple. Soit un signal aléatoire avec une espérance mathématique et une variance respectivement égales à m x = 10, s 2 = 9.

Des échantillons de signaux sont prélevés à des instants équidistants t 1, t 2, ...,

X(t)

X1

t 1 t 2 . . . t n t

Puisque les échantillons sont des variables aléatoires, nous les noterons X(t 1), X(t 2), . . . , X(tn).

Déterminons le nombre d'échantillons pour que l'écart type de l'estimation de l'espérance mathématique du signal ne dépasse pas 1% de son espérance mathématique. Puisque m x = 10, il faut que

Par contre, donc ou De là, nous obtenons que n ³ 900 échantillons.

2.2 Écart de l'échantillon

Pour les données d'échantillon, il est important de connaître non seulement la moyenne de l'échantillon, mais également la répartition des valeurs d'échantillon autour de la moyenne de l'échantillon. Si la moyenne de l'échantillon est une estimation de la moyenne de la population, alors la variance de l'échantillon doit être une estimation de la variance de la population. Écart de l'échantillon

pour un échantillon constitué de variables aléatoires est déterminé comme suit

En utilisant cette représentation de la variance de l'échantillon, nous trouvons son espérance mathématique

Envoyer votre bon travail dans la base de connaissances est simple. Utilisez le formulaire ci-dessous

Les étudiants, étudiants diplômés, jeunes scientifiques qui utilisent la base de connaissances dans leurs études et leur travail vous seront très reconnaissants.

Posté sur http://www.allbest.ru/

Introduction

Les statistiques mathématiques sont la science des méthodes mathématiques permettant de systématiser et d'utiliser des données statistiques à des fins scientifiques et pratiques. Dans plusieurs de ses sections, les statistiques mathématiques sont basées sur la théorie des probabilités, qui permet d'évaluer la fiabilité et l'exactitude des conclusions tirées sur la base d'un matériel statistique limité (par exemple, estimer la taille d'échantillon requise pour obtenir des résultats avec la précision requise dans une enquête par sondage).

La théorie des probabilités considère des variables aléatoires avec une distribution donnée ou des expériences aléatoires dont les propriétés sont entièrement connues. Le sujet de la théorie des probabilités concerne les propriétés et les relations de ces quantités (distributions).

Mais souvent, une expérience est une boîte noire qui ne produit que certains résultats, à partir desquels il est nécessaire de tirer une conclusion sur les propriétés de l'expérience elle-même. L'observateur dispose d'un ensemble de résultats numériques (ou ils peuvent être rendus numériques) obtenus en répétant la même expérience aléatoire dans les mêmes conditions.

Dans ce cas, par exemple, les questions suivantes se posent : si nous observons une variable aléatoire, comment pouvons-nous tirer la conclusion la plus précise sur sa distribution sur la base d'un ensemble de ses valeurs dans plusieurs expériences ? histogramme de dispersion des statistiques mathématiques

Un exemple d’une telle série d’expériences pourrait être une enquête sociologique, un ensemble d’indicateurs économiques ou, enfin, une séquence de pile et face lorsqu’une pièce de monnaie est lancée mille fois. Tous les facteurs ci-dessus déterminent la pertinence et l'importance du sujet de travail au stade actuel, visant une étude approfondie et complète des concepts de base des statistiques mathématiques.

1. Sujet et méthode des statistiques mathématiques

Selon la nature mathématique des résultats d'observation spécifiques, les statistiques mathématiques sont divisées en statistiques de nombres, analyse statistique multidimensionnelle, analyse de fonctions (processus) et de séries chronologiques, statistiques d'objets de nature non numérique. Une partie importante des statistiques mathématiques repose sur des modèles probabilistes. Les tâches générales de description des données d'évaluation et de test des hypothèses sont identifiées. Ils envisagent également des tâches plus spécifiques liées à la réalisation d'enquêtes par sondage, à la restauration des dépendances, à la construction et à l'utilisation de classifications (typologies), etc.

Pour décrire les données, des tableaux, des diagrammes et d'autres représentations visuelles, telles que des champs de corrélation, sont construits. Les modèles probabilistes ne sont généralement pas utilisés. Certaines méthodes de description des données s’appuient sur une théorie avancée et sur les capacités des ordinateurs modernes. Il s'agit notamment de l'analyse groupée visant à identifier des groupes d'objets similaires les uns aux autres et de la mise à l'échelle multidimensionnelle, qui permet de représenter visuellement les objets sur un plan avec le moins de distorsion des distances entre eux.

Les méthodes d'évaluation et de test des hypothèses sont basées sur des modèles probabilistes de génération de données. Ces modèles sont divisés en paramétriques et non paramétriques. Dans les modèles paramétriques, on suppose que les objets étudiés sont décrits par des fonctions de distribution dépendant d'un petit nombre (1-4) de paramètres numériques. Dans les modèles non paramétriques, les fonctions de distribution sont supposées être arbitrairement continues. En statistique mathématique, les paramètres et caractéristiques de la distribution (espérance mathématique, médiane, dispersion, quantiles, etc.) des fonctions de densité et de distribution de la dépendance entre variables (basées sur des coefficients de corrélation linéaires et non paramétriques, ainsi que des estimations paramétriques ou non paramétriques de fonctions exprimant des dépendances), etc.. Estimations de points et d'intervalles (donnant des limites pour les valeurs vraies).

En statistique mathématique, il existe une théorie générale du test d’hypothèses et un grand nombre de méthodes dédiées au test d’hypothèses spécifiques. Ils considèrent des hypothèses sur les valeurs des paramètres et des caractéristiques, testent l'homogénéité (c'est-à-dire la coïncidence de caractéristiques ou de fonctions de distribution dans deux échantillons), l'accord de la fonction de distribution empirique avec une fonction de distribution donnée ou avec une famille paramétrique de telles fonctions, la symétrie de la distribution, etc.

La section des statistiques mathématiques associée à la réalisation d'enquêtes par sondage avec les propriétés de divers schémas d'échantillonnage et à la construction de méthodes adéquates pour évaluer et tester les hypothèses est d'une grande importance.

Les problèmes de rétablissement de la dépendance sont activement étudiés depuis plus de 200 ans depuis le développement de la méthode des moindres carrés par K. Gauss en 1794. Actuellement, les méthodes les plus pertinentes pour rechercher un sous-ensemble informatif de variables et les méthodes non paramétriques.

Le développement de méthodes d'approximation des données et de réduction de la dimensionnalité des descriptions a commencé il y a plus de 100 ans lorsque K. Pearson a créé la méthode des composantes principales. L'analyse factorielle et de nombreuses généralisations non linéaires ont ensuite été développées.

Diverses méthodes de construction (analyse cluster) d'analyse et d'utilisation (analyse discriminante) de classifications (typologies) sont également appelées méthodes de reconnaissance de formes (avec et sans enseignant), de classification automatique, etc.

Les méthodes mathématiques en statistique reposent soit sur l'utilisation de sommes (basées sur le théorème central limite de la théorie des probabilités), soit sur des indices de différence (métriques de distance) comme dans les statistiques d'objets de nature non numérique. Habituellement, seuls les résultats asymptotiques sont strictement justifiés. De nos jours, les ordinateurs jouent un rôle important dans les statistiques mathématiques. Ils sont utilisés aussi bien pour les calculs que pour la modélisation de simulation (notamment dans les méthodes de multiplication d'échantillons et dans l'étude de la pertinence des résultats asymptotiques).

1.1 Concepts de base des statistiques mathématiques

Un rôle extrêmement important dans l'analyse de nombreux phénomènes psychologiques et pédagogiques est joué par les valeurs moyennes, qui représentent une caractéristique généralisée d'une population qualitativement homogène selon un certain critère quantitatif. Il est impossible, par exemple, de calculer la spécialité moyenne ou la nationalité moyenne des étudiants universitaires, car il s'agit de phénomènes qualitativement hétérogènes. Mais il est possible et nécessaire de déterminer en moyenne les caractéristiques numériques de leurs performances académiques (score moyen), l'efficacité des systèmes et techniques méthodologiques, etc.

Dans la recherche psychologique et pédagogique, différents types de moyennes sont généralement utilisés : moyenne arithmétique, moyenne géométrique, médiane, mode et autres. Les plus courants sont la moyenne arithmétique, la médiane et le mode.

La moyenne arithmétique est utilisée dans les cas où il existe une relation directement proportionnelle entre la propriété déterminante et cet attribut (par exemple, lorsque les indicateurs de performance d'un groupe de formation s'améliorent, les indicateurs de performance de chacun de ses membres s'améliorent).

La moyenne arithmétique est le quotient de la somme des quantités divisée par leur nombre et est calculée à l'aide de la formule :

Posté sur http://www.allbest.ru/

où X est la moyenne arithmétique ; X1, X2, X3 ... Xn - résultats d'observations individuelles (techniques, actions),

n - nombre d'observations (techniques, actions),

La somme des résultats de toutes les observations (techniques, actions).

La médiane (Me) est une mesure de position moyenne qui caractérise la valeur d'une caractéristique sur une échelle ordonnée (basée sur une augmentation ou une diminution), qui correspond au milieu de la population étudiée. La médiane peut être déterminée pour les caractéristiques ordinales et quantitatives. L'emplacement de cette valeur est déterminé par la formule :

Localisation médiane = (n + 1) / 2

Par exemple. Selon les résultats de l’étude, il a été constaté que :

5 des personnes participant à l'expérience ont obtenu d'excellentes notes ;

« Bons » étudiants - 18 personnes ;

« satisfaisant » - 22 personnes ;

"Insatisfaisant" - 6 personnes.

Puisqu’un total de N = 54 personnes ont participé à l’expérience, le milieu de l’échantillon est égal à une personne. On en conclut que plus de la moitié des étudiants étudient en dessous de la note « bonne », c'est-à-dire que la médiane est plus « satisfaisante », mais moins que « bonne ».

Le mode (Mo) est la valeur typique la plus courante d'une caractéristique parmi d'autres valeurs. Elle correspond à la classe avec la fréquence maximale. Cette classe est appelée valeur modale.

Par exemple.

Si la question de l'enquête : « indiquer le degré de maîtrise d'une langue étrangère », les réponses ont été distribuées :

1 - courant - 25

2 - Je parle suffisamment pour communiquer - 54

3 - Je parle, mais j'ai du mal à communiquer - 253

4 - Je comprends difficilement - 173

5 - Je ne sais pas - 28

Évidemment, la signification la plus typique ici est « Je le possède, mais j'ai des difficultés à communiquer », qui sera modale. Le mode est donc - 253.

Lors de l'utilisation de méthodes mathématiques dans la recherche psychologique et pédagogique, une grande importance est accordée au calcul de la dispersion et des écarts types.

La dispersion est égale au carré moyen des écarts de la valeur des options par rapport à la valeur moyenne. Il s'agit de l'une des caractéristiques des résultats individuels de la dispersion des valeurs de la variable étudiée (par exemple, les notes des étudiants) autour de la valeur moyenne. Le calcul de la dispersion s'effectue en déterminant : l'écart par rapport à la valeur moyenne ; le carré de l'écart spécifié ; la somme des écarts carrés et de l’écart quadratique moyen.

La valeur de la variance est utilisée dans divers calculs statistiques, mais n'est pas directement observable. La valeur directement liée au contenu de la variable observée est l'écart type.

L'écart type confirme la typicité et le caractère indicatif de la moyenne arithmétique et reflète la mesure de la fluctuation des valeurs numériques des caractéristiques à partir desquelles est dérivée la valeur moyenne. Elle est égale à la racine carrée de la variance et est déterminée par la formule :

(2)Publié le http://www.allbest.ru/

où : - carré moyen. Si le nombre d'observations (actions) est faible - inférieur à 100 - dans la valeur de la formule, vous ne devez pas mettre « N », mais « N - 1 ».

La moyenne arithmétique et la moyenne quadratique sont les principales caractéristiques des résultats obtenus au cours de l'étude. Ils permettent de résumer les données, de les comparer et d'établir les avantages d'un système (programme) psychologique et pédagogique par rapport à un autre.

L’écart quadratique moyen (type) est largement utilisé comme mesure de dispersion pour diverses caractéristiques.

Lors de l'évaluation des résultats d'une étude, il est important de déterminer la dispersion d'une variable aléatoire autour de la valeur moyenne. Cette dispersion est décrite à l'aide de la loi de Gauss (la loi de la distribution de probabilité normale d'une variable aléatoire). L'essence de la loi est que lors de la mesure d'une certaine caractéristique dans un ensemble d'éléments donné, il y a toujours des écarts dans les deux sens par rapport à la norme en raison de nombreuses raisons incontrôlables, et plus les écarts sont importants, moins ils se produisent.

Avec un traitement ultérieur des données, les éléments suivants peuvent être identifiés : le coefficient de variation (stabilité) du phénomène étudié, qui est le rapport en pourcentage de l'écart type à la moyenne arithmétique ; une mesure d'asymétrie, montrant dans quelle direction est dirigé le nombre prédominant d'écarts ; une mesure de pente, qui montre le degré d'accumulation de valeurs de variables aléatoires autour de la moyenne, etc. Toutes ces données statistiques permettent de mieux identifier les signes des phénomènes étudiés.

Mesures des relations entre variables. En statistiques, les connexions (dépendances) entre deux ou plusieurs variables sont appelées corrélation. Elle est évaluée à l’aide de la valeur du coefficient de corrélation, qui mesure le degré et l’ampleur de cette relation.

Il existe de nombreux coefficients de corrélation. Considérons seulement quelques-uns d'entre eux, qui prennent en compte la présence d'une relation linéaire entre les variables. Leur choix dépend des échelles de mesure des variables dont il convient d'évaluer la relation entre elles. Les coefficients de Pearson et Spearman sont le plus souvent utilisés en psychologie et en pédagogie.

1.2 Concepts de base de la méthode d'échantillonnage

Soit une variable aléatoire observée dans une expérience aléatoire. On suppose que l’espace des probabilités est donné (et ne nous intéressera pas).

Nous supposerons qu'après avoir réalisé cette expérience une fois dans les mêmes conditions, nous avons obtenu des nombres - les valeurs de cette variable aléatoire dans la première seconde, etc. expériences. Une variable aléatoire a une distribution qui nous est partiellement ou totalement inconnue.

Examinons de plus près un ensemble appelé échantillon.

Dans une série d’expériences déjà réalisées, un échantillon est un ensemble de nombres. Mais si nous répétons à nouveau cette série d’expériences, alors au lieu de cet ensemble, nous obtiendrons un nouvel ensemble de nombres. Au lieu du nombre, un autre nombre apparaîtra - l'une des valeurs de la variable aléatoire. Autrement dit, (et et etc.) est une variable qui peut prendre les mêmes valeurs qu'une variable aléatoire et tout aussi souvent (avec les mêmes probabilités). Donc, avant l'expérience - une variable aléatoire distribuée de manière identique avec et après l'expérience - le nombre que l'on observe dans cette première expérience, c'est-à-dire une des valeurs possibles d'une variable aléatoire.

Une taille d’échantillon est un ensemble de variables aléatoires indépendantes et distribuées de manière identique (« copies ») qui ont la même distribution.

Que signifie « faire des déductions sur la distribution à partir d’un échantillon » ? La distribution est caractérisée par une fonction de distribution par densité ou un tableau par un ensemble de caractéristiques numériques -- etc. À l’aide d’un échantillon, vous devez être capable de construire des approximations pour toutes ces caractéristiques.

1.3 Répartition de l'échantillonnage

Considérons la mise en œuvre d'un échantillonnage basé sur un résultat élémentaire : un ensemble de nombres. Sur un espace de probabilité approprié, nous introduisons une variable aléatoire prenant des valeurs avec des probabilités (si l'une des valeurs coïncide, nous ajoutons les probabilités le nombre de fois correspondant).

La distribution d’une quantité est appelée distribution empirique ou d’échantillonnage. Calculons l'espérance mathématique et la variance de la quantité et introduisons la notation pour ces quantités :

Calculons le moment de la commande de la même manière

Dans le cas général, on désigne par la quantité

Si, lors de la construction de toutes les caractéristiques que nous avons introduites, nous considérons l'échantillon comme un ensemble de variables aléatoires, alors ces caractéristiques elles-mêmes deviendront des variables aléatoires. Ces caractéristiques de la distribution d'échantillonnage sont utilisées pour estimer (approximer) les caractéristiques inconnues correspondantes de la vraie distribution.

La raison pour laquelle on utilise les caractéristiques de distribution pour estimer les caractéristiques de la vraie distribution (ou) est la proximité de ces distributions dans leur ensemble.

Prenons un exemple de lancer un dé ordinaire. Soit le nombre de points perdus lors du ème lancer. Supposons que l'on apparaisse dans l'échantillon une, deux fois, etc. Ensuite la variable aléatoire prendra les valeurs 1 à 6 avec des probabilités en conséquence. Mais ces proportions se rapprochent avec la croissance selon la loi des grands nombres. Autrement dit, la distribution de la valeur se rapproche dans un certain sens de la véritable distribution du nombre de points obtenus lors du lancement du bon dé.

1.4 Histogramme de la fonction de distribution empirique

Puisqu’une distribution inconnue peut être décrite, par exemple, par sa fonction de distribution, nous construirons une « estimation » de cette fonction à partir de l’échantillon.

Définition 1. Une fonction de distribution empirique construite à partir d'un volume d'échantillon est une fonction aléatoire pour chaque égal à

Rappel : Fonction aléatoire

appelé indicateur d’événement. Pour chacune, il s'agit d'une variable aléatoire ayant une distribution de Bernoulli de paramètre

En d’autres termes, pour toute valeur égale à la probabilité réelle qu’une variable aléatoire soit plus petite, elle est estimée par la proportion d’éléments de l’échantillon qui sont plus petits.

Si les éléments de l'échantillon sont classés par ordre croissant (pour chaque résultat élémentaire), un nouvel ensemble de variables aléatoires appelé série de variations sera obtenu :

L’élément est appelé le ième terme de la série de variations ou la ième statistique d’ordre.

La fonction de distribution empirique comporte des sauts aux points d'échantillonnage ; l'ampleur du saut en un point est égale à où est le nombre d'éléments d'échantillon correspondant à c.

Vous pouvez construire une fonction de distribution empirique à l'aide d'une série de variations :

Une autre caractéristique de distribution est le tableau (pour les distributions discrètes) ou la densité (pour les distributions absolument continues). Un analogue empirique ou sélectif d'un tableau ou d'une densité est ce qu'on appelle l'histogramme. Un histogramme est construit à partir de données groupées. La plage estimée de valeurs d'une variable aléatoire (ou plage de données d'échantillon) est divisée, quel que soit l'échantillon, en un certain nombre d'intervalles (pas nécessairement identiques). Soit des intervalles sur la ligne appelés intervalles de regroupement. Notons par le nombre d'éléments de l'échantillon tombant dans l'intervalle :

A chaque intervalle, construisez un rectangle dont l'aire est proportionnelle. L'aire totale de tous les rectangles doit être égale à un. Soit la longueur de l'intervalle. La hauteur du rectangle ci-dessus est

Le chiffre obtenu est appelé histogramme.

Divisons le segment en 4 segments égaux. Le segment comprenait 4 éléments d'échantillon en -- 6 en -- 3 et 2 éléments d'échantillon tombaient dans le segment. Nous construisons un histogramme (Fig. 2). En figue. La figure 3 est également un histogramme pour le même échantillon mais lorsque la zone est divisée en 5 segments égaux.

Le cours d'économétrie stipule que le meilleur nombre d'intervalles de regroupement (« formule de Sturgess ») est

Voici un logarithme décimal, donc

ceux. lorsque l'échantillon est doublé, le nombre d'intervalles de regroupement augmente de 1. Notez que plus il y a d'intervalles de regroupement, mieux c'est. Mais si nous prenons le nombre d'intervalles, disons, de l'ordre de grandeur, alors avec la croissance, l'histogramme ne s'approchera pas de la densité.

La déclaration suivante est vraie :

Si la densité de distribution des éléments de l'échantillon est une fonction continue, il existe alors une convergence ponctuelle de la probabilité de l'histogramme vers la densité.

Le choix du logarithme est donc raisonnable, mais pas le seul possible.

Publié sur Allbest.ru

...

Documents similaires

    Construction d'un polygone de fréquences relatives, de fonctions de distribution empiriques, de cumulants et d'histogrammes. Calcul d'estimations ponctuelles de caractéristiques numériques inconnues. Test de l'hypothèse sur le type de distribution pour une série de distribution simple et groupée.

    travail de cours, ajouté le 28/09/2011

    Sujet, méthodes et concepts de statistique mathématique, sa relation avec la théorie des probabilités. Concepts de base de la méthode d'échantillonnage. Caractéristiques de la fonction de distribution empirique. Le concept d'histogramme, le principe de sa construction. Distribution d'échantillonnage.

    tutoriel, ajouté le 24/04/2009

    Classification des événements aléatoires. Fonction de répartition. Caractéristiques numériques des variables aléatoires discrètes. Loi de distribution de probabilité uniforme. Répartition des étudiants. Problèmes de statistiques mathématiques. Estimations des paramètres de population.

    conférence, ajouté le 12/12/2011

    Estimations des paramètres de distribution, les distributions les plus importantes utilisées en statistiques mathématiques : distribution normale, Pearson, Étudiant, Distributions Fisher. Espace factoriel, formulation du but de l'expérience et sélection des réponses.

    résumé, ajouté le 01/01/2011

    Caractéristiques numériques de l'échantillon. Séries statistiques et fonction de distribution. Concept et représentation graphique d'une population statistique. Méthode du maximum de vraisemblance pour trouver la densité de distribution. Application de la méthode des moindres carrés.

    test, ajouté le 20/02/2011

    Problèmes de statistiques mathématiques. Distribution d'une variable aléatoire basée sur des données expérimentales. Fonction de distribution empirique. Estimations statistiques des paramètres de distribution. Loi de distribution normale d'une variable aléatoire, test d'hypothèse.

    travail de cours, ajouté le 13/10/2009

    Traitement statistique des données de contrôle du temps (en heures) du travail en laboratoire informatique par jour. Polygone de fréquences absolues. Tracer la fonction de distribution empirique et l'enveloppe de l'histogramme. Répartition théorique de la population.

    test, ajouté le 23/08/2015

    Traitement des résultats des informations sur les transports et les machines technologiques à l'aide de la méthode des statistiques mathématiques. Définition de la fonction intégrale de la distribution normale, fonction de la loi de Weibull. Détermination du degré de décalage vers le début de la distribution des paramètres.

    test, ajouté le 05/03/2017

    Le concept de statistique mathématique en tant que science sur les méthodes mathématiques de systématisation et d'utilisation de données statistiques à des fins scientifiques et pratiques. Estimations ponctuelles des paramètres des distributions statistiques. Analyse du calcul des moyennes.

    travail de cours, ajouté le 13/12/2014

    Concepts de base des statistiques mathématiques, estimations d'intervalles. Méthode des moments et méthode du maximum de vraisemblance. Tester des hypothèses statistiques sur le type de loi de distribution en utilisant le critère de Pearson. Propriétés des estimations, distributions continues.

Département de biophysique, d'informatique et d'équipement médical de l'Université nationale de médecine d'Odessa Des lignes directricesÉtudiants de 1ère année sur le thème « Fondamentaux de la statistique mathématique » Odessa 2009

1. Sujet : « Fondamentaux de la statistique mathématique ».

2. Pertinence du sujet.

Les statistiques mathématiques sont une branche des mathématiques qui étudie les méthodes de collecte, de systématisation et de traitement des résultats d'observations d'événements aléatoires de masse afin de clarifier et d'appliquer pratiquement les modèles existants. Les méthodes de statistiques mathématiques ont trouvé de nombreuses applications en médecine clinique et en soins de santé. Ils sont utilisés notamment dans le développement de méthodes mathématiques de diagnostic médical, dans la théorie des épidémies, dans la planification et le traitement des résultats d'une expérience médicale, dans l'organisation des soins de santé. Les concepts statistiques sont utilisés, consciemment ou inconsciemment, dans la prise de décision dans des domaines tels que le diagnostic clinique, la prévision de l'évolution de la maladie chez un patient individuel, la prévision du résultat probable des programmes dans une population donnée et la sélection du programme approprié dans des circonstances particulières. La familiarité avec les idées et les méthodes des statistiques mathématiques est un élément essentiel de la formation professionnelle de tout travailleur de la santé.

3. Des cours entiers. L'objectif général de la leçon est d'apprendre aux étudiants à utiliser consciemment les statistiques mathématiques lors de la résolution de problèmes de profil biomédical. Cours entiers spécifiques :
  1. familiariser les étudiants avec les idées, concepts et méthodes de base de la statistique mathématique, en accordant une attention particulière aux questions liées au traitement des résultats des observations d'événements aléatoires de masse afin de clarifier et d'appliquer pratiquement les modèles existants ;
  2. apprendre aux étudiants à appliquer consciemment les concepts de base des statistiques mathématiques lors de la résolution de problèmes simples qui se posent dans l'activité professionnelle d'un médecin.
L'étudiant doit savoir (niveau 2) :
  1. détermination de la fréquence des cours (absolue et relative)
  2. détermination du granulat général et échantillonnage, volume d'échantillonnage
  3. estimation de points et d'intervalles
  4. intervalle fiable et fiabilité
  5. définition du mode, de la médiane et de la moyenne de l'échantillon
  6. définition de l'intervalle, intervalle interquartile, écart quartile
  7. détermination de l'écart absolu moyen
  8. détermination de la covariance et de la variance de l'échantillon
  9. détermination de l'écart type de l'échantillon et du coefficient de variation
  10. détermination des coefficients de régression d'échantillon
  11. équations empiriques de régression linéaire
  12. détermination du coefficient de corrélation de l'échantillon.
L'étudiant doit maîtriser les habitudes de calcul de base (niveau 3) :
  1. mode, médiane et moyenne de l'échantillon
  2. intervalle, intervalle interquartile, écart quartile
  3. signifie une déviation absolue
  4. covariance et variance de l'échantillon
  5. écart type de l'échantillon et coefficient de variation
  6. intervalle fiable pour l'espérance et la variance
  7. échantillons de coefficients de régression
  8. coefficient de corrélation de l'échantillon.
4. Moyens d'atteindre les objectifs de la leçon : Pour atteindre les objectifs de la leçon, vous avez besoin des connaissances de base suivantes :
  1. Définition de la distribution, des séries de distribution et de la distribution multi-nœuds d'une variable aléatoire discrète
  2. Détermination de la variation fonctionnelle entre variables aléatoires
  3. Détermination de la corrélation entre variables aléatoires
Vous devez également être capable de calculer les probabilités d'événements incompatibles et compatibles en utilisant les règles appropriées. 5. Une tâche permettant aux étudiants de tester leur niveau initial de connaissances. Questions de contrôle
  1. Définition d'un événement flash, de sa fréquence relative et de sa probabilité.
  2. Théorème pour composer les probabilités d'événements incompatibles
  3. Théorème de compilation des probabilités d'événements conjoints
  4. Théorème de multiplication des probabilités d'événements indépendants
  5. Théorème de multiplication des probabilités d'événements dépendants
  6. Théorème de probabilité totale
  7. Théorème de Bayes
  8. Définition des variables aléatoires : discrètes et continues
  9. Définition de la distribution, des séries de distribution et du polygone de distribution d'une variable aléatoire discrète
  10. Définition de la fonction de distribution
  11. Définition des mesures de position du centre de distribution
  12. Détermination de mesures de variabilité de valeurs de variables aléatoires
  13. Détermination de l'épaisseur de la distribution et de la courbe de distribution d'une variable aléatoire continue
  14. Détermination de la dépendance fonctionnelle entre variables aléatoires
  15. Détermination de la corrélation entre des variables aléatoires
  16. Définition de régression, équation et droites de régression
  17. Détermination de la covariance et du coefficient de corrélation
  18. Définition de l'équation de régression linéaire.
6. Des informations pour renforcer les connaissances et compétences initiales peuvent être trouvées dans les manuels :
  1. Zhumatiy P.G. Conférence « Théorie des probabilités ». Odessa, 2009.
  2. Zhumatiy P.G. « Fondamentaux de la théorie des probabilités ». Odessa, 2009.
  3. Zhumatiy P.G., Senitska Y.R. Éléments de théorie des probabilités. Lignes directrices pour les étudiants des instituts de médecine. Odessa, 1981.
  4. Chaly O.V., Agapov B.T., Tsekhmister Y.V. Physique médicale et biologique. Kyiv, 2004.
7. Contenu du matériel pédagogique sur ce sujet, mettant en évidence les principales questions clés.

Les statistiques mathématiques sont une branche des mathématiques qui étudie les méthodes de collecte, de systématisation, de traitement, de représentation, d'analyse et d'interprétation des résultats d'observation afin d'identifier les modèles existants.

L’utilisation des statistiques dans les soins de santé est nécessaire tant au niveau de la communauté qu’au niveau individuel des patients. La médecine traite d'individus qui diffèrent les uns des autres par de nombreuses caractéristiques, et les valeurs par lesquelles une personne peut être considérée comme en bonne santé varient d'un individu à l'autre. Il n'existe pas deux patients ou groupes de patients identiques, c'est pourquoi les décisions qui affectent des patients ou des populations individuelles doivent être prises sur la base de l'expérience acquise auprès d'autres patients ou populations présentant des caractéristiques biologiques similaires. Il faut comprendre que, compte tenu des divergences existantes, ces décisions ne peuvent pas être absolument exactes – elles sont toujours associées à une certaine incertitude. C’est précisément la nature virale de la médecine.

Quelques exemples d’application des méthodes statistiques en médecine :

interprétation de la variation (la variabilité des caractéristiques d'un organisme pour décider quelle valeur de telle ou telle caractéristique sera idéale, normale, moyenne, etc., nécessite l'utilisation de méthodes statistiques appropriées).

diagnostic des maladies chez des patients individuels et évaluation de l'état de santé d'un groupe de population.

prédire la fin d'une maladie chez des patients individuels ou le résultat possible d'un programme de contrôle d'une maladie particulière dans n'importe quel groupe de population.

sélectionner une influence appropriée sur un patient ou un groupe de population.

planifier et mener des recherches médicales, analyser et publier les résultats, les lire et les évaluer de manière critique.

planification et gestion des soins de santé.

Les informations utiles sur la santé sont généralement cachées dans des masses de données brutes. Il est nécessaire de concentrer les informations qu'ils contiennent et de présenter les données de manière à ce que la structure de variation soit clairement visible, puis de sélectionner des méthodes d'analyse spécifiques.

La présentation des données fournit une introduction aux concepts et termes suivants :

série de variations (arrangement ordonné) - un arrangement simple d'observations individuelles d'une quantité.

la classe est l'un des intervalles dans lesquels est divisée toute la plage de valeurs d'une variable aléatoire.

points extrêmes de la classe - valeurs qui limitent la classe, par exemple 2,5 et 3,0, limites inférieures et supérieures de la classe 2,5 - 3,0.

Fréquence (absolue) de classe - le nombre d'observations dans une classe.

fréquence relative de classe - la fréquence absolue d'une classe, exprimée en fraction du nombre total d'observations.

fréquence cumulée (accumulée) d'une classe - le nombre d'observations égal à la somme des fréquences de toutes les classes précédentes et de cette classe.

Diagramme de Stovptsev - une représentation graphique des fréquences de données pour les classes nominales utilisant des colonnes dont les hauteurs sont directement proportionnelles aux fréquences de classe.

diagramme circulaire - une représentation graphique des fréquences de données pour les classes nominales utilisant des secteurs d'un cercle dont les aires sont directement proportionnelles aux fréquences de classe.

histogramme - une représentation graphique de la distribution de fréquence des données quantitatives avec des zones de rectangles directement proportionnelles aux fréquences de classe.

polygone de fréquence - un graphique de la distribution de fréquence des données quantitatives ; le point correspondant à la fréquence de classe est situé au dessus du milieu de l'intervalle, chacun deux points adjacents sont reliés par un segment de droite.

ogive (courbe cumulative) - un graphique de la distribution des fréquences relatives cumulées.

Toutes les données médicales ont une variabilité inhérente, donc l'analyse des résultats de mesure est basée sur l'étude des informations sur les valeurs prises par la variable aléatoire étudiée.

L'ensemble de toutes les valeurs possibles d'une variable aléatoire est appelé général.

La partie de la population générale enregistrée à la suite des tests est appelée échantillon.

Le nombre d’observations incluses dans l’échantillon est appelé volume de l’échantillon (généralement noté n).

La tâche de la méthode d'échantillonnage est d'utiliser le votant résultant pour faire une estimation correcte de la variable aléatoire étudiée. Par conséquent, la principale exigence d'un échantillon est la réflexion maximale de toutes les caractéristiques de la population générale. Un échantillon qui satisfait à cette exigence est appelé représentatif. La représentativité de l'échantillon détermine la qualité de l'évaluation, c'est-à-dire le degré de correspondance. de l’évaluation au paramètre qu’elle caractérise.

Lors de l'estimation des paramètres d'une population basée sur un électeur (estimation paramétrique), les concepts suivants sont utilisés :

estimation ponctuelle - une estimation d'un paramètre de population sous la forme d'une valeur unique qu'il peut prendre avec la probabilité la plus élevée.

estimation d'intervalle - estimation d'un paramètre de population sous la forme d'un intervalle de valeurs qui a une probabilité donnée de couvrir sa vraie valeur.

Lors de l'utilisation de l'évaluation par intervalles, le concept est utilisé :

intervalle fiable - un intervalle de valeurs qui a une probabilité donnée de couvrir la vraie valeur du paramètre de population lors de l'estimation de l'intervalle.

fiabilité (probabilité fiable) - la probabilité avec laquelle l'intervalle fiable couvre la vraie valeur du paramètre de population.

limites fiables - limites inférieures et supérieures de l'intervalle fiable.

Les conclusions obtenues par les méthodes de statistiques mathématiques sont toujours basées sur un nombre limité et sélectif d'observations, il est donc naturel que pour le deuxième échantillon, les résultats puissent être différents. Cette circonstance détermine le caractère international des conclusions de la statistique mathématique et, par conséquent, l'utilisation généralisée de la théorie des probabilités dans la pratique de la recherche statistique.

Un chemin de recherche statistique typique est :

Après avoir estimé les quantités ou les relations entre elles sur la base de données d'observation, ils font l'hypothèse que le phénomène étudié peut être décrit par l'un ou l'autre modèle stochastique.

en utilisant des méthodes statistiques, cette hypothèse peut être confirmée ou rejetée ; une fois confirmé, l'objectif a été atteint - un modèle a été trouvé qui décrit les modèles étudiés ; sinon, le travail se poursuit, en proposant et en testant une nouvelle hypothèse.

Définition d'échantillons d'estimations statistiques :

le mode est la valeur qui apparaît le plus souvent chez le votant,

médiane - valeur centrale (moyenne) de la série de variations

plage R - la différence entre les valeurs les plus grandes et les plus petites d'une série d'observations

percentiles - une valeur dans une série de variations qui divise la distribution en 100 parties égales (ainsi, la médiane sera le cinquantième centile)

premier quartile - 25e centile

troisième quartile - 75e centile

intervalle interquartile - la différence entre le premier et le troisième quartile (couvre les 50 % centraux des observations)

écart quartile - la moitié de l'intervalle interquartile

moyenne de l'échantillon - moyenne arithmétique de toutes les valeurs de l'échantillon (exemple d'estimation de l'espérance mathématique)

écart absolu moyen - la somme des écarts par rapport au début correspondant (sans tenir compte du signe), divisée par le volume de l'échantillon

l'écart absolu moyen par rapport à la moyenne de l'échantillon est calculé à l'aide de la formule

la variance de l'échantillon (X) - (estimation de la variance de l'échantillon) est donnée par

covariance de l'échantillon -- (estimation de l'échantillon de la covariance K ( X,Y )) est égale

le coefficient de régression de Y sur X (échantillon d'estimation du coefficient de régression de Y sur X) est égal à

l'équation de régression linéaire empirique de Y sur X a la forme

le coefficient de régression de l'échantillon de X sur Y (estimation de l'échantillon du coefficient de régression de X sur Y) est égal à

l'équation de régression linéaire empirique de X sur Y a la forme

écart type de l'échantillon s(X) - (estimation de l'écart type de l'échantillon) est égal à la racine carrée de la variance de l'échantillon

coefficient de corrélation de l'échantillon - (échantillon d'estimation du coefficient de corrélation) est égal à

échantillon de coefficient de variation  - (échantillon d'estimation du coefficient de variation CV) est égal à

.

8. Tâche de préparation indépendante des étudiants. 8.1 Tâche d'étude indépendante du matériel du sujet.

8.1.1 Calcul pratique des estimations par sondage

Calcul pratique des estimations ponctuelles d'échantillonnage

Exemple 1.

La durée de la maladie (en jours) dans 20 cas de pneumonie était de :

10, 11, 6, 16, 7, 13, 15, 8, 9, 10, 11, 13, 7, 8, 13, 15, 16, 13, 14, 15

Déterminez le mode, la médiane, l'intervalle, l'intervalle interquartile, la moyenne de l'échantillon, l'écart absolu moyen par rapport à la moyenne de l'échantillon, la dispersion de l'échantillon, le coefficient de variation de l'échantillon.

Rozv"zok.

La série de variations pour l'échantillonnage a la forme

6, 7, 7, 8, 8, 9, 10, 10, 11, 11, 13, 13, 13, 13, 14, 15, 15, 15, 16, 16

Mode

Le nombre le plus courant chez l'électeur est 13. Par conséquent, la valeur du mode chez l'électeur sera ce nombre.

Médian

Lorsqu'une série de variations contient une paire d'observations, la médiane est égale à la moyenne des deux termes centraux de la série, en l'occurrence 11 et 13, la médiane est donc 12.

Portée

La valeur minimale chez un électeur est de 6 et la valeur maximale est de 16, donc R = 10.

Écart interquartile, écart quartile

Dans une série de variations, un quart de toutes les données ont une valeur inférieure à, ou au niveau 8, donc le premier quartile est 8, et 75 % de toutes les données ont une valeur inférieure, ou au niveau 12, donc le troisième quartile est 14. Ainsi , l'intervalle interquartile est de 6 et l'écart quartile est de 3.

Moyenne de l'échantillon

La moyenne arithmétique de toutes les valeurs de l'échantillon est égale à

.

Écart absolu moyen par rapport à la moyenne de l'échantillon

.

Écart de l'échantillon

Exemple d'écart type

.

Coefficient de variation de Birk

.

Dans l'exemple suivant, nous considérerons le moyen le plus simple d'étudier la dépendance stochastique entre deux variables aléatoires.

Exemple 2.

Lors de l'examen d'un groupe de patients, des données ont été obtenues sur la taille H (cm) et le volume sanguin circulant V (l) :

Trouvez des équations de régression linéaire empiriques.

Rozv"zok.

La première chose que vous devez calculer est :

moyenne de l'échantillon

moyenne de l'échantillon

.

La deuxième chose que vous devez calculer est :

variance de l'échantillon (H)

variance de l'échantillon (V)

covariance de l'échantillon

Troisièmement, le calcul des coefficients de régression de l'échantillon :

coefficient de régression de l'échantillon V sur H

coefficient de régression de l'échantillon H sur V

.

Quatrièmement, notez les équations requises :

l'équation de régression linéaire empirique de V sur H a la forme

l'équation de régression linéaire empirique de H sur V a la forme

.

Exemple 3.

A l'aide des conditions et des résultats de l'exemple 2, calculer le coefficient de corrélation et vérifier la fiabilité de l'existence d'une corrélation entre la taille humaine et le volume sanguin circulant avec une probabilité fiable de 95 %.

Rozv"zok.

Le coefficient de corrélation est lié aux coefficients de régression et à une formule pratiquement utile

.

Pour un exemple d'évaluation du coefficient de corrélation, cette formule a la forme

.

En utilisant les valeurs des coefficients de régression de l'échantillon et dans l'exemple 2, on obtient

.

La vérification de la fiabilité de la corrélation entre variables aléatoires (en supposant une distribution normale pour chacune d'elles) s'effectue comme suit :

  • calculer la valeur de T

  • trouver le coefficient dans le tableau de répartition des étudiants

  • l'existence d'une corrélation entre variables aléatoires est confirmée lors de l'exécution de l'inégalité

.

Puisque 3,5 > 2,26, alors avec une probabilité fiable de 95 % d’existence d’une corrélation entre la taille du patient et le volume de sang circulant, elle peut être considérée comme établie.

Estimations d'intervalle pour l'espérance mathématique et la variance

Si la variable aléatoire a une distribution normale, les estimations d'intervalle pour l'espérance mathématique et la variance sont calculées dans l'ordre suivant :

1. trouver la moyenne de l'échantillon ;

2. calculer la variance de l'échantillon et l'écart type de l'échantillon s ;

3. dans le tableau de distribution de Student, en utilisant la probabilité fiable  et le volume d'échantillon n, trouvez le coefficient de Student ;

4. L'intervalle fiable pour l'espérance mathématique s'écrit sous la forme

5.dans le tableau de répartition "> et le volume de prélèvement, retrouver les coefficients

;

6. L'intervalle de confiance pour la dispersion s'écrit sous la forme

La valeur de l'intervalle de confiance, la probabilité fiable et le volume d'échantillonnage dépendent les uns des autres. En fait, l'attitude

diminue avec l'augmentation de n, donc, avec une valeur constante de l'intervalle de fiabilité, avec l'augmentation de n, u augmente. Avec une probabilité fiable constante, à mesure que le volume de viborkip augmente, la valeur de l'intervalle fiable diminue. Lors de la planification d'une recherche médicale, cette connexion est utilisée pour déterminer le volume d'échantillonnage minimum qui fournira les valeurs requises de l'intervalle fiable et de la probabilité fiable en fonction des conditions du problème à résoudre.

Exemple 5.

À l’aide des conditions et des résultats de l’exemple 1, trouvez les estimations d’intervalle de l’espérance mathématique et de la variance pour une probabilité fiable de 95 %.

Rozv"zok.

Dans l'exemple 1, les estimations ponctuelles de l'espérance mathématique (moyenne de l'échantillon = 12), de la variance (variance de l'échantillon = 10,7) et de l'écart type (écart type de l'échantillon) sont déterminées. Le volume de l'échantillon est n = 20.

A partir du tableau de distribution de Student, nous trouvons la valeur du coefficient

Ensuite, nous calculons la demi-largeur de l'intervalle de confiance

et notez l'estimation d'intervalle de l'espérance mathématique

10,5 < < 13,5 при = 95%

A partir du tableau de distribution de Pearson "chi carré" on retrouve les coefficients

calculer les limites fiables inférieures et supérieures

et écrivez l'estimation d'intervalle pour la variance sous la forme

6.2 23 à = 95% .

8.1.2. Problèmes à résoudre de manière autonome

Pour une solution indépendante, les problèmes 5.4 C 1 à 8 sont proposés (P.G. Zhumatiy. « Traitement mathématique des données médicales et biologiques. Problèmes et exemples. » Odessa, 2009, pp. 24-25)

8.1.3. Questions de contrôle
  1. Fréquence des cours (absolue et relative).
  2. Population et échantillon, taille de l'échantillon.
  3. Estimation de points et d’intervalles.
  4. Intervalle et fiabilité fiables.
  5. Mode, médiane et moyenne de l'échantillon.
  6. Écart, intervalle interquartile, écart trimestriel.
  7. Écart absolu moyen.
  8. Covariance et variance de l'échantillon.
  9. Échantillon d’écart type et coefficient de variation.
  10. Exemples de coefficients de régression.
  11. Équations de régression empiriques.
  12. Calcul du coefficient de corrélation et fiabilité de la corrélation.
  13. Construction d'estimations d'intervalle de variables aléatoires normalement distribuées.
8.2 Littérature de base
  1. Zhumatiy P.G. « Traitement mathématique des données médicales et biologiques. Tâches et exemples. Odessa, 2009.
  2. Zhumatiy P.G. Conférence « Statistiques mathématiques ». Odessa, 2009.
  3. Zhumatiy P.G. « Fondamentaux des statistiques mathématiques. » Odessa, 2009.
  4. Zhumatiy P.G., Senitska Y.R. Éléments de théorie des probabilités. Lignes directrices pour les étudiants des instituts de médecine. Odessa, 1981.
  5. Chaly O.V., Agapov B.T., Tsekhmister Y.V. Physique médicale et biologique. Kyiv, 2004.
8.3 littérature supplémentaire
  1. Remizov O.M. Physique médicale et biologique. M., " lycée”, 1999.
  2. Remizov O.M., Isakova N.Kh., Maksina O.G.. Recueil de problèmes de physique médicale et biologique. M., ., « Lycée », 1987.
Instructions méthodologiques compilées par Assoc. P. G. Zhumatiy.

3.1.1 Problèmes et méthodes de statistiques mathématiques

Statistiques mathématiques est une branche des mathématiques consacrée aux méthodes de collecte, d'analyse et de traitement des résultats des données statistiques d'observation à des fins scientifiques et pratiques. Les méthodes de statistiques mathématiques sont utilisées dans les cas où la distribution est étudiée phénomènes de masse, c'est à dire. une grande collection d'objets ou de phénomènes distribués sur une certaine base.

Soit étudié un ensemble d'objets homogènes, unis par une caractéristique ou une propriété commune de nature qualitative ou quantitative. Les éléments individuels d’une telle collection sont appelés ses membres. Le nombre total des membres de la population le constitue volume. Nous appellerons l'ensemble de tous les objets unis selon une caractéristique population générale. Par exemple, le revenu de la population, la valeur marchande des actions ou les écarts par rapport aux normes de l'État sont étudiés au cours d'une évaluation qualitative des produits manufacturés.

Les statistiques mathématiques sont étroitement liées à la théorie des probabilités et reposent sur ses conclusions. En particulier, la notion population en statistique mathématique correspond au concept espaces d'événements élémentaires en théorie des probabilités.

L'étude de l'ensemble de la population est le plus souvent impossible ou peu pratique en raison de coûts matériels importants, de dommages ou de destruction de l'objet de recherche. Ainsi, il est impossible d'obtenir des informations objectives et complètes sur les revenus de la population de l'ensemble de la région, c'est-à-dire chaque habitant individuel. En raison des dommages causés à l'objet de recherche, il est impossible d'obtenir des informations fiables sur la qualité, par exemple de certains médicaments ou produits alimentaires.

Principal tâche la statistique mathématique est l'étude d'une population générale à l'aide d'échantillons de données en fonction de l'objectif, c'est-à-dire l'étude des propriétés probabilistes de la population : loi de distribution, caractéristiques numériques, etc. pour prendre des décisions de gestion dans des conditions d’incertitude.

3.1.2 Types d'échantillonnage

L'une des méthodes de statistiques mathématiques est méthode d'échantillonnage. En pratique, ce n’est le plus souvent pas l’ensemble de la population qui est étudiée, mais un échantillon limité de celle-ci.

Échantillonnage(échantillon de population) est une collection d’objets sélectionnés au hasard. En utilisant la méthode d'échantillonnage, ce n'est pas la population entière qui est étudiée, mais un échantillon ( X 1 ,X 2 ,...,X n) à la suite d'un nombre limité d'observations. Ensuite, sur la base des propriétés probabilistes d’un échantillon donné d’une certaine population, un jugement est porté sur l’ensemble de la population. Diverses méthodes de sélection sont utilisées pour obtenir un échantillon. Après étude, les objets de recherche peuvent être inclus dans la population générale, ce qui correspond à
échantillon.

L'échantillon s'appelle représentant ou représentant, s'il reproduit bien la population générale, c'est-à-dire que les propriétés probabilistes de l'échantillon coïncident ou sont proches des propriétés de la population générale elle-même.

Ainsi, l'efficacité de l'utilisation de la méthode d'échantillonnage augmente si un certain nombre de conditions sont remplies, parmi lesquelles :

    Nombre d'éléments de l'échantillon étudiés assez pour tirer des conclusions, c'est-à-dire que l'échantillon est représentatif ou " représentant».

Ainsi, un nombre suffisant de pièces d'un lot dont la qualité (défauts) est contrôlée est établi à l'aide des lois de la théorie des probabilités et des statistiques mathématiques.

    Les échantillons d'articles doivent être variés, pris au hasard, ceux. le principe doit être respecté randomisation.

    Caractère étudié caractéristique, typique de tous les éléments de l'ensemble des objets étudiés ceux. pour l'ensemble de la population.

    Le trait étudié est significatif pour tous les éléments de cette classe.

Un changement dans une caractéristique d'une population statistique étudiée par une méthode d'échantillonnage est appelé variation, et les valeurs observées de la caractéristique X je - option. Fréquence absolue (fréquence ou fréquence) options X je est le nombre de membres d'une population (générale ou échantillon) qui ont une valeur X je(c'est-à-dire c'est le nombre de particules je- ème variété).

Option de regroupement classé par valeurs individuelles d'une caractéristique (ou par intervalles de changement), c'est-à-dire une séquence de variantes classées par ordre croissant est appelée série de variations. Toute fonction ( X 1 ,X 2 ,…,X n) à partir des résultats d'observation X 1 ,X 2 ,…,X n la variable aléatoire étudiée s'appelle statistiques.

Taille de la population acceptée désigner N, ses fréquences absolues sont N je, taille de l'échantillon - n, ses fréquences absolues sont n je. Il est évident que

,
.

Le rapport entre la fréquence et le volume de la population est appelé fréquence relative ou probabilité statistique et est désigné W je ou :

.

Si le nombre de variantes est grand ou proche de la taille de l'échantillon (avec une distribution discrète), et également si l'échantillon est tiré d'une population continue, alors la série de variations n'est pas compilée à partir de séries individuelles - indiquer - valeurs, et selon intervalles valeurs démographiques. La série de variations présentée dans un tableau, construit selon la procédure de regroupement, sera appelée intervalle. Lors de la compilation d'une série de variations d'intervalles, la première ligne du tableau est remplie d'intervalles de longueur égale de valeurs de la population étudiée, la seconde - avec les fréquences absolues ou relatives correspondantes.

En conséquence, d'une certaine population générale n observations extraites taille de l'échantillon P.. Distribution statistique échantillons appelé une liste d’options et leurs fréquences absolues ou relatives correspondantes. Série de variations de points absolu fréquences peut être représenté par un tableau :

X je

X k

n je

n k

et
.

Série de variations de points fréquences relatives présenté dans un tableau :

X je

X k

et
.

Lors de la construction d'une distribution d'intervalles, il existe des règles pour choisir le nombre d'intervalles ou la taille de chaque intervalle. Le critère ici est le rapport optimal : avec une augmentation du nombre d'intervalles, la représentativité s'améliore, mais le volume des données et le temps de leur traitement augmentent. Différence X maximum - X min entre la plus grande et la plus petite valeur l'option est appelée portée des échantillons.

Pour compter le nombre d'intervalles k La formule empirique de Sturgess est généralement utilisée :

k= 1+3,3221g n (3.1)

(implique un arrondi à l'entier le plus proche). En conséquence, la taille de chaque intervalle h peut être calculé à l'aide de la formule :

. (3.2)

X min = X maximum - 0,5h.

Chaque intervalle doit contenir au moins cinq options. Dans le cas où le nombre de variantes dans un intervalle est inférieur à cinq, les intervalles adjacents sont généralement combinés.