La validation croisée permet donc d'évaluer un modèle de machine learning en ayant la moyenne des performances et l'erreur type sur chacun des folds ou en évaluant les prédictions faites sur l'ensemble des données. Pour des raisons de temps de calcul, on utilise généralement cinq ou dix folds.
La mesure F1 combine précision et rappel. Le résultat est la moyenne harmonique des deux valeurs. Il est calculé comme suit : F1 = 2 × (Précision × Rappel) ÷ (Précision + Rappel)
La classification sur données déséquilibrées est un problème de classification où l'échantillon d'apprentissage contient une forte disparité entre les classes à prédire. Ce problème revient fréquemment dans les problèmes de classification binaire, et notamment la détection d'anomalies.
Les principaux critères de classification sont : le statut, la profession, la qualification ou la place dans la hiérarchie, la taille de l'entreprise, l'activité économique de l'entreprise...
Quel est le type de résultat que vous souhaitez prédire ? S'il s'agit d'un nombre (par exemple le coût par clic d'une publicité), c'est un problème de régression. S'il s'agit plutôt d'une valeur discrète, d'une catégorie (par exemple le type d'animal présent sur une photo), alors c'est un problème de classification.
Pour comparer deux algorithmes du point de vue de la performance, il faudrait alors donner la taille du problème à résoudre. Le résultat de cette comparaison peut varier selon la taille du problème. Ces questions sont étudiées par une branche de l'informatique que nous appelons la théorie de la complexité.
Prouver un algorithme
Il est possible de fournir deux preuves mathématiques montrant qu'un algorithme est correct : une preuve d'arrêt et une preuve de validité. La preuve d'arrêt assure que l'algorithme s'arrêtera forcément à un moment, c'est-à-dire qu'il n'y a pas de cas où il entrerait dans une boucle infinie.
Un modèle qui permet de prédire correctement 95 enregistrements affiche une erreur de 5 %. Cependant, de telles données ne suffisent pas pour indiquer le type d'erreur qui peut prendre deux valeurs possibles : Un cas négatif qui est considéré comme un cas positif. Un cas positif qui est considéré comme un cas négatif.
L'accuracy est une métrique de performance qui évalue la capacité d'un modèle de classification à bien prédire à la fois les individus positifs et les individus négatifs.
Chaque colonne de la matrice représente le nombre d'occurrences d'une classe estimée, tandis que chaque ligne représente le nombre d'occurrences d'une classe réelle (ou de référence). Les occurrences utilisées pour chacune de ces 2 classes doivent être différentes.
Mesure d'évaluation pour les modèles de classification
L'une des manières les plus répandues pour mesurer la performance d'un modèle de classification est la matrice de confusion. Cette dernière correspond à un résumé tabulaire du nombre de prédictions correctes et non correctes, faites par le modèle.
L'évaluation de l'efficacité d'un programme se centre principalement sur l'atteinte des objectifs ou sur l'impact que produit un programme en terme de changements. Le degré d'atteinte des objectifs s'établit par une comparaison entre les résultats attendus et les résultats obtenus (Bibeau et Bussière).
Algorithme optimal Un algorithme est dit optimal si sa complexité est la complexité minimale parmi les algorithmes de sa classe. Exemple On peut montrer que tout algorithme résolvant le probl`eme du tri a une complexité dans le pire des cas en Ω(nlg n).
L'algorithme de classement de Google (PageRank)
Le PageRank est sans aucun doute l'algorithme le plus utilisé dans le monde. Il est le fondement du classement des pages sur le moteur de recherche de Google.
Pour évaluer un modèle de régression, on peut calculer la distance entre valeurs prédites et vraies valeurs.
Comment interpréter les valeurs P dans l'analyse de régression linéaire ? La valeur p pour chaque terme teste l'hypothèse nulle que le coefficient est égal à zéro (aucun effet). Une faible valeur p (<0,05) indique que vous pouvez rejeter l'hypothèse nulle.
La régression linéaire va vous permettre d'en analyser la nature. Par exemple, si le prix d'un produit particulier change en permanence, vous pouvez utiliser l'analyse de régression pour déterminer si la consommation baisse à mesure que le prix augmente.
Les objectifs de la classification
La classification permet, en ce sens, de rattacher des documents d'une même activité ou d'une même fonction et d'identifier leur provenance. Elle permet de former un dossier complet.
le sens des deux substantifs, citent le Littré: «Le classement est l'action de ranger effectivement d'après un certain ordre... La classification est l'ensemble des règles qui doivent présider au classement effectif ou qui déterminent idéalement un ordre dans les objets».
Le but que l'on se propose en faisant une classification est de rendre plus facile l'étude des objets que l'on classe, en les disposant dans un ordre qui, au moyen de quelques-uns d'entre eux, permette de se souvenir des autres.