Dans ce chapitre, je vous présente deux limites principales du machine learning : une limite théorique sur la capacité d'un algorithme à résoudre différentes tâches ; une limite pratique sur la capacité des ordinateurs à gérer la complexité des problèmes à traiter.
Si l'on répète à l'envi qu'un volume important de données est l'une des clés de voûte du machine learning, en avoir trop n'aide pas forcément. Ce problème est en lien direct avec le précédent. En effet, la masse d'information n'indique pas leur qualité et leur pertinence au regard d'un cas d'usage spécifique.
Les points faibles de l'apprentissage profond
Si le Deep Learning a beaucoup d'avantages, il a aussi ses limites, parmi lesquelles un énorme besoin en puissance de calcul. D'une part pour assurer la maintenance des réseaux de neurones artificiels, mais aussi pour traiter la très grande quantité de données nécessaires.
Les problèmes de machine learning peuvent se différencier selon deux critères : Les données dont vous disposez sont-elles annotées ou non ? Si c'est le cas, vous avez affaire à un problème d'apprentissage supervisé. Sinon, vous serez obligé d'utiliser un algorithme d'apprentissage non supervisé.
Avantages des modèles de machine learning :
Par exemple, le machine learning dans les logiciels de cybersécurité peut surveiller et identifier en permanence les irrégularités dans le trafic réseau sans la moindre intervention de l'administrateur. Les résultats peuvent devenir plus précis avec le temps.
Une machine peut présenter des risques lors de son fonctionnement normal si elle a été mal conçue ou mal implantée. Une mauvaise utilisation de la machine est aussi un facteur de risque. Une machine fonctionne rarement de façon isolée : elle s'intègre dans un processus de production.
En général, deux principaux types d'algorithmes de machine learning sont utilisés aujourd'hui : l'apprentissage supervisé et l'apprentissage non supervisé.
On distingue trois techniques de Machine Learning : l'apprentissage supervisé, l'apprentissage non-supervisé, et l'apprentissage par renforcement.
Dans le domaine du Machine Learning, 3 acteurs se partagent le podium. Il s'agit de Microsoft, IBM et Google. En effet, les 3 acteurs bénéficient de leur statut d'éditeur mondial ainsi que leur empreinte déjà faite dans les domaines du Cloud Computing et du Big Data.
On distingue principalement deux types d'algorithmes parmi les algorithmes d'apprentissage : les algorithmes de classification et de régression. La classification permet de prédire le résultat d'un échantillon donné pour les variables de sortie qui se présentent sous forme de catégorie.
Le Machine Learning est une IA capable de s'adapter automatiquement avec une interférence humaine minimale, et le Deep Learning est un sous-ensemble du Machine Learning utilisant les réseaux de neurones pour mimer le processus d'apprentissage du cerveau humain.
Définition détaillée du Machine Learning
Le Machine Learning est un sous-ensemble de l'intelligence artificielle (IA). Cette technologie vise à apprendre aux machines à tirer des enseignements des données et à s'améliorer avec l'expérience, au lieu d'être explicitement programmées pour le faire.
En général, deux principaux types d'algorithmes de machine learning sont utilisés aujourd'hui : l'apprentissage supervisé et l'apprentissage non supervisé. La différence entre les deux se définit par la méthode employée pour traiter les données afin de faire des prédictions.
Le machine learning (ML), traduit aussi en français par apprentissage automatique ou encore apprentissage statistique, est un sous-domaine de l'intelligence artificielle (IA) qui permet à des applications de prédire des résultats de plus en plus précis sans être explicitement programmées en ce sens.
En 1959, c'est l'informaticien américain Arthur Samuel qui utilise pour la première fois le terme « machine learning », pour son programme créé en 1952. Celui-ci est capable de jouer aux dames et d'apprendre au fur et à mesure de ses parties.
Le machine learning, spécialité de l'intelligence artificielle, est le domaine de la science informatique qui a pour objectif d'analyser et d'interpréter des modèles et des structures de données afin de permettre l'apprentissage, le raisonnement et la prise de décision sans interaction humaine.
Le GTP-3 a été décrit comme la percée la plus importante et la plus utile en matière d'intelligence artificielle depuis des années. Il semble être – bien qu'il soit encore dans sa version bêta – le modèle d'intelligence artificielle le plus puissant actuellement disponible.
Cette technologie de Machine Learning trouve de nombreuses applications : Facebook qui cherche à taguer les photos publiées sur son site, les équipes de sécurité pressées d'identifier un comportement fautif en temps réel et les voitures autonomes devant avoir une parfaite vue de la route, par exemple.
Le Machine Learning permet d'exploiter au mieux les Big Data en identifiant des modèles et, grâce au forage de données (data mining), d'extraire des informations exploitables et d'identifier des corrélations entre elles, informations et corrélations auparavant inconnues.
Définition du machine learning
Il peut s'agir de textes, de chiffres, d'images, de vidéos stockés numériquement. La particularité du machine learning réside dans sa capacité à apprendre de cet historique de données et de s'améliorer continuellement, et ce de manière totalement autonome.
Pour le Parlement européen, l'intelligence artificielle représente tout outil utilisé par une machine afin de « reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité ».
En résumé L'objectif principal de l'Intelligence Artificielle est d'apporter l'intelligence humaine aux machines. Le Machine Learning est un sous-ensemble de l'IA qui aide les ordinateurs à apprendre et à agir comme des humains tout en améliorant leur apprentissage autonome au fil du temps.
La validation croisée permet donc d'évaluer un modèle de machine learning en ayant la moyenne des performances et l'erreur type sur chacun des folds ou en évaluant les prédictions faites sur l'ensemble des données. Pour des raisons de temps de calcul, on utilise généralement cinq ou dix folds.