banner
Maison / Nouvelles / La plupart des données de formation en IA pourraient être synthétiques d'ici l'année prochaine
Nouvelles

La plupart des données de formation en IA pourraient être synthétiques d'ici l'année prochaine

Jun 09, 2023Jun 09, 2023

Les données synthétiques permettent aux modèles d’IA d’être entraînés sur un ensemble de données plus vaste que ce qui serait possible avec des données purement organiques.

Par Ryan Morrison

La plupart des données utilisées pour former les modèles d'apprentissage automatique seront synthétiques et générées automatiquement, prédit un nouveau rapport de Gartner. Seulement 1 % de toutes les données de formation en IA étaient synthétiques en 2021, mais les analystes suggèrent qu'elles pourraient atteindre 60 % d'ici fin 2024. La gouvernance et la vigilance concernant les biais sont essentielles pour éviter que ces données ne subissent les mêmes défis que les données organiques, a déclaré un expert à Tech. Moniteur.

Les données synthétiques sont générées par l’IA pour combler les lacunes manquantes dans les informations du monde réel telles que l’imagerie médicale ou les informations sur des types de maladies spécifiques. Dans une nouvelle étude sur les tendances en science des données, publiée cette semaine, Gartner prédit que d’ici 2024, plus de 60 % de toutes les données de formation des modèles d’IA seront synthétiques, ce qui, selon lui, conduira à de meilleurs systèmes d’IA.

Ce passage des données de formation organiques aux données de formation synthétiques fait partie d'une évolution plus large vers une IA centrée sur les données, comme celles utilisées pour produire de grands modèles de langage et de base. "Des solutions telles que la gestion des données spécifiques à l'IA, les données synthétiques et les technologies d'étiquetage des données visent à résoudre de nombreux problèmes liés aux données, notamment l'accessibilité, le volume, la confidentialité, la sécurité, la complexité et la portée", indique le rapport de Gartner.

Un rapport récent de GlobalData a révélé que les start-ups de données synthétiques « redéfinissent le paysage de la génération de données ». La décrivant comme la « clé principale de l'avenir de l'IA », Kiran Raj, responsable des technologies de rupture chez GlobalData, a déclaré que les start-ups brisaient les chaînes de la qualité des données et de la réglementation. « Alors que la demande de données fiables, rentables, rapides et préservant la confidentialité continue de s'accélérer, les start-ups envisagent un avenir alimenté par des données synthétiques, ouvrant la voie à une nouvelle ère de progrès en matière d'apprentissage automatique », a déclaré Raj.

Il est susceptible d’avoir des impacts positifs dans toute une série de secteurs. Dans le domaine de la santé, il est déjà utilisé pour augmenter les données réelles des patients afin de former des médecins, d'améliorer la découverte de médicaments et d'optimiser les systèmes. Dans le secteur des services financiers, cela contribue à atténuer les risques et à détecter la fraude. Et dans le commerce de détail, cela améliore la prévision de la demande, le marketing personnalisé et la détection des fraudes.

Les autres tendances clés relevées par Gartner incluent une évolution vers le traitement de pointe pour l’IA. Selon le rapport, le traitement des données au point de création aidera les organisations à obtenir des informations en temps réel et à détecter de nouveaux modèles. Il sera également plus facile de répondre à des exigences toujours plus strictes en matière de confidentialité des données. L'organisation prévoit que plus de 55 % des analyses de données par les réseaux de neurones auront lieu dans un système périphérique d'ici 2025.

Les analystes de Gartner prédisent que l’accent sera davantage mis sur l’IA responsable. Cela implique de veiller à ce que la technologie soit utilisée comme une force positive plutôt que comme une menace pour la société. Il s’agit notamment de veiller à ce que les entreprises fassent des choix éthiques lorsqu’elles adoptent l’IA qui tiennent compte de la valeur sociétale, des risques, de la confiance, de la responsabilité et de la transparence. Il s’agit des exigences fondamentales qui composent de nombreuses réglementations sur l’IA en cours d’élaboration dans le monde, y compris au Royaume-Uni.

Les organisations devraient adopter une « approche proportionnelle au risque » en matière d’investissement et de déploiement de l’IA, préviennent les analystes. Cela implique de faire preuve de prudence lors de l'application de solutions et de modèles et de rechercher des assurances auprès des fournisseurs pour s'assurer qu'ils gèrent leurs propres risques et obligations de conformité. Cela contribuera à les protéger des pertes financières et des poursuites judiciaires.

Certaines organisations de modèles de fondation et d’IA générative offrent des degrés d’indemnisation contre ces risques. Adobe affirme qu'il couvrira les coûts associés aux réclamations pour droits d'auteur liées à l'utilisation de son modèle d'image génératif Firefly. En effet, l'entreprise est convaincue que le modèle est formé uniquement sur des données sous licence et autorisées qui ne produiront pas de sortie suspecte de droits d'auteur.

Peter Krensky, analyste directeur chez Gartner, a déclaré : « Alors que l'adoption de l'apprentissage automatique continue de croître rapidement dans tous les secteurs, les données évoluent d'une simple concentration sur les modèles prédictifs vers une discipline plus démocratisée, dynamique et centrée sur les données. Cette tendance est désormais également alimentée par la ferveur autour de l’IA générative. Si des risques potentiels apparaissent, les nombreuses nouvelles capacités et cas d’utilisation pour les data scientists et leurs organisations le sont également.