La recherche scientifique et l’IA
Par Philippe Effantin, chef de projet et Audrey Garcia Cousteau, juriste chez Ouest Valorisation
Pouvez-vous nous parler d’un projet incluant l’IA ?
Philippe Effantin: Nous travaillons actuellement sur une application de détection et de classification automatique d’anomalies de grains de café vert. La détection d’anomalies est une étape constituant la détermination du niveau de qualité du café qui est complété par des qualités gustatives une fois le café torréfié. Elle est habituellement réalisée par des experts à la sortie du champ, puis au moment de l’embarquement de la marchandise dans le cas de l’export et enfin à sa réception par le torréfacteur.
Quelles sont les phases pour déployer de tels systèmes ?
Philippe Effantin : Il y d’abord le développement avec la conception du système, la constitution de la Base de données et l’apprentissage
Une des difficultés est de détecter des anomalies qui peuvent être très petites et rares. Une des premières étapes a été de créer une base d’apprentissage permettant la création d’une base de données de photos annotées. Cette base de données doit être suffisamment bien fournie pour permettre un apprentissage machine à partir d’algorithmes conçus et développées par le laboratoire.
Audrey Garcia Cousteau : En effet, la fiabilité des résultats fournis par l’IA dépend de la qualité des données qui les alimentent. De ce fait, un manque de diversité dans les données d’entraînement affectera les résultats en sortie : si les données d’entrées sont biaisées ou de mauvaises qualités, le système d’IA fournira des résultats incorrects ou qui ne sont pas fiables. Qui plus est, les biais algorithmiques soulèvent des préoccupations considérables en termes de droits des individus lorsque l’outil d’IA prend des décisions ou aide à la prise de décision, avec par exemple des problèmes de discrimination.
PE : Vient ensuite la recherche de cas d’usages lors du contrat collaboration
Le projet a beaucoup évolué pour déterminer la finalité de l’application et nous sommes toujours en cours de réflexion pour déterminer les usages finaux. Nous avons eu la chance de toujours pouvoir rebondir en gardant à l’esprit qu’une composante de la valeur ajoutée de l’application résidait dans la constitution d’une base de données annotés de manière pertinente. Ce socle solide nous permet d’être à l’écoute de nos interlocuteurs expert du café et de réfléchir aux cas d’usages les plus pertinents dans le cadre d’un financement en prématuration. Avec un premier partenaire, nous avions pu évoquer des usages directement dans les champs pour donner une valeur objective de la qualité du café au moment de la négociation entre producteurs et acheteurs. Aujourd’hui, nous réfléchissons à monter une collaboration de recherche pour amener l’application vers un usage de formation à l’audit qualité des grains de café.
Notre attention est de trouver le contrat le plus juste possible pour financer les équipes de recherche dans leurs projets d’innovation tout en restant ouvert sur les cas d’usages apportés par les industriels. Le temps long est évidemment difficile à supporter pour les entreprises mais c’est souvent un temps nécessaire pour que le laboratoire s’aligne sur le programme d’innovation.
La dernière étape est celle du déploiement : Le déploiement d’une telle solution est un challenge en soi. Une fois passé les défis scientifiques, techniques et la validation des usages, le défi d’intégration d’une solution logiciel dans un système informatique existant est délicat. Cela se fait en lien étroit avec l’entreprise hôte de la technologie. Le contrat de collaboration peut contenir un Work package dédié à cela, les équipes techniques doivent être sollicitées en amont pour anticiper les contraintes. Par ailleurs la maintenance de ce type d’application peut également être un enjeu, un transfert de compétence est un atout indéniable pour la longévité de l’application.
Lors de la constitution de la BDD, comment collecter vous les données ?
PE : Il y a deux grands moyens de collecter des données :
- Dans la sphère publique. Selon les domaines, il existe de nombreuses bases de données disponibles sur le web. Une très grande attention doit être apporté sur les licences adossées à ces bases de données. Si les chercheurs souhaitent pouvoir transférer leurs résultats dans le monde socio-économique, il convient d’identifier les bases de données qui ont été utilisées pour entrainer leurs modèles.
- Dans la sphère privée. À travers un contrat de collaboration ou un financement en co-maturation les entreprises peuvent apporter leurs bases de données en connaissances antérieures. Il est également à souligner que les chercheurs qui produisent des bases de données peuvent protéger cette base et faire payer l’accès de cette base à des industriels tout en gardant la capacité à mettre ces données à disposition du monde académique.
Enfin si les données ne sont pas en nombre suffisant, il est possible dans certains cas de générer des données de manière synthétique. Ces scripts logiciels font souvent partie de la boite à outil des chercheurs.
AGC : Aujourd’hui, les œuvres accessibles via Internet peuvent donc servir de données d’entrainement en vue de perfectionner l’apprentissage d’un SIA. La législation européenne[1] a posé un premier cadre à cette collecte : l’exception de la fouille de texte et de données, indifféremment appelé ici « text and data mining » ou « TDM » ou « fouille ».
Le droit d’auteur confère au titulaire des droits exclusifs sur sa création afin de protéger la création contre un usage non autorisé et les articles L. 122-5 et L. 122-5-3 du Code de la propriété intellectuelle[2] prévoient des exceptions. Ces articles permettent, sous certaines conditions, la fouille qui a été définie comme « la mise en œuvre d’une technique automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations », et ce dans les deux situations suivantes :
- Lorsque les fouilles sont réalisées par certains organismes de recherche et institutions culturelles. Cette exception est encadrée car :
- Elle est réservée à un nombre limité d’acteurs cités,
- L’accès à la création doit avoir été licite,
- La finalité est la recherche scientifique, ce qui exclut notamment toute fin commerciale,
- Cette exception ne s’applique pas dans le cadre d’un partenariat à but lucratif entre acteurs publics et privés
- Les fouilles sont autorisées, quelle que soit la finalité, y compris à des fins commerciales, si l’accès au contenu est fait de manière licite. Ce régime d’exception est moins permissif puisque le titulaire du droit d’auteur ou le producteur de base de données dispose d’un droit d’opposition, appelé « opt-out », et peut ainsi refuser que ses contenus protégés fassent l’objet d’une fouille et soient utilisés à des fins d’apprentissage.
Il faut être vigilant puisque l’exception du TDM ne permet que la copie et la reproduction, et non pas la représentation des œuvres, il semble que le droit de diffuser les ressources soit exclu.
Quels modes de déploiement d’une IA sont possibles ?
PE : Nous avons une grande variété de solutions pour déployer des systèmes d’IA. La décision se fait en fonction des choix de l’équipe de recherche qui ont été faits avant d’avoir approché la SATT Ouest Valorisation, du budget à notre disposition, des besoins du marché et de la manière dont nous envisageons le transfert technologique.
On peut citer le déploiement en Cloud, en SaaS, en Edge computing, On-Premise voire même les environnements conteneurisés. Toutes ces manières de distribuer le SIA ont des incidences sur le choix des licences à appliquer au SIA, même en Open Source. Lorsqu’une équipe souhaite diffuser son SIA en open source, il faudra alors s’assurer de répondre aux principes de l’IA à code ouvert.
AGC : Si le RIA ne donne pas de définition d’un SIA Open Source mais cible certaines catégories de « licences libre et ouvertes »[3], l’Open Source Initiative (OSI), une organisation majeure dans le domaine du code source ouvert, a justement récemment publié la version 1.0 de sa définition d’une IA à code ouvert, « Open Source ».
Un SIA est à code ouvert lorsqu’un utilisateur peut utiliser, étudier, modifier et partager librement le code ainsi que les éléments discrets du SIA (les paramètres du modèle). Une condition préalable est donc que l’utilisateur ait accès à une « forme privilégiée » qui doit inclure :
- Des informations suffisamment détaillées doivent être fournies sur les données pour qu’une personne compétente puisse reproduire le processus d’entraînement et construire un système substantiellement équivalent. L’OSI précise les exigences sur les informations à fournir et notamment que toutes les données d’entraînement devraient être partagées et divulguées;
- Le code source complet utilisé pour former et faire fonctionner le système ;
- Les paramètres du modèle (poids ou autres paramètres de configuration) doivent être mis à disposition dans des conditions approuvées par l’OSI.
La définition précise que les conditions pour qualifier une IA Open Source s’appliquent également aux composants du SIA, à savoir :
- le modèle composé de l’architecture, des paramètres et du code d’inférence;
- et les poids qui sont définis comme les paramètres appris qui s’intègrent à l’architecture du modèle afin de produire une sortie à partir d’une entrée donnée.
Pour mieux comprendre l’étendue des termes « système d’IA » et « apprentissage automatique », la définition de l’IA Open Source précise ces termes en s’appuyant sur le document d’orientation de l’OCDE sur l’IA.
Si cette version 1.0 de la définition est appelée à faire autorité à court terme, l’OSI reconnaît qu’elle devra être enrichie et poursuit donc son travail afin de traiter des questions restées en suspens.
Sources :
[1] Directive 2019/790.UE du Parlement européen et du Conseil du 17 avril 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique et modifiant les directives 96/9/CE et 2001/29/CE
[2] Ces articles ont été adoptés suite la Directive 2019/790.UE.
[3] Considérant 102 du RIA, 13 mars 2024, Parlement Européen, https://www.europarl.europa.eu/RegData/seance_pleniere/textes_adoptes/definitif/2024/03- 13/0138/P9_TA(2024)0138_FR.pdf