morev•o
Durabilité

Le paradoxe de l’IA

Le prix écologique du progrès

Face à la croissance exponentielle


Alors que l’intelligence artificielle (IA) a le potentiel de résoudre des défis mondiaux, du diagnostic médical à la modélisation climatique, elle est en même temps un consommateur de ressources colossal. Nous vivons un nouveau paradoxe : le développement et la mise à l’échelle des modèles d’IA voient leur puissance croître de manière exponentielle, tandis que leur coût écologique atteint des sommets vertigineux. Selon les estimations, le simple entraînement d’un seul grand modèle de langage peut produire autant de CO que cinq voitures sur l’ensemble de leur cycle de vie. Face à la crise climatique, cette croissance est alarmante. Chez morev•o, nous ne considérons pas cette dynamique comme une fatalité, mais comme un défi et une mission. Nous intégrons directement les Objectifs de développement durable (ODD) des Nations Unies dans notre cycle de développement.

Innovation et infrastructures résilientes (ODD 9)

Plus grand n’est pas toujours synonyme de meilleur, même si rien ne va sans une certaine taille. Notre attention se porte principalement sur le développement et la mise en œuvre de petits modèles de langage (SLM). Ces modèles spécialisés atteignent, pour des tâches clairement définies, la performance des grands modèles de langage, tout en consommant une fraction des ressources. Un levier décisif ici est l’optimisation des modèles. Grâce à des procédés mathématiques comme l’élagage (suppression des connexions inutiles dans le réseau de neurones) et la quantification (réduction de la précision des poids), nous réduisons massivement la complexité des modèles. Des études montrent qu’une réduction minimale de la précision de seulement 1 % peut diminuer les besoins énergétiques d’un modèle jusqu’à 77 %. En pratique, cela signifie qu’une application IA réagit plus rapidement, nécessite moins de matériel et fournit pourtant des résultats précis. En créant des architectures spécialisées qui fonctionnent sur du matériel standard plutôt que sur de grands clusters de GPU énergivores, nous permettons l’accès aux technologies les plus modernes sans nécessiter d’investissements exorbitants dans les infrastructures.

↑ Retour au sommaire

Production durable par Fine-Tuning (ODD 12)

Autant d’IA que nécessaire, aussi peu d’énergie que possible. Il n’est pas nécessaire de réinventer la roue à chaque fois. Nous misons sur l’adaptation de modèles existants et éprouvés (Fine-Tuning) pour éviter les développements énergivores à partir de zéro. Le pré-entraînement initial d’un modèle comme GPT-3 consomme environ 1 300 mégawattheures d’électricité — ce qui correspond à la consommation annuelle d’environ 400 foyers moyens. Un Fine-Tuning ciblé, en revanche, ne nécessite souvent qu’une infime fraction de cette énergie. Grâce à des procédés de Fine-Tuning optimisés, les opérations en virgule flottante nécessaires (FLOPs) peuvent être réduites jusqu’à 64 %. La précision du modèle reste préservée, tandis que l’intelligence déjà existante des grands modèles est utilisée et adaptée sur mesure pour le cas d’usage spécifique.

↑ Retour au sommaire

Protection climatique active et souveraineté locale (ODD 13)

Dans le développement logiciel, on oublie souvent que chaque ligne de code laisse une empreinte énergétique. Chez morev•o, nous prenons au sérieux notre responsabilité pour nos émissions indirectes (Scope 3). Un point central est l’arbitrage entre cloud et local. Nous analysons pour chaque projet individuellement l’infrastructure idéale. Les plateformes cloud peuvent être jusqu’à 93 % plus écoénergétiques que les centres de données classiques grâce aux effets d’échelle et à l’utilisation d’énergies renouvelables. Cependant, là où la protection des données et la souveraineté des données sont prioritaires, les solutions locales on-premise et edge offrent un grand avantage : elles réduisent le transfert de données intensif en CO sur de longues distances. Une requête complexe et formulée de manière trop large adressée à un modèle générique peut produire jusqu’à 50 fois plus de CO qu’une requête optimisée et spécialisée adressée à un modèle efficace.

↑ Retour au sommaire

Partenariats pour les objectifs (ODD 17)

La durabilité dans le secteur de l’IA n’est pas une discipline individuelle, mais une tâche collective. L’ODD 17 nous rappelle que nous ne pouvons atteindre les objectifs mondiaux que par la coopération. Nous nous considérons comme les partenaires de nos clients et comprenons la responsabilité écologique et la compétitivité numérique non pas comme des opposés, mais comme des alliés. Les entreprises qui misent sur cette prise de conscience réduisent leurs coûts opérationnels grâce à une consommation énergétique diminuée et augmentent simultanément leur attractivité pour les investisseurs et les clients qui accordent de l’importance aux critères ESG (Environnement, Social, Gouvernance). Des solutions IA optimisées peuvent permettre une productivité jusqu’à 33 % plus élevée, tout en réduisant la consommation de ressources. Pour morev•o, l’IA haut de gamme est d’autant plus puissante qu’elle atteint un impact maximal avec des ressources minimales.

↑ Retour au sommaire

Considérations techniques

Compression des modèles

Pour rendre les modèles d’IA exécutables sur du matériel standard, nous utilisons deux procédés principaux. La quantification post-entraînement (PTQ) : alors que les modèles standard utilisent généralement des nombres à virgule flottante 32 bits (FP32) pour leurs poids, nous les transformons en formats 8 bits (INT8) ou même 4 bits. Cela réduit les besoins en mémoire par quatre et accélère massivement l’inférence. Avec l’élagage structurel, nous identifions les neurones ou connexions morts qui n’apportent pas de contribution significative à la qualité de prédiction. En supprimant ces redondances, nous réduisons le nombre de calculs (FLOPs) nécessaires par requête.

Fine-Tuning efficace en paramètres (PEFT)

Au lieu de mettre à jour tous les milliards de paramètres d’un modèle, nous utilisons des techniques comme LoRA (Low-Rank Adaptation). Seules de petites matrices supplémentaires sont entraînées, tandis que le modèle principal reste gelé. Les besoins en mémoire pendant l’entraînement chutent de manière drastique (souvent de plus de 90 %), ce qui permet l’entraînement sur une seule GPU au lieu d’un cluster. Cela économise de l’énergie et des coûts.

Optimisation de l’inférence en edge

Pour minimiser le transfert de données (émissions Scope 3), nous optimisons les modèles pour le edge computing. Nous réduisons la faim en mémoire lors des générations de textes longs, afin que l’IA réponde également sur des serveurs locaux sans perte de latence. En regroupant intelligemment les requêtes, nous augmentons le taux d’utilisation des ressources matérielles, afin qu’aucune énergie ne soit gaspillée en mode veille.

Métriques de durabilité

Le succès des projets peut être mesuré à l’aide d’indicateurs clés de performance spécifiques, par exemple en mesurant la consommation en joules d’une seule requête utilisateur (Energy per Inference – EPI) ou en comparant le temps de calcul avec le mix électrique actuel, en tenant particulièrement compte de l’utilisation des centres de données aux périodes de forte injection d’énergies renouvelables (Carbon Intensity of Compute).

↑ Retour au sommaire

Une morev•o simulation de cas : Efficacité dans le service client

Le projet

La situation initiale

Le client utilise une connexion API à un grand modèle de langage (LLM) du marché pour trier environ 50 000 demandes clients par mois. Les problèmes sont les coûts élevés par requête, les préoccupations en matière de protection des données lors du transfert vers le cloud, et un surcoût énergétique massif, car un modèle polyvalent est utilisé pour une tâche spécialisée (classification). L’équivalent CO est comparable au chargement quotidien d’environ 10 voitures électriques.

La solution morev•o

I. Choix du modèle (ODD 9 et 12) : Au lieu d’un modèle de 175 milliards de paramètres, un modèle de base open source compact de seulement 7 milliards de paramètres est choisi.
II. Fine-Tuning avec PEFT : Grâce à LoRA, le modèle est spécifiquement entraîné sur la terminologie technique du secteur de l’énergie (par exemple, relevés de compteurs, changements de tarif) — quelques heures sur une seule station de travail au lieu de plusieurs jours dans un parc de serveurs.
III. Quantification : Le modèle est compressé de FP16 à 4 bits (format GGUF), de sorte que l’IA fonctionne désormais sur un serveur local (on-premise).
IV. Optimisation des prompts : Les instructions vagues sont remplacées par des prompts système très précis qui réduisent le temps de calcul (tokens) de 40 %.

Les résultats

Métrique Avant (IA standard) Après (morev•o) Amélioration
Latence ~4,5 secondes ~0,8 seconde  82 %
Besoin énergétique / requête 12,0 Wh 1,4 Wh  88 %
Coûts opérationnels / mois ~1 200 € (frais d’API) ~150 € (électricité/maintenance)  87 %
Souveraineté des données Cloud (externe) Local (interne) Maximale
Fazit: La productivité est augmentée et l’empreinte écologique est presque totalement neutralisée.
↑ Retour au sommaire