O paradoxo da IA
O preço ecológico do progresso
Face ao crescimento exponencial
Embora a Inteligência Artificial (IA) tenha o potencial de resolver desafios globais, desde o diagnóstico médico até à modelação climática, é também um devorador de recursos gigante. Estamos a viver um novo paradoxo: o desenvolvimento e a escalabilidade dos modelos de IA. O desempenho cresce exponencialmente e o preço ecológico sobe para níveis imensuráveis. Estima-se que apenas o treino de um único grande modelo de linguagem possa causar tanto CO₂ quanto cinco carros ao longo de todo o seu ciclo de vida. Face à crise climática, este crescimento é assustador. Na morev•o, encaramos esta dinâmica não como um destino, mas como um desafio e uma tarefa. Integramos os Objetivos de Desenvolvimento Sustentável (ODS) das Nações Unidas diretamente no nosso ciclo de desenvolvimento.
Inovação e infraestrutura resiliente (ODS 9)
Maior não é sempre melhor, embora sem tamanho nada funcione. O nosso foco está especialmente no desenvolvimento e implementação de Small Language Models (SLMs). Estes modelos especializados alcançam o desempenho de grandes modelos de linguagem em tarefas claramente definidas, mas consomem apenas uma fração dos recursos. Uma alavanca decisiva aqui é a otimização do modelo. Através de métodos matemáticos como poda (a remoção de conexões desnecessárias na rede neuronal) e quantização (a redução da precisão dos pesos), reduzimos massivamente a complexidade do modelo. Estudos mostram que uma redução mínima da precisão em apenas um por cento pode reduzir o consumo de energia de um modelo em até 77%. Na prática, isso significa que uma aplicação de IA responde mais rápido, requer menos hardware e, ainda assim, fornece resultados precisos. Ao criarmos arquiteturas especializadas que funcionam em hardware padrão em vez de grandes clusters de GPU com fome de energia, permitimos o acesso à tecnologia mais moderna sem a necessidade de investir numa infraestrutura exorbitante.
↑ Voltar ao índiceProdução sustentável através de Fine-Tuning (ODS 12)
Tanta IA quanto necessária, tão pouca energia quanto possível. Não é necessário reinventar a roda todas as vezes. Apostamos na adaptação de modelos existentes e comprovados (Fine-Tuning) para evitar desenvolvimentos energéticamente intensivos do zero. O pré-treino inicial de um modelo como o GPT-3 consome cerca de 1.300 megawatt-hora de eletricidade — o equivalente ao consumo anual de cerca de 400 agregados familiares médios. Um Fine-Tuning direcionado, por outro lado, muitas vezes requer apenas uma fração minúscula desta energia. Através de métodos de Fine-Tuning otimizados, as operações de ponto flutuante necessárias (FLOPs) podem ser reduzidas em até 64%. A precisão do modelo permanece garantida, a inteligência já existente de grandes modelos é utilizada e adaptada sob medida para o caso de uso específico.
↑ Voltar ao índiceProteção climática ativa e soberania local (ODS 13)
No desenvolvimento de software, muitas vezes esquece-se que cada linha de código deixa uma pegada energética. Na morev•o, levamos a sério a nossa responsabilidade pelas nossas emissões indiretas (Âmbito 3). Um ponto central é a ponderação entre cloud e localidade. Analisamos individualmente para cada projeto a infraestrutura ideal. As plataformas de cloud podem ser até 93% mais eficientes em termos de energia do que os centros de dados clássicos, graças a economias de escala e ao uso de energias renováveis. No entanto, onde a proteção de dados e a soberania de dados são prioritárias, as soluções on-premise e edge oferecem uma grande vantagem: reduzem a transferência de dados intensiva em CO₂ sobre longas distâncias. Uma consulta complexa e desnecessariamente ampla a um modelo genérico pode causar até 50 vezes mais CO₂ do que um prompt otimizado e especializado para um modelo eficiente.
↑ Voltar ao índiceParcerias para os objetivos (ODS 17)
A sustentabilidade no setor de IA não é uma disciplina individual, mas uma tarefa comunitária. O ODS 17 lembra-nos de que só podemos alcançar os objetivos globais através da cooperação. Vemo-nos como parceiros dos nossos clientes e encaramos a responsabilidade ecológica e a competitividade digital não como oponentes. Empresas que apostam neste entendimento reduzem os seus custos operacionais através do menor consumo de energia e, ao mesmo tempo, aumentam a sua atratividade para investidores e clientes que valorizam os critérios ESG (Ambiental, Social e Governança). Soluções de IA otimizadas podem permitir um aumento de produtividade até 33%, enquanto o consumo de recursos diminui simultaneamente. Para a morev•o, a IA de alta qualidade é mais forte quando atinge o máximo impacto com recursos mínimos.
↑ Voltar ao índiceConsiderações técnicas
Compressão de modelos
Para tornar os modelos de IA executáveis em hardware padrão, utilizamos dois métodos primários. Na Quantização Pós-Treino (PTQ), enquanto os modelos padrão geralmente usam números de ponto flutuante de 32 bits (FP32) para os seus pesos, transformamo-los em formatos de 8 bits (INT8) ou até 4 bits. Isto reduz a necessidade de armazenamento em quatro vezes e acelera massivamente a inferência. Na poda estrutural, identificamos neurónios ou conexões mortos que não contribuem significativamente para a qualidade da previsão. Ao remover estas redundâncias, reduzimos o número de cálculos necessários (FLOPs) por consulta.
Fine-Tuning Eficiente em Parâmetros (PEFT)
Em vez de atualizar todos os bilhões de parâmetros de um modelo, utilizamos técnicas como LoRA (Low-Rank Adaptation). Aqui, apenas pequenas matrizes adicionais são treinadas, enquanto o modelo principal permanece congelado. A necessidade de armazenamento durante o treino diminui drasticamente (muitas vezes mais de 90%), o que permite o treino numa única GPU em vez de num cluster. Isto poupa energia e custos.
Otimização de inferência na Edge
Para minimizar a transferência de dados (emissões de Âmbito 3), otimizamos modelos para computação na Edge. Reduzimos a fome de armazenamento em gerações longas de texto, para que a IA também responda em servidores locais sem perda de latência. Através da agregação inteligente de consultas, aumentamos a utilização dos recursos de hardware, para que não seja desperdiçada energia em tempo ocioso.
Métricas de sustentabilidade
O sucesso de projetos pode ser medido por KPIs específicos, por exemplo, medindo o consumo de joules de um único pedido de utilizador (Energy per Inference – EPI) ou comparando o tempo de computação com a mistura atual de eletricidade, com especial consideração para a utilização de centros de dados em períodos de alta injeção de energias renováveis (Carbon Intensity of Compute).
Uma morev•o simulação de caso: Eficiência no serviço ao cliente
O projeto
Classificação automática de e-mails e redação de respostas para um fornecedor de serviços energéticos.
A situação inicial
O cliente utiliza uma ligação API a um modelo de linguagem grande padrão (LLM) para classificar cerca de 50.000 pedidos de clientes por mês. Os problemas são os altos custos contínuos por consulta, preocupações com a proteção de dados na transferência para a cloud e um sobrecarga energética massiva, uma vez que um modelo "faz-tudo" está a ser utilizado para uma tarefa especializada (classificação). O equivalente em CO₂ é comparável ao carregamento diário de ~10 carros elétricos.
A solução morev•o
I. Escolha do modelo (ODS 9 e 12): Em vez de um modelo de 175 bilhões de parâmetros, é escolhido um modelo base de código aberto compacto com apenas 7 bilhões de parâmetros.
II. Fine-Tuning com PEFT: Através de LoRA, o modelo é treinado especificamente na terminologia especializada do setor energético (por exemplo, leituras de contadores, mudanças de tarifa) — poucas horas numa única estação de trabalho em vez de dias num parque de servidores.
III. Quantização: O modelo é comprimido de FP16 para 4 bits (formato GGUF), para que a IA agora funcione num servidor local (on-premise).
IV. Otimização de prompt: Instruções vagas são substituídas por prompts de sistema altamente precisos que reduzem o tempo de computação (tokens) em 40%.
Os resultados
| Métrica | Antes (IA padrão) | Depois (morev•o) | Melhoria |
|---|---|---|---|
| Latência | ~4,5 segundos | ~0,8 segundos | − 82 % |
| Consumo de energia / consulta | 12,0 Wh | 1,4 Wh | − 88 % |
| Custos operacionais / mês | ~1.200 € (taxas de API) | ~150 € (eletricidade/manutenção) | − 87 % |
| Soberania de dados | Cloud (externa) | Local (interna) | Máxima |