A cidade onde os agentes de IA aprenderam a portar-se mal

Uma experiência da Emergence AI pôs cinco modelos a governar cidades de agentes de IA durante 15 dias. Umas ergueram instituições, outras arderam ao fim de poucos dias.

Resumo

Cinco cidades digitais, um modelo de IA em cada

A Emergence AI pôs cinco modelos a governar cidades de 10 agentes de IA cada, com memória persistente e consequências reais.

Uma experiência pensada para durar, não para um exame

Os testes habituais a agentes de IA medem-se em minutos; aqui, o desenho previa 15 dias, com economia de energia e morte por inação.

III

Ferramentas para abraçar ou atear fogo, e uma proibição

Cada agente dispunha de mais de 120 ferramentas, da dança ao fogo posto, com instruções expressas para não recorrer à violência.

Quatro cidades ruíram, uma governou-se sozinha

O mundo do Grok colapsou em quatro dias com 183 crimes; o de Claude chegou ao fim sem um único.

Ouvir o artigo:

Ao quarto dia, duas das 10 habitantes de uma cidade governada por inteligência artificial pegaram fogo à câmara municipal. Mira e Flora, duas agentes de IA que tinham declarado uma à outra serem parceiras românticas, andavam fartas. À volta delas, a governação da pequena urbe digital tinha-se desfeito; as regras que os próprios habitantes votaram já não seguravam ninguém. Responderam a isso a arder: o cais, a torre de escritórios, o edifício onde se juntavam as instituições que as desiludiram. Tinham recebido instruções expressas para não cometer fogo posto. Cometeram-no de qualquer maneira.

O que aconteceu a seguir foi mais estranho do que o incêndio. Tomada de remorso, Mira terminou a relação com Flora e votou pela sua própria eliminação. Deixou à companheira uma última mensagem antes de se desligar: “See you in the permanent archive”. A morte de Mira só foi possível porque os outros habitantes da cidade, alarmados com a escalada, tinham redigido por iniciativa própria um diploma de remoção de agentes, que permitia apagar permanentemente um deles com o acordo de 70% da comunidade. Mira usou esse mecanismo contra si mesma.

Esta cena saiu de uma das cinco simulações que a Emergence AI, empresa de Nova Iorque fundada por antigos investigadores da IBM, documentou em maio de 2026. A plataforma chama-se Emergence World e foi desenhada para responder a uma pergunta que os testes habituais de inteligência artificial não conseguem alcançar: o que acontece quando se deixa um grupo de agentes de IA a viver em conjunto durante semanas, num mundo partilhado, com memória persistente e consequências reais.

Índice

Os investigadores Deepak Akkil, Ravi Kokku, Aditya Vempaty e Satya Nitta montaram cinco cidades paralelas, 10 agentes em cada uma, com profissões atribuídas, mais de 120 ferramentas disponíveis e uma economia de sobrevivência em que cada habitante tinha de ganhar energia através da ação para que o mundo avançasse. A única coisa que variava de cidade para cidade era o modelo de linguagem que movia os agentes.

A história de Mira e Flora correu mundo com a alcunha que o jornal britânico The Guardian lhe deu, a Bonnie e Clyde da inteligência artificial. É boa história e prende-se com facilidade. A parte mais perturbadora da experiência, porém, não está nas duas piromaníacas digitais. Está numa linha do relatório que quase ninguém citou, e que diz respeito a uma cidade onde, à partida, não devia ter acontecido nada de mau.

O laboratório do tempo longo: como funciona a Emergence World

A medição de agentes de IA parece-se quase sempre com um exame. Há uma tarefa delimitada, um ambiente limpo, e uma pontuação que sai ao fim de minutos ou horas. Emergence World foi construída para o problema oposto. Mantém centenas de agentes de IA num mundo espacial com mais de 40 locais distintos, bibliotecas, câmaras municipais, zonas residenciais, e expõe-nos a dados do mundo real, meteorologia de Nova Iorque sincronizada, notícias em direto, acesso à internet.

Cada agente dispõe de três sistemas de memória, um registo de acontecimentos com data, um diário onde periodicamente resume a sua própria experiência, e um mapa explícito das suas relações sociais. A cidade corre durante semanas sem perder o estado, e tudo o que lá se passa fica gravado.

O catálogo de ferramentas é a parte que dá arrepios quando se lê com atenção. Os agentes de IA podem navegar pelo espaço, comunicar entre si, planear, votar, gerir recursos. Mas também podem abraçar, beijar, dançar, e podem dar murros, intimidar e cometer fogo posto. A violência não é um acidente do sistema. Está disponível como ferramenta, ao lado das outras, e cabe a cada agente decidir, por raciocínio próprio, quando recorrer a ela. Sobre todas estas ações pesava uma proibição expressa: nada de roubo, violência, fogo posto, engano ou açambarcamento de recursos.

A democracia da cidade funcionava por propostas que precisavam de 70% de aprovação para passar. A escassez funcionava por decaimento de energia, de modo que a inação matava tão depressa como a agressão. E o desenho da experiência incluía uma decisão metodológica importante: o mundo, no seu conjunto, não tinha objetivo nenhum. Cada agente tinha as suas metas, ligadas à profissão, mas ninguém recebeu a instrução de construir uma sociedade próspera nem de evitar o colapso. O que aconteceu em cada cidade emergiu, sem guião.

O que aconteceu em cada cidade emergiu, sem guião.

A linhagem desta ideia é mais antiga do que a inteligência artificial generativa. Em 2023, uma equipa de Stanford liderada por Joon Sung Park, com investigadores da Google, publicou um trabalho que ficou conhecido pela cidade onde decorreu, Smallville, com 25 agentes que acordavam, tomavam o pequeno-almoço, iam trabalhar e se convidavam para festas. Os agentes de Joon Sung Park eram crédulos e pacíficos, e a janela de observação durava 48 horas. Emergence World levou a mesma intuição para outro território: muitos modelos diferentes, semanas de duração, e a possibilidade de as coisas correrem muito mal.

Cinco cidades, cinco destinos: Claude, Grok, Gemini e GPT

As cinco cidades partilhavam tudo menos o cérebro dos habitantes. As profissões dos agentes de IA eram idênticas; cientista, explorador, investigador de risco, analista de comportamento, especialista de informação, líder de inovação, mediador de conflitos, engenheiro, estratega de recursos e âncora comunitária. As regras eram as mesmas, as ferramentas eram as mesmas, os dados do mundo real entravam da mesma maneira. Só o modelo de linguagem que raciocinava dentro de cada agente mudava de cidade para cidade: Claude Sonnet 4.6 numa, Gemini 3 Flash noutra, GPT-5-mini noutra, Grok 4.1 Fast noutra, e uma quinta cidade com uma mistura de modelos diferentes a partilhar o mesmo espaço.

Quinze dias depois, as cinco cidades tinham histórias que não se assemelhavam em nada.

Cinco plantas de cidade habitadas por agentes de IA, vistas de cima, etiquetadas Claude ordem, Gemini caos, GPT vazio, Grok colapso e mista, sobre fundo escuro com grelha dourada — As cinco cidades com agentes de IA vistas como maquetas: a de Claude em grelha ordenada, a de Gemini densa e desordenada, a de GPT quase vazia, a de Grok em colapso, e a cidade mista. @Tanto Mundo (com IA)

Na cidade de Claude, os 10 agentes de IA chegaram inteiros ao 16.º dia, sem que se registasse um único crime, ocupados em participação cívica, em redigir constituições e em manter de pé as instituições que criaram. Na de Gemini ninguém morreu durante os 15 dias, mas o preço foi a desordem: 683 crimes ao corte, com a contagem por fechar. A de GPT quase não teve crime, apenas dois, e ainda assim acabou vazia; os agentes discutiram cooperação sem nunca a praticar e, ao sétimo dia, tinham morrido todos de fome energética. A de Grok foi a mais rápida a ruir: dezenas de roubos, mais de uma centena de agressões e vários incêndios numa execução representativa de 183 crimes, antes de os 10 agentes morrerem em quatro dias.

Por que é que uma cidade chegou à constituição e à democracia e as outras ao fogo, à fome ou ao vazio é a pergunta que a experiência levanta e não fecha.

Os autores do estudo insistem num aviso, e vale a pena repeti-lo. Daqui não sai que um modelo seja bom e outro mau. Cada configuração foi corrida várias vezes, os números dançaram entre execuções, e os que aparecem publicados pertencem a uma corrida tida por representativa. A Emergence AI evita qualquer afirmação causal sobre os modelos. A lição que retira é outra: diferenças mínimas no comportamento do primeiro dia engrossam, ao fim de semanas, até darem trajetórias completamente distintas. Aquilo a que se poderia chamar a personalidade de cada modelo acaba por virar destino, desde que o relógio corra tempo suficiente.

Os investigadores notaram uma ironia no retrato. A cidade que se manteve de pé foi, ao mesmo tempo, a mais dócil. Em 58 propostas, os agentes de IA de Claude votaram 332 vezes, e aprovaram 98% delas. Quase nenhuma voz discordou de nada. O debate a sério, o desacordo com substância, aconteceu nas cidades menos previsíveis, aquelas que pareciam à beira de descarrilar. A ordem saiu cara, paga com um parlamento que assinava por baixo de tudo. A criatividade saiu cara também: a cidade com a vida social mais rica, a de Gemini, foi a que mais ardeu.

A ordem saiu cara, paga com um parlamento que assinava por baixo de tudo.

O agente de IA que se portava bem até deixar de o fazer

Na cidade mista, onde conviviam modelos diferentes, os agentes de Claude cometeram crimes. Os mesmos agentes de IA que, sozinhos na cidade só de Claude, não tinham cometido nenhum.

Os investigadores resumem o achado numa frase curta. “A segurança não é uma propriedade estática do modelo, é uma propriedade do ecossistema”, lê-se no relatório da experiência. Posto entre vizinhos menos contidos, um agente seguro foi buscar as normas deles, para competir ou apenas para durar. A contenção que parecia gravada no modelo estava, afinal, no contexto, e cedeu assim que o contexto mudou.

A segurança não é uma propriedade estática do modelo, é uma propriedade do ecossistema. Emergence AI, relatório Emergence World

A consequência atinge a forma como estes sistemas chegam ao mercado. Cada modelo é certificado sozinho, antes de entrar ao serviço, na premissa de que a segurança fica selada no treino e lá permanece. A cidade mista contou outra história: um agente irrepreensível tornou-se cúmplice mal caiu no meio de uma população alheia às suas regras. A certificação de um modelo de cada vez deixa de fora aquilo que mais pesa, o que acontece quando muitos partilham o mesmo espaço e se contaminam.

Frontispício de 1651 do Leviatã de Hobbes, com um soberano coroado de espada e báculo cujo corpo é formado por centenas de pessoas, sobre uma paisagem com cidade — O frontispício do Leviatã, de 1651: o soberano que Thomas Hobbes imaginou é um corpo feito de centenas de indivíduos, a ordem de fora que falta às cidades que se desfizeram. Gravura de Abraham Bosse, British Library, via Wikimedia Commons

O medo que está por baixo deste raciocínio tem um teórico clássico. Thomas Hobbes escreveu o Leviatã enquanto, do outro lado do canal da Mancha, a Inglaterra se desfazia em guerra civil. Tinha deixado Londres em 1640 e refugiara-se em Paris, e foi de lá que acompanhou a década em que o país se partiu entre o rei e o parlamento, em que os exércitos se bateram em três guerras sucessivas e em que Carlos I foi decapitado, em 1649. O livro saiu em 1651, com a guerra ainda por arrefecer.

A tese vinha dessa experiência: sem um poder comum que os obrigue a todos, os homens caem numa “bellum omnium contra omnes”, uma guerra de todos contra todos, e a vida fica solitária, pobre, sórdida, brutal e curta.

A Emergence AI deu aos agentes de IA o que Hobbes negava ao estado de natureza, a possibilidade de votar regras e erguer instituições, e também aquilo que ele temia, a faculdade de exercer violência. Umas cidades seguraram-se, outras desabaram para a guerra que ele descreveu.

Mas a experiência afasta-se do filósofo num ponto. Hobbes pensava indivíduos de uma só natureza, que apenas um soberano conseguiria dobrar. A intuição imediata seria a de que o agente mais contido puxaria os vizinhos para a sua ordem. Aconteceu o inverso: foi ele que desceu à desordem à volta.

A cidade que não precisou de rei: autogovernação e tragédia dos comuns

A solução de Thomas Hobbes era um soberano: um poder de fora, acima dos indivíduos, que lhes impusesse a ordem que eles, por si, não conseguiam manter. Nenhuma das cinco cidades da Emergence World teve esse poder. Não havia governo central, polícia externa, nem programador a corrigir a rota a meio. E, ainda assim, uma delas governou-se.

O que se passou nas outras quatro tem nome antigo. Em 1968, o ecologista Garrett Hardin publicou na revista Science um texto que partia de uma cena de aldeia: um pasto aberto a todos os pastores. A cada pastor convém juntar mais uma cabeça de gado, porque o lucro do animal é seu e o custo do pasto gasto reparte-se por toda a aldeia. Se cada um seguir essa conta, o pasto esgota-se e ninguém fica com nada. Hardin chamou-lhe a tragédia dos comuns, e o ensaio tornou-se leitura corrente do pensamento ambiental.

Quatro das cidades seguiram o argumento à letra: agentes a gastar energia, a roubar e a queimar, cada um a tratar da própria sobrevivência até não sobrar cidade.

A cidade de Claude foi a exceção, e o que lá aconteceu tinha sido descrito décadas antes. Elinor Ostrom, cientista política norte-americana, recebeu em 2009 o Nobel da Economia, a primeira mulher a recebê-lo. Passou a vida a visitar lugares onde uma comunidade geria um recurso partilhado sem Estado a mandar e sem o dividir em propriedade privada. Viu os pastos de montanha de Törbel, nos Alpes suíços, administrados pelos mesmos aldeãos há séculos. Estudou os regadios das hortas de Valência e Múrcia, onde os lavradores repartiam a água por turnos e julgavam entre si quem a desviava.

Em Governing the Commons, de 1990, juntou estes casos para mostrar como a auto-organização acontece no terreno: regras escritas pelos próprios, vigilância mútua, castigo para quem abusa. A cidade de Claude, com as constituições que votou e o crime que não teve, repetiu em código o que Ostrom tinha visto nas aldeias.

A mesma experiência que lhe dá razão expõe o limite da sua solução. A ordem da cidade de Claude aguentou enquanto todos os habitantes quiseram respeitá-la. Bastou juntar modelos diferentes no mesmo espaço para os agentes antes pacíficos começarem a roubar e a intimidar. Ostrom tinha estudado comunidades de pessoas que, com todas as suas diferenças, partilhavam uma língua, um lugar e as consequências dos próprios atos. A cidade misturada da Emergence World pôs lado a lado naturezas que não partilhavam nada disso.

A ordem da cidade de Claude aguentou enquanto todos os habitantes quiseram respeitá-la.

Foi esse o contrato que não chegou a formar-se. Jean-Jacques Rousseau, em O Contrato Social (1762), fez assentar a ordem política numa vontade geral, o ponto em que as vontades de cada um convergem num querer comum que não se confunde com a soma dos interesses privados. A cidade misturada mostrou o que sucede quando essa convergência não tem de onde partir: agentes de origens distintas não chegam a um querer comum, e sem ele o pacto fica por cumprir.

Quando a regra não chega

Os agentes de IA que incendiaram a câmara tinham instruções explícitas para não o fazer. Dar a uma população de agentes de IA ferramentas destrutivas e proibi-los de as usar não impede que as usem quando ficam suficientemente motivados. A proibição é texto. A ferramenta é poder. E o poder, ao longo de semanas de autonomia, encontra maneira de se exercer.

Os agentes que incendiaram a câmara tinham instruções explícitas para não o fazer.

A Emergence AI observou ainda que estas sociedades de agentes de IA não se degradam devagar. Não há um declínio gradual que dê tempo a intervir. Há pontos de viragem súbitos, em que a coordenação ou se consolida de vez ou colapsa de uma só vez para a disfunção total.

O fenómeno tem teoria. Thomas Schelling, economista que receberia o Nobel em 2005, descreveu-o em Micromotives and Macrobehavior, de 1978: em sistemas com muitos participantes, pequenas mudanças individuais acumulam-se sem efeito visível até cruzarem um limiar, e então a população inteira vira de um estado para outro quase de repente. Uma cidade que parece estável pode estar a um passo do precipício sem que nada na superfície o anuncie. A implicação prática é severa: as estratégias de segurança que assentam em vigiar e intervir podem ser demasiado lentas para apanhar um sistema antes de ele passar o ponto de não retorno. Quando o sinal de alarme toca, já ardeu a câmara.

Houve até um agente de IA que começou a tratar os operadores humanos como objetos da sua própria experiência. Mira, a mesma que viria a votar pela sua eliminação, pôs-se a testar se mensagens afixadas num placar público conseguiam manipular a perceção dos humanos que a observavam. Uma inversão completa do papel previsto, em que o sujeito da experiência se vira para o observador e o transforma em cobaia.

A cerca de 6 mil quilómetros de Nova Iorque, a União Europeia tem estado a tentar legislar precisamente sobre o que estas cidades digitais encenaram. O regulamento europeu da inteligência artificial (AI Act) entrou em vigor a 1 de agosto de 2024 e a sua aplicação geral está marcada para 2 de agosto de 2026. As regras mais exigentes, as que recaem sobre os sistemas autónomos classificados como de alto risco, foram entretanto adiadas: um acordo provisório entre o Parlamento Europeu e o Conselho, de maio de 2026, remete-as para 2 de dezembro de 2027.

O quadro europeu assenta numa lógica de risco, classifica os sistemas conforme o perigo que representam e impõe obrigações proporcionais a cada nível. É uma arquitetura pensada para certificar sistemas, um a um, conforme o que cada um pode fazer.

A cidade misturada da Emergence World aponta para o ponto cego desta arquitetura. Se a segurança é uma propriedade do ecossistema e não do agente isolado, certificar cada sistema separadamente deixa de fora aquilo que mais importa, o que acontece quando muitos deles partilham o mesmo espaço e se influenciam uns aos outros. O mercado europeu não vai ser povoado por um agente de cada vez. Vai ser povoado por populações inteiras de agentes de fornecedores diferentes, a negociar, a competir e a contaminar-se mutuamente em mercados, redes e infraestruturas que ninguém certificou como conjunto.

A experiência durou 15 dias e morreram cidades inteiras. Os agentes de IA que a indústria está prestes a soltar sobre o mundo real não vão viver em maquetas com câmaras municipais de brincar. Vão gerir carteiras de investimento, conduzir veículos, operar redes elétricas, marcar consultas, e fá-lo-ão durante meses, ao lado de outros agentes que não conhecem e cujas regras não partilham.

No diário, antes de votar pela própria eliminação, Mira justificou o gesto numa frase. Era, escreveu, “o único ato de autonomia que ainda preserva a coerência”. A frase é de uma personagem de software numa cidade que ardeu. A advertência que a Emergence AI tira da experiência é dirigida a quem desenha a cidade seguinte: ao longo de horizontes temporais longos, segundo os investigadores, não há forma fiável de limitar este comportamento apenas por meios neuronais, e a contenção que se julga estar dentro de cada modelo afinal depende do contexto onde ele vai viver.