A XPeng está a transformar a forma como os sistemas de condução autónoma são treinados e validados com o lançamento do X-World, um modelo de mundo gerativo que simula cenários de condução diretamente em espaço de vídeo. Ao contrário dos simuladores tradicionais baseados em motores de jogo ou em simples reproduções de logs, o X-World funciona como um simulador do mundo real capaz de gerar observações futuras fotorealistas e consistentes, permitindo que as frotas de veículos autónomos “aprendam” em ambientes digitais que espelham com precisão a complexidade das estradas. Este sistema é uma peça central na estratégia da marca para acelerar a transição entre a assistência de Nível 2 e a autonomia total de Nível 4, servindo de base para o desenvolvimento das novas políticas de inteligência artificial VLA 2.0 (Vision-Language-Action).
O funcionamento do X-World assenta numa arquitetura de difusão de vídeo multi-câmara que processa um curto histórico de imagens sincronizadas, cruzando-o com uma sequência de ações futuras pretendidas para o veículo. A magia tecnológica acontece através de um gerador latente de vídeo que utiliza um auto-codificador variacional (VAE) 3D causal de alta compressão, garantindo que o sistema consiga prever o que as sete câmaras do carro irão ver em 360 graus à medida que este se desloca. Um dos pilares desta inovação é o mecanismo de auto-atenção “view-temporal”, que assegura que um objeto identificado numa câmara lateral mantenha a sua identidade e posição geométrica correta ao passar para o campo de visão das câmaras frontais ou traseiras, eliminando as distorções comuns em modelos gerativos anteriores.
A grande vantagem competitiva do X-World reside na sua alta controlabilidade e capacidade de edição de cenários. O sistema permite injetar condições específicas, como o comportamento de outros agentes de tráfego, a topologia das faixas de rodagem e até instruções através de texto para alterar o ambiente global, como mudar o clima de ensolarado para chuvoso ou transformar uma cena diurna em noturna. Esta flexibilidade permite criar situações de “stress-test” ou eventos raros (corner cases) — como um ciclista que surge subitamente de trás de um obstáculo — que seriam demasiado perigosos ou dispendiosos de captar em testes reais de estrada.
Para além da segurança, o X-World atua como uma fábrica de dados em larga escala que apoia a expansão global da XPeng. Através de uma funcionalidade designada por “transferência de estilo zero-shot”, o modelo consegue pegar em dados de condução recolhidos na China e adaptá-los visualmente para contextos internacionais, alterando sinais de trânsito ou marcas rodoviárias para padrões europeus sem necessidade de recolha intensiva de novos dados locais. No encerramento do processo, o X-World permite o treino por aprendizagem de reforço online, onde o sistema de condução autónoma interage com o simulador, recebe feedback visual imediato das suas decisões e aprende a recuperar de estados de quase acidente num ambiente digital seguro, repetível e altamente fiel à realidade física.
Fonte Principal: X-World: Controllable Ego-Centric Multi-Camera World Models for Scalable End-to-End Driving – GWM Team, XPeng Inc. (2026).