A revolução invisível da VLA 2.0: como a XPeng eliminou a “tradução” para criar reflexos digitais

//

w2g

A XPeng está a redefinir a inteligência artificial automóvel com a implementação da sua arquitetura VLA 2.0 (Vision-Language-Action), um modelo unificado que serve como a fundação tecnológica de próxima geração para a condução inteligente. Ao contrário das abordagens convencionais que fragmentam a perceção e o controlo em módulos separados, a VLA 2.0 integra a perceção visual, a compreensão semântica e a tomada de decisão num único modelo de ponta a ponta. A inovação central desta arquitetura reside na eliminação da camada intermédia de representação de linguagem; em vez do fluxo tradicional “Visão → Linguagem → Ação”, o sistema opera agora numa via direta de “Visão para Ação”.

Esta mudança de paradigma, designada tecnicamente como um caminho neural “Vision-Implicit Token-Action”, permite que o veículo reduza drasticamente a latência e a perda de informação durante o processamento. Ao remover a necessidade de traduzir dados visuais em descrições linguísticas antes de executar uma manobra, o sistema adquire reflexos muito mais próximos dos de um condutor humano, respondendo com maior agilidade a cenários complexos e imprevistos. Para atingir este nível de competência, o modelo foi treinado num cluster de computação massivo com 30.000 placas de IA, utilizando mais de 100 milhões de clips de vídeo que representam o equivalente a 65 mil anos de experiência de condução humana. O resultado é uma inteligência capaz de raciocínios emergentes, como reconhecer e reagir autonomamente aos gestos manuais de um agente da autoridade durante uma operação de fiscalização.

No plano estrutural, a VLA 2.0 baseia-se num sistema de geração de vídeo latente que acopla um auto-codificador variacional (VAE) 3D causal de alta compressão a um denotador baseado em transformadores de difusão (DiT). Um dos pilares desta arquitetura é o módulo de auto-atenção “view-temporal”, que processa simultaneamente informações de múltiplas câmaras e diferentes instantes temporais. Este mecanismo garante que o veículo mantenha uma consistência geométrica rigorosa e preserve a identidade dos objetos ao longo de todo o seu campo de visão de 360 graus. Para suportar este processamento pesado localmente, a XPeng utiliza o seu chip Turing AI proprietário, um processador de 40 núcleos otimizado para executar modelos de 30 mil milhões de parâmetros sem depender de conectividade externa.

Esta arquitetura foi desenhada para ser o motor da transição para a condução autónoma de Nível 4 e para a futura frota de robotaxis da marca. Além da operação em estrada, a VLA 2.0 funciona como um simulador interativo de “mundo real”, permitindo que o sistema aprenda com cenários críticos e eventos raros num ambiente virtual controlado antes de os enfrentar no tráfego real. Com a VLA 2.0, a XPeng ultrapassa o obstáculo dos sistemas baseados em regras rígidas, oferecendo uma tecnologia que não se limita a seguir linhas na estrada, mas que compreende e navega a imprevisibilidade do mundo físico.

Fonte Principal: Xpeng outlines AI-powered VLA 2.0 intelligent driving architecture – Just Auto (2026).