Dai LLM ai VLM

La nuova frontiera dell’AI per comprendere i documenti complessi

Approfondimenti

In questo articolo, proseguiamo ad illustrarvi le nostre esperienze nel campo dei Large Language Models (LLM), in particolare affronteremo come i Visual Language Models (VLM) stanno rivoluzionando il pre-processing dei documenti nei sistemi RAG.

I VLM sono il punto di incontro tra visione e linguaggio, tra contenuto visivo e testo.
Rappresentano il passo successivo nell’evoluzione dell’AI per il document understanding e costituiscono un tassello essenziale nei sistemi RAG di nuova generazione.

Con i VLM, il pre-processing dei documenti nei sistemi RAG non è più un semplice passaggio tecnico, ma diventa una fase di interpretazione intelligente del dato.

Dall’era dei LLM alla comprensione multimodale

Negli ultimi anni i Large Language Models (LLM) — come GPT-4o, Claude 3.5 o Llama 3.1 — hanno trasformato il modo in cui le aziende gestiscono e interpretano i dati testuali.
Dalla generazione automatica di risposte intelligenti nei sistemi di supporto, fino all’analisi semantica di report e log aziendali, i LLM sono diventati strumenti fondamentali per migliorare efficienza e qualità delle decisioni.

Tuttavia, la maggior parte dei documenti aziendali non è fatta solo di testo.
Progetti tecnici, report, disegni di ingegneria o specifiche funzionali contengono immagini, schemi, diagrammi e tabelle che veicolano informazioni cruciali ma difficili da interpretare con modelli puramente linguistici.

È qui che entra in gioco una nuova generazione di modelli: i Visual Language Models (VLM). 

Cosa sono i VLM e perché sono un tassello fondamentale nei sistemi RAG

I VLM combinano la capacità visiva dei modelli di computer vision con la comprensione semantica tipica dei LLM. In altre parole, un VLM è in grado di “vedere” e “leggere” simultaneamente, interpretando immagini, testo e struttura grafica come un unico linguaggio coerente.

In una architettura Retrieval-Augmented Generation (RAG), l’utilizzo dei VLM, rappresenta un punto di svolta nella fase di data preparation che comprende pre-processing dei documenti, chunking, data enrichment, embedding e indicizzazione in un vector store. Più in particolare per la fase di preprocessing un VLM può analizzare i documenti a livello visivo e semantico, restituendo rappresentazioni strutturate e arricchite di metadati.

In pratica, mentre un OCR tradizionale estrae solo il testo, un VLM è capace di comprendere diagrammi, legende, tabelle e relazioni visive, fornendo una base dati più completa per il retrieval e la generazione di risposte di alta qualità.

Un esempio di pipeline VLM per il pre-processing nei sistemi RAG

Per comprendere il potenziale dei VLM nel cosiddetto document understanding, immaginiamo una pipeline di pre-processing pensata per elaborare documenti complessi — ad esempio, PDF contenenti schemi tecnici, tabelle e illustrazioni. Queste le fasi principali della pipeline:

  1. Conversione e analisi multimodale
    Ogni pagina del documento viene convertita in immagine e inviata a un modello VLM avanzato (come Gemini 2.5 Pro, GPT-4o o un modello open-source come LLaVA-NEXT). Il modello interpreta contemporaneamente testo, layout e componenti visive, restituendo una comprensione semantica di livello “pagina”.
  2. Estrazione strutturata
    Il risultato dell’analisi viene tradotto in dati strutturati, ad esempio un file JSON che descrive testo, coordinate, tipologia di elementi visivi e relazioni spaziali.
    Questa fase consente di ottenere una visione unificata del documento, utile per successive operazioni di segmentazione o chunking intelligente.
  3. Generazione di dati sintetici e fine-tuning
    In assenza di dataset etichettati, la pipeline può generare dati sintetici a partire da documenti pubblici o da repository interni controllati. Questi dati servono per ottimizzare il comportamento del modello tramite fine-tuning o prompt optimization, migliorandone la precisione nel riconoscimento di pattern specifici.
  4. Indicizzazione e integrazione con RAG
    I risultati vengono quindi arricchiti con metadati e inviati alla fase di embedding, per essere indicizzati in un database vettoriale. In questo modo, il sistema RAG può successivamente recuperare informazioni sia testuali che visive, garantendo risposte più pertinenti e basate su una comprensione multimodale.
  5. Automazione della pipeline
    La pipeline può essere eseguita in modo asincrono: un servizio monitora ad esempio un bucket S3 o una directory condivisa, elabora automaticamente ogni nuovo documento e aggiorna l’indice del knowledge base in tempo reale.

I principali Visual Language Models oggi disponibili

Grazie ai benchmark pubblici di piattaforme come Hugging Face, è possibile confrontare i VLM più performanti oggi sul mercato. Di seguito una sintesi aggiornata:

ModelloTipoStato dell’arteProduction ReadyNote principali
Gemini 2.5 ProProprietario (Google DeepMind)AltoSIMultimodale completo (testo, immagini, video). Eccellente per documenti tecnici.
GPT-4oProprietario (OpenAI)AltoSIAltissime prestazioni multimodali; già utilizzato in ambienti produttivi.
Claude 3.5 SonnetProprietario (Anthropic)AltoSIForte nei diagrammi e nella comprensione visiva complessa.
LLaVA-NEXTOpen SourceMedio-altoNOBuon equilibrio tra prestazioni e apertura; ancora in evoluzione.
Qwen-VL-MaxOpen Source (Alibaba)Medio-altoNOOttimo bilanciamento tra accuratezza visiva e velocità.
InternVL 2.0Open SourceMedioNOInteressante su PDF e schemi complessi; fase sperimentale.
Kosmos-2Open Source (Microsoft)BassoNOSolido OCR multimodale, ma meno efficace nella semantica profonda.
Fuyu 8BOpen Source (Adept AI)BassoNOOttima velocità, ideale per prototipazione e test.

Fonti: benchmark pubblici OpenCompass – Hugging Face

I VLM come chiave per il document understanding nei sistemi RAG

In conclusione, I Visual Language Models rappresentano la naturale evoluzione dei LLM, aprendo la strada a sistemi capaci di comprendere documenti multimodali in modo realmente intelligente.
All’interno di pipeline RAG, il loro contributo è decisivo:

  • rendono il pre-processing più accurato,
  • consentono un chunking semantico realmente contestuale,
  • e permettono un enrichment automatico dei metadati visivi e testuali.

Per le organizzazioni che trattano grandi quantità di documenti tecnici, report o diagrammi di progetto, i VLM offrono un vantaggio concreto: trasformare ogni documento — anche il più complesso — in conoscenza utilizzabile dall’intelligenza artificiale.

In conclusione, Humanativa continua ad investire sul tema RAG/LLM ed il Competence Center di Humanativa inserirà Moduli di Preprocessing con utilizzo di VLM nella prossima versione del sistema “core” delle soluzioni LLM, a partire dai riscontri dei primi progetti di RAG evoluto.