In questo articolo, proseguiamo ad illustrarvi le nostre esperienze nel campo dei Large Language Models (LLM), in particolare affronteremo come i Visual Language Models (VLM) stanno rivoluzionando il pre-processing dei documenti nei sistemi RAG.
I VLM sono il punto di incontro tra visione e linguaggio, tra contenuto visivo e testo.
Rappresentano il passo successivo nell’evoluzione dell’AI per il document understanding e costituiscono un tassello essenziale nei sistemi RAG di nuova generazione.
Con i VLM, il pre-processing dei documenti nei sistemi RAG non è più un semplice passaggio tecnico, ma diventa una fase di interpretazione intelligente del dato.
Dall’era dei LLM alla comprensione multimodale
Negli ultimi anni i Large Language Models (LLM) — come GPT-4o, Claude 3.5 o Llama 3.1 — hanno trasformato il modo in cui le aziende gestiscono e interpretano i dati testuali.
Dalla generazione automatica di risposte intelligenti nei sistemi di supporto, fino all’analisi semantica di report e log aziendali, i LLM sono diventati strumenti fondamentali per migliorare efficienza e qualità delle decisioni.
Tuttavia, la maggior parte dei documenti aziendali non è fatta solo di testo.
Progetti tecnici, report, disegni di ingegneria o specifiche funzionali contengono immagini, schemi, diagrammi e tabelle che veicolano informazioni cruciali ma difficili da interpretare con modelli puramente linguistici.
È qui che entra in gioco una nuova generazione di modelli: i Visual Language Models (VLM).
Cosa sono i VLM e perché sono un tassello fondamentale nei sistemi RAG
I VLM combinano la capacità visiva dei modelli di computer vision con la comprensione semantica tipica dei LLM. In altre parole, un VLM è in grado di “vedere” e “leggere” simultaneamente, interpretando immagini, testo e struttura grafica come un unico linguaggio coerente.
In una architettura Retrieval-Augmented Generation (RAG), l’utilizzo dei VLM, rappresenta un punto di svolta nella fase di data preparation che comprende pre-processing dei documenti, chunking, data enrichment, embedding e indicizzazione in un vector store. Più in particolare per la fase di preprocessing un VLM può analizzare i documenti a livello visivo e semantico, restituendo rappresentazioni strutturate e arricchite di metadati.
In pratica, mentre un OCR tradizionale estrae solo il testo, un VLM è capace di comprendere diagrammi, legende, tabelle e relazioni visive, fornendo una base dati più completa per il retrieval e la generazione di risposte di alta qualità.
Un esempio di pipeline VLM per il pre-processing nei sistemi RAG
Per comprendere il potenziale dei VLM nel cosiddetto document understanding, immaginiamo una pipeline di pre-processing pensata per elaborare documenti complessi — ad esempio, PDF contenenti schemi tecnici, tabelle e illustrazioni. Queste le fasi principali della pipeline:
- Conversione e analisi multimodale
Ogni pagina del documento viene convertita in immagine e inviata a un modello VLM avanzato (come Gemini 2.5 Pro, GPT-4o o un modello open-source come LLaVA-NEXT). Il modello interpreta contemporaneamente testo, layout e componenti visive, restituendo una comprensione semantica di livello “pagina”. - Estrazione strutturata
Il risultato dell’analisi viene tradotto in dati strutturati, ad esempio un file JSON che descrive testo, coordinate, tipologia di elementi visivi e relazioni spaziali.
Questa fase consente di ottenere una visione unificata del documento, utile per successive operazioni di segmentazione o chunking intelligente. - Generazione di dati sintetici e fine-tuning
In assenza di dataset etichettati, la pipeline può generare dati sintetici a partire da documenti pubblici o da repository interni controllati. Questi dati servono per ottimizzare il comportamento del modello tramite fine-tuning o prompt optimization, migliorandone la precisione nel riconoscimento di pattern specifici. - Indicizzazione e integrazione con RAG
I risultati vengono quindi arricchiti con metadati e inviati alla fase di embedding, per essere indicizzati in un database vettoriale. In questo modo, il sistema RAG può successivamente recuperare informazioni sia testuali che visive, garantendo risposte più pertinenti e basate su una comprensione multimodale. - Automazione della pipeline
La pipeline può essere eseguita in modo asincrono: un servizio monitora ad esempio un bucket S3 o una directory condivisa, elabora automaticamente ogni nuovo documento e aggiorna l’indice del knowledge base in tempo reale.
I principali Visual Language Models oggi disponibili
Grazie ai benchmark pubblici di piattaforme come Hugging Face, è possibile confrontare i VLM più performanti oggi sul mercato. Di seguito una sintesi aggiornata:
| Modello | Tipo | Stato dell’arte | Production Ready | Note principali |
| Gemini 2.5 Pro | Proprietario (Google DeepMind) | Alto | SI | Multimodale completo (testo, immagini, video). Eccellente per documenti tecnici. |
| GPT-4o | Proprietario (OpenAI) | Alto | SI | Altissime prestazioni multimodali; già utilizzato in ambienti produttivi. |
| Claude 3.5 Sonnet | Proprietario (Anthropic) | Alto | SI | Forte nei diagrammi e nella comprensione visiva complessa. |
| LLaVA-NEXT | Open Source | Medio-alto | NO | Buon equilibrio tra prestazioni e apertura; ancora in evoluzione. |
| Qwen-VL-Max | Open Source (Alibaba) | Medio-alto | NO | Ottimo bilanciamento tra accuratezza visiva e velocità. |
| InternVL 2.0 | Open Source | Medio | NO | Interessante su PDF e schemi complessi; fase sperimentale. |
| Kosmos-2 | Open Source (Microsoft) | Basso | NO | Solido OCR multimodale, ma meno efficace nella semantica profonda. |
| Fuyu 8B | Open Source (Adept AI) | Basso | NO | Ottima velocità, ideale per prototipazione e test. |
Fonti: benchmark pubblici OpenCompass – Hugging Face
I VLM come chiave per il document understanding nei sistemi RAG
In conclusione, I Visual Language Models rappresentano la naturale evoluzione dei LLM, aprendo la strada a sistemi capaci di comprendere documenti multimodali in modo realmente intelligente.
All’interno di pipeline RAG, il loro contributo è decisivo:
- rendono il pre-processing più accurato,
- consentono un chunking semantico realmente contestuale,
- e permettono un enrichment automatico dei metadati visivi e testuali.
Per le organizzazioni che trattano grandi quantità di documenti tecnici, report o diagrammi di progetto, i VLM offrono un vantaggio concreto: trasformare ogni documento — anche il più complesso — in conoscenza utilizzabile dall’intelligenza artificiale.
In conclusione, Humanativa continua ad investire sul tema RAG/LLM ed il Competence Center di Humanativa inserirà Moduli di Preprocessing con utilizzo di VLM nella prossima versione del sistema “core” delle soluzioni LLM, a partire dai riscontri dei primi progetti di RAG evoluto.