Questo articolo illustra l’approccio di Humanativa ai servizi di Intelligenza Artificiale Generativa ed in particolare, il focus è sui Large Language Models (LLM). Presentiamo una panoramica su queste tecnologie, seguita da un confronto metodologico tra diversi approcci e il loro impatto sulle soluzioni per i Clienti.
Nei successivi articoli, esploreremo:
- Come migliorare le capacità dell’LLM di generare risposte accurate in linguaggio naturale attraverso la tecnologia RAG (Retrieval-Augmented Generation).
- L’innovazione delle soluzioni LLM firmate Humanativa dove l’esperienza e la ricerca condotte dal nostro Competence Center viene trasformata in soluzioni LLM.
- Seguirà un ulteriore focus sulla Data Preparation per il RAG, il cosiddetto Indexing, esplorando le nuove tecniche di pre-processing con l’utilizzo dei nuovi Modelli di Linguaggio Visivo (VLM) (modelli di intelligenza artificiale che combinano capacità di visione artificiale e di elaborazione del linguaggio naturale).
AI Generativa e LLM: una nuova frontiera nella comunicazione
L’AI Generativa rappresenta una delle evoluzioni più affascinanti dell’intelligenza artificiale. A differenza delle tecnologie tradizionali, progettate per riconoscere, classificare o prevedere, questa nuova generazione di AI è in grado di creare contenuti originali: testi, immagini, audio e video. Attraverso l’addestramento su enormi set di dati, i modelli generativi imparano schemi complessi, sviluppando la capacità di generare output realistici e innovativi.
Dal punto di vista “consumer” e del pubblico in generale, è evidente l’hype che si è generato perché l’AI Generativa ha colpito l’immaginario collettivo:
- sul suo aspetto “creativo” portando l’utente a pensare che sia sufficiente fare una descrizione (il cosiddetto prompt) chiedendo ad un modello di AI di produrre racconti, sceneggiature, comporre musica o creare immagini e video. L’AI Generativa è già una forza trainante in settori come intrattenimento e pubblicità ad esempio.
- Ma anche sulla necessità di regolamentazione dell’uso dell’AI, dei problemi legati al bias, ovvero nei casi di risultati distorti, dannosi o a pregiudizi umani.
Nonostante questo “rumore” generale, l’aspetto positivo è che questo hype ha in qualche modo re-invigorito i grandi player, le università e le aziende di servizi di AI e ML, consapevoli che questo è un momento “epocale” per l’AI, il momento giusto per investire e mostrare le mille possibilità che l’AI può offrire in diversi campi industriali. Oggi si assiste ad un grande interesse attorno alla sanità, la medicina, al design industriale, alla automazione di processi, alla enorme rivoluzione nel campo della gestione della conoscenza (Knowledge Management). Il campo del Knowledge Management è da sempre il punto centrale per le aziende che vogliono sfruttare al meglio la conoscenza dei dati aziendali per generare servizi. In questo caso, con l’uso di Virtual Assistant basati su Ai Generativa c’è una grande aspettativa attorno ai temi come l’accesso facile e veloce alle informazioni, l’accelerazione dei processi decisionali, accelerazione dei servizi di manutenzione ed automazione di processi. Tutto questo “suona” molto interessante perché per una azienda significa “risparmio di tempo”.
Large Language Models (LLM)
Uno degli sviluppi più promettenti dell’AI Generativa è rappresentato dai Large Language Models (LLM). Gli LLM sono modelli avanzati, basati su miliardi di parametri e sono progettati per comprendere e generare linguaggio naturale con un livello di precisione mai raggiunto prima. La nascita e lo sviluppo degli LLM ha accompagnato negli ultimi anni la “rinascita” della AI, grazie all’aumento dei dati digitali e al miglioramento delle capacità computazionali, e alla introduzione degli algoritmi di deep learning.
I Large Language Models, come ad es. il noto GPT, sono emersi grazie a progressi nelle reti neurali, maggiore potenza computazionale e abbondanza di dati, rivoluzionando l’elaborazione del linguaggio naturale. Vediamo alcuni esempi di servizi possibili:
- Rispondere a domande: Possono fornire informazioni e risposte dettagliate a domande poste dagli utenti.
- Assistenza nella scrittura: Aiutano a scrivere e revisionare testi, come articoli, email e relazioni.
- Traduzione automatica: Possono tradurre testo da una lingua all’altra.
- Analisi del sentiment: Utilizzati per analizzare il tono e le emozioni in testi come recensioni o post sui social media.
- Assistenti virtuali: Alimentano assistenti virtuali e sistemi di Ticket Service per migliorare il servizio clienti e l’interazione con gli utenti. Con questa tecnologia, l’era dei “chatbot” finisce perché i limiti di un chatbot tradizionale erano proprio nelle regole su cui erano basati e nella necessità di doverli aggiornare. In molti servizi all’utenza, i chatbot finivano per generare frustrazione ed inadeguatezza nelle risposte.
- Generazione di contenuti: Creano contenuti originali come storie, articoli di notizie e sceneggiature.
- Generazione di Codice: Gli LLM soni in grado di generare codice e supportano vari linguaggi di programmazione. Possono inoltre generare query SQL, suggerendo script a partire da una descrizione in linguaggio naturale. Ad esempio, alcuni modelli come GPT-4.1, GPT-5-Codex e Claude Sonnet 4.5 sono addestrati su una grande varietà di linguaggi di programmazione.
Date le caratteristiche sopra enunciate, questi modelli si stanno quindi affermando nell’utilizzo in vari settori industriali per automatizzare e migliorare processi che coinvolgono il linguaggio umano. Da qui l’ampio interesse delle grandi Imprese di dotarsi un Assistente Virtuale specifico nel loro mondo industriale. Di questo aspetto sottolineeremo più avanti le soluzioni Humanativa in questa direzione.
Il Valore della Esperienza del Competence Center
Il nostro Competence Center tiene sotto osservazione l’evoluzione continua dei modelli LLM e delle varie tecniche ed approcci, tenendo sempre in considerazione alcuni fattori necessari quando si propone una soluzione al Cliente. Ne vediamo alcuni:
- Modelli Open e Closed:
- Closed: Modelli Proprietari su cloud come GPT (OpenAI), Gemini (Google), Claude (Anthropic)
- Open: Eseguibili on premise come ad esempio Llama (Meta/Facebook), Mistral (Mistral AI)
- Dimensioni e relative capacità
- modelli piccoli con basse capacità di ragionamento, utili per task semplici o per fare ricerca, testing
- modelli medi utili per task più avanzati ma non critici, perché sono soggetti a errori
- modelli grandi e multilingua
- modelli multi-modal
- Analisi dei Punti deboli generali
- Allucinazioni: casi in cui la risposta del modello LLM non è corretta o fuori contesto, rispondendo con informazioni, dati o riferimenti incoerenti con la domanda posta.
- Dimensione dei dati in input limitati
- Costo del training/fine-tuning
- Multilingua ed in particolar modo per la lingua italiana, soprattutto la qualità delle risposte in italiano
- Capacità in italiano sia della qualità delle risposte che della capacità di seguire le istruzioni in italiano
- Tempi di risposta
- Le dimensioni del Modello, fattore non trascurabile anche nel caso di esecuzione on premise
- Il costo di interrogazione di un modello:
- Numero di parametri
- Numero massimo di token in un prompt
- Costo per token
- Modelli compatti e non.
Su quest’ultimo punto (il costo di interrogazione di un modello), per dare una idea delle capacità di elaborazione, la successiva tabella mostra alcuni valori come i “parametri” e il massimo numero di “token” (unità di testo, parti di una parola o parole intere) che ogni modello può gestire in un prompt. Dove per parametri si intende un coefficiente numerico (peso o bias) che il modello apprende durante l’addestramento. Più parametri in pratica significa maggiore capacità di rappresentare pattern complessi, ma anche:
- Maggiore costo computazionale (addestramento e inferenza)
- Maggiore consumo di memoria
- Potenzialmente migliori capacità di ragionamento / comprensione
Nome del Modello | Numero di parametri / attivi | Token contesto massimo | Data di rilascio |
GPT‑4.1 | tra ~ 1,0 e ~ 1,8 trilioni di parametri | ~1 000 000 token | Aprile 2025 |
Gemini 2.5 | non confermato — spesso riportato fra ~200B – 600B | ~1 000 000 token | Maggio 2025 |
Claude (Sonnet / Opus) | non divulgato | ~128k–200k token | Marzo 2025 |
PaLM 2 | centinaia di miliardi (stima) | ~8k–32k token | Maggio 2023 |
Llama 4 (Scout / Maverick) | variabile MoE (~17B attivi) | 100k–1M token | Agosto 2025 |
Mistral Large 2 | ~123B | 128k token | Luglio 2025 |
Mixtral 8×7B (MoE) | ~47B totali (~13B attivi) | 32k token | Gennaio 2024 |
Falcon 180B | ~180B | decine di migliaia token | Settembre 2023 |
DBRX (MoE) | ~132B totali (~36B attivi) | 32k token | Marzo 2024 |
Phi‑2 (SLM) | ~2.7B | decine di migliaia token | Dicembre 2023 |
DeepSeek‑Chat / DeepSeek‑Reasoner | 16B / 236B totali (~21B attivi) | 128k token | Agosto 2025 |
Dalla tabella si può notare come alcuni modelli stiano crescendo nella possibilità offerte di numero di parametri e token. Ma a queste informazioni si devono aggiungere considerazioni sui costi di un prompt.
I modelli di grandi dimensioni sono spesso Modelli Proprietari ed offrono il servizio di interrogazione via API in cloud, il cui costo di interrogazione è in base al token.
Inoltre, si devono considerare altre informazioni che non sono dettate esclusivamente dai volumi che possono trattare, ma legate al costo di elaborazione. Per questo motivo, diversi produttori di LLM stanno oggi producendo modelli “compatti” poiché un modello compatto:
- È progettato per essere più piccolo, efficiente e più economico in termini di risorse computazionali, pur mantenendo buone capacità di comprensione e generazione del linguaggio.
- È un compromesso tra la potenza computazionale e la capacità linguistica, risultando ideali per applicazioni pratiche che richiedono efficienza e velocità più che la massima accuratezza o capacità di token di un LLM di grandi dimensioni.
- Naturalmente, seguendo il mercato, i modelli di dimensioni ridotte più veloci ed economici sono una ulteriore sfida tra competitor perché c’è maggiore attenzione al costo ed a fornire modelli open. Alcuni esempi: i modelli Gemma di Google o Phi di Microsoft, ma anche Mistral che rivaleggia sia nei modelli di grandi dimensioni che in quelli compatti con quelli di OpenAI e Anthropic.
Su questo binomio “Efficienza e Velocità” vs “Accuratezza o Capacità di Token” si basa il nostro osservatorio del Competence Center sui modelli LLM, poiché il bilanciamento di queste caratteristiche è determinante per derivare una soluzione “fit” per le esigenze del Cliente. Ad esempio, la realizzazione di un Virtual Assistant in un contesto di un dominio “legislativo” necessita di una attenzione maggiore alla accuratezza della risposta, e vanno evitati i casi di allucinazione.