AILO-152M-v2-ITA Piccolo LLM in ITALIANO con Chat, Ragionamento e Ricerca Web 🇮🇹⚡

Un modello da 152M di parametri che gira quasi ovunque laptop, vecchi PC, perfino un Raspberry Pi e che parla, ragiona e cerca sul web in italiano.

AILO (Artificial Intelligence Language Operator) è un transformer compatto e veloce. Questa è la versione italiana del modello v2: risponde in italiano, pensa prima di rispondere (<think>) e può usare risultati di ricerca web in tempo reale per rispondere su cose che non ha mai visto in addestramento.

ollama run Alieno/ailo-152m-v2-ita
🇮🇹 Lingua Italiano (con ritenzione EN)
🧠 Parametri 151,9M
Velocità fino a ~384 tok/s (GPU), gira su CPU & edge
📦 Dimensione 97 MB (q4_k_m) – 291 MB (f16)
🌐 Ricerca web sì (context-following)
💭 Ragionamento sì (<think>)
🪶 RAM minima ~300 MB

✨ Perché AILO-152M-v2-ITA?

  • In italiano addestrato per conversare, seguire istruzioni e ragionare in italiano.
  • Gira ovunque 97 MB quantizzato, ~300 MB di RAM. Vecchi laptop, mini-PC, Raspberry Pi, telefoni.
  • Veloce chat in tempo reale anche su hardware modesto.
  • Consapevole del web addestrato per il context-following con override: risponde dai risultati di ricerca freschi invece che dalla memoria datata.
  • Aperto & locale niente cloud, privacy totale, pronto per Ollama.

Ideale per: AI on-device in italiano, assistenti offline, imparare come funzionano gli LLM, prototipazione veloce, chatbot privacy-first.


🚀 Avvio rapido

Ollama (consigliato)

ollama run Alieno/ailo-152m-v2-ita
>>> Qual è la capitale d'Italia?
La capitale d'Italia è Roma.

Tag: :latest / :q8_0 (qualità migliore, 156 MB) · :q4_k_m (più piccolo, 97 MB) · :f16 (precisione piena, 291 MB)

API

curl http://localhost:11434/api/chat -d '{
  "model": "Alieno/ailo-152m-v2-ita",
  "messages": [{"role": "user", "content": "Spiega cos'\''è la gravità."}]
}'

💬 Formato chat

Addestrato su questo template (i tag sono semplici sequenze GPT-2 BPE nessuna estensione del vocabolario):

<|user|>
{domanda}
<|assistant|>
<think>{ragionamento opzionale}</think>
{risposta}<|end|>

🌐 Ricerca web (fatti freschi, in italiano)

AILO è addestrato per il context-following con override: gli passi i risultati di ricerca e risponde a partire da quelli anche quando contraddicono la sua conoscenza di addestramento, così può usare fatti aggiornati. Senza contesto, ricade sulla propria conoscenza.

È inclusa una pipeline pronta (ailo_web_it.py): DuckDuckGo → instant-answer + re-ranking semantico (MiniLM) con filtri lingua/rilevanza → contesto breve e pulito (entra nei 512 token) → AILO risponde in italiano.

python ailo_web_it.py "Qual è la capitale della Francia?"
# -> "Parigi, capitale della Francia."

È così che un modello da 152M può rispondere su cose che non ha mai visto in addestramento.


💭 Ragionamento (thinking)

Il modello dichiara la capacità thinking: imposta "think": true e la traccia di ragionamento torna in message.thinking, separata dalla risposta (mostrata in un riquadro dedicato nell'app desktop di Ollama). Funziona meglio sui prompt di tipo ragionamento; per il calcolo esatto, abbinalo a uno strumento calcolatrice.


📐 Dettagli del modello

Proprietà Valore
Lingua Italiano (+ ritenzione inglese)
Parametri 151,9M
Architettura Transformer decoder-only (LayerNorm · RoPE · SwiGLU)
Layer / Hidden / Teste 12 / 768 / 12
Lunghezza contesto 512 token
Vocabolario 50.257 (GPT-2 BPE)
Base AILO-152M-v2 (continuazione del training in italiano)
Fine-tuning IT istruzioni (Alpaca-GPT4 in italiano) + ragionamento + context-following (SQuAD-it) + context-override + tool-use
Formati GGUF (q4_k_m, q8_0, f16) + PyTorch

⚠️ Limiti

  • 152M di parametri: conoscenza del mondo e ragionamento multi-step limitati rispetto a modelli più grandi.
  • Aritmetica: non affidabile sul calcolo esatto per i numeri usa il layer tool/agent (la calcolatrice fa il conto).
  • Risposte aperte di cultura generale: fluenti ma a volte vaghe (è un modello molto piccolo).
  • Contesto 512 token: meglio con prompt brevi e mirati; non per documenti lunghi.
  • Qualità della ricerca web dipende dalla qualità dei risultati; meglio su domande factual ben definite.

📜 Licenza

Questo progetto usa un modello a doppia licenza.

🆓 Licenza non commerciale

Rilasciato sotto Creative Commons Attribution-NonCommercial-ShareAlike 4.0 (CC BY-NC-SA 4.0).

Sei libero di:

  • Usare il modello per ricerca, didattica e progetti personali
  • Modificare e fare fine-tuning del modello
  • Ridistribuire i derivati sotto la stessa licenza

Devi:

  • Fornire attribuzione
  • Mantenere la stessa licenza per le opere derivate
  • Non usare il modello per scopi commerciali

💼 Licenza commerciale

L'uso commerciale di AILO-152M non è permesso sotto la licenza gratuita. L'uso commerciale include integrazione in prodotti/servizi a pagamento, SaaS, API o sistemi aziendali, e qualsiasi applicazione che generi ricavi diretti o indiretti. Per la licenza commerciale è richiesto un accordo separato: contatta l'autore.


📬 Contatti

Per collaborazioni di ricerca o licenze commerciali, contatta il maintainer del progetto:

Riccardo Sparacino LinkedIn


📑 Citazione

@misc{ailo152m_v2_ita_2026,
  title  = {AILO-152M-v2-ITA: Un piccolo LLM italiano con ragionamento e ricerca web},
  author = {Sparacino, Riccardo},
  year   = {2026},
  note   = {Dual-licensed CC BY-NC-SA 4.0 / commerciale}
}

🙏 Ringraziamenti

Costruito con Ollama e llama.cpp. Dati di fine-tuning italiano: alpaca-gpt4-italian, SQuAD-it, dati sintetici. Base: AILO-152M-v2. Embedding per il re-ranking web: sentence-transformers MiniLM.


Parole chiave: modello linguistico piccolo, tiny LLM italiano, 152M, LLM efficiente, edge AI, on-device, inferenza CPU, Raspberry Pi LLM, modello Ollama, GGUF, instruction-tuned, ragionamento, ricerca web, RAG, assistente offline italiano.

Downloads last month
649
GGUF
Model size
0.2B params
Architecture
llama
Hardware compatibility
Log In to add your hardware

4-bit

8-bit

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support