Instructions to use xxrickyxx/Ailo152m-v2-ita with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- llama-cpp-python
How to use xxrickyxx/Ailo152m-v2-ita with llama-cpp-python:
# !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="xxrickyxx/Ailo152m-v2-ita", filename="ailo-152m-it-f16.gguf", )
llm.create_chat_completion( messages = [ { "role": "user", "content": "What is the capital of France?" } ] ) - Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- llama.cpp
How to use xxrickyxx/Ailo152m-v2-ita with llama.cpp:
Install from brew
brew install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf xxrickyxx/Ailo152m-v2-ita:Q4_K_M # Run inference directly in the terminal: llama-cli -hf xxrickyxx/Ailo152m-v2-ita:Q4_K_M
Install from WinGet (Windows)
winget install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf xxrickyxx/Ailo152m-v2-ita:Q4_K_M # Run inference directly in the terminal: llama-cli -hf xxrickyxx/Ailo152m-v2-ita:Q4_K_M
Use pre-built binary
# Download pre-built binary from: # https://github.com/ggerganov/llama.cpp/releases # Start a local OpenAI-compatible server with a web UI: ./llama-server -hf xxrickyxx/Ailo152m-v2-ita:Q4_K_M # Run inference directly in the terminal: ./llama-cli -hf xxrickyxx/Ailo152m-v2-ita:Q4_K_M
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # Start a local OpenAI-compatible server with a web UI: ./build/bin/llama-server -hf xxrickyxx/Ailo152m-v2-ita:Q4_K_M # Run inference directly in the terminal: ./build/bin/llama-cli -hf xxrickyxx/Ailo152m-v2-ita:Q4_K_M
Use Docker
docker model run hf.co/xxrickyxx/Ailo152m-v2-ita:Q4_K_M
- LM Studio
- Jan
- vLLM
How to use xxrickyxx/Ailo152m-v2-ita with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "xxrickyxx/Ailo152m-v2-ita" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "xxrickyxx/Ailo152m-v2-ita", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker
docker model run hf.co/xxrickyxx/Ailo152m-v2-ita:Q4_K_M
- Ollama
How to use xxrickyxx/Ailo152m-v2-ita with Ollama:
ollama run hf.co/xxrickyxx/Ailo152m-v2-ita:Q4_K_M
- Unsloth Studio
How to use xxrickyxx/Ailo152m-v2-ita with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for xxrickyxx/Ailo152m-v2-ita to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for xxrickyxx/Ailo152m-v2-ita to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://huggingface.co/spaces/unsloth/studio in your browser # Search for xxrickyxx/Ailo152m-v2-ita to start chatting
- Atomic Chat new
- Docker Model Runner
How to use xxrickyxx/Ailo152m-v2-ita with Docker Model Runner:
docker model run hf.co/xxrickyxx/Ailo152m-v2-ita:Q4_K_M
- Lemonade
How to use xxrickyxx/Ailo152m-v2-ita with Lemonade:
Pull the model
# Download Lemonade from https://lemonade-server.ai/ lemonade pull xxrickyxx/Ailo152m-v2-ita:Q4_K_M
Run and chat with the model
lemonade run user.Ailo152m-v2-ita-Q4_K_M
List all available models
lemonade list
AILO-152M-v2-ITA Piccolo LLM in ITALIANO con Chat, Ragionamento e Ricerca Web 🇮🇹⚡
Un modello da 152M di parametri che gira quasi ovunque laptop, vecchi PC, perfino un Raspberry Pi e che parla, ragiona e cerca sul web in italiano.
AILO (Artificial Intelligence Language Operator) è un transformer compatto e veloce. Questa è la versione italiana del modello v2: risponde in italiano, pensa prima di rispondere (<think>) e può usare risultati di ricerca web in tempo reale per rispondere su cose che non ha mai visto in addestramento.
ollama run Alieno/ailo-152m-v2-ita
| 🇮🇹 Lingua | Italiano (con ritenzione EN) |
| 🧠 Parametri | 151,9M |
| ⚡ Velocità | fino a ~384 tok/s (GPU), gira su CPU & edge |
| 📦 Dimensione | 97 MB (q4_k_m) – 291 MB (f16) |
| 🌐 Ricerca web | sì (context-following) |
| 💭 Ragionamento | sì (<think>) |
| 🪶 RAM minima | ~300 MB |
✨ Perché AILO-152M-v2-ITA?
- In italiano addestrato per conversare, seguire istruzioni e ragionare in italiano.
- Gira ovunque 97 MB quantizzato, ~300 MB di RAM. Vecchi laptop, mini-PC, Raspberry Pi, telefoni.
- Veloce chat in tempo reale anche su hardware modesto.
- Consapevole del web addestrato per il context-following con override: risponde dai risultati di ricerca freschi invece che dalla memoria datata.
- Aperto & locale niente cloud, privacy totale, pronto per Ollama.
Ideale per: AI on-device in italiano, assistenti offline, imparare come funzionano gli LLM, prototipazione veloce, chatbot privacy-first.
🚀 Avvio rapido
Ollama (consigliato)
ollama run Alieno/ailo-152m-v2-ita
>>> Qual è la capitale d'Italia?
La capitale d'Italia è Roma.
Tag: :latest / :q8_0 (qualità migliore, 156 MB) · :q4_k_m (più piccolo, 97 MB) · :f16 (precisione piena, 291 MB)
API
curl http://localhost:11434/api/chat -d '{
"model": "Alieno/ailo-152m-v2-ita",
"messages": [{"role": "user", "content": "Spiega cos'\''è la gravità."}]
}'
💬 Formato chat
Addestrato su questo template (i tag sono semplici sequenze GPT-2 BPE nessuna estensione del vocabolario):
<|user|>
{domanda}
<|assistant|>
<think>{ragionamento opzionale}</think>
{risposta}<|end|>
🌐 Ricerca web (fatti freschi, in italiano)
AILO è addestrato per il context-following con override: gli passi i risultati di ricerca e risponde a partire da quelli anche quando contraddicono la sua conoscenza di addestramento, così può usare fatti aggiornati. Senza contesto, ricade sulla propria conoscenza.
È inclusa una pipeline pronta (ailo_web_it.py): DuckDuckGo → instant-answer + re-ranking semantico (MiniLM) con filtri lingua/rilevanza → contesto breve e pulito (entra nei 512 token) → AILO risponde in italiano.
python ailo_web_it.py "Qual è la capitale della Francia?"
# -> "Parigi, capitale della Francia."
È così che un modello da 152M può rispondere su cose che non ha mai visto in addestramento.
💭 Ragionamento (thinking)
Il modello dichiara la capacità thinking: imposta "think": true e la traccia di ragionamento torna in message.thinking, separata dalla risposta (mostrata in un riquadro dedicato nell'app desktop di Ollama). Funziona meglio sui prompt di tipo ragionamento; per il calcolo esatto, abbinalo a uno strumento calcolatrice.
📐 Dettagli del modello
| Proprietà | Valore |
|---|---|
| Lingua | Italiano (+ ritenzione inglese) |
| Parametri | 151,9M |
| Architettura | Transformer decoder-only (LayerNorm · RoPE · SwiGLU) |
| Layer / Hidden / Teste | 12 / 768 / 12 |
| Lunghezza contesto | 512 token |
| Vocabolario | 50.257 (GPT-2 BPE) |
| Base | AILO-152M-v2 (continuazione del training in italiano) |
| Fine-tuning IT | istruzioni (Alpaca-GPT4 in italiano) + ragionamento + context-following (SQuAD-it) + context-override + tool-use |
| Formati | GGUF (q4_k_m, q8_0, f16) + PyTorch |
⚠️ Limiti
- 152M di parametri: conoscenza del mondo e ragionamento multi-step limitati rispetto a modelli più grandi.
- Aritmetica: non affidabile sul calcolo esatto per i numeri usa il layer tool/agent (la calcolatrice fa il conto).
- Risposte aperte di cultura generale: fluenti ma a volte vaghe (è un modello molto piccolo).
- Contesto 512 token: meglio con prompt brevi e mirati; non per documenti lunghi.
- Qualità della ricerca web dipende dalla qualità dei risultati; meglio su domande factual ben definite.
📜 Licenza
Questo progetto usa un modello a doppia licenza.
🆓 Licenza non commerciale
Rilasciato sotto Creative Commons Attribution-NonCommercial-ShareAlike 4.0 (CC BY-NC-SA 4.0).
Sei libero di:
- Usare il modello per ricerca, didattica e progetti personali
- Modificare e fare fine-tuning del modello
- Ridistribuire i derivati sotto la stessa licenza
Devi:
- Fornire attribuzione
- Mantenere la stessa licenza per le opere derivate
- Non usare il modello per scopi commerciali
💼 Licenza commerciale
L'uso commerciale di AILO-152M non è permesso sotto la licenza gratuita. L'uso commerciale include integrazione in prodotti/servizi a pagamento, SaaS, API o sistemi aziendali, e qualsiasi applicazione che generi ricavi diretti o indiretti. Per la licenza commerciale è richiesto un accordo separato: contatta l'autore.
📬 Contatti
Per collaborazioni di ricerca o licenze commerciali, contatta il maintainer del progetto:
Riccardo Sparacino LinkedIn
📑 Citazione
@misc{ailo152m_v2_ita_2026,
title = {AILO-152M-v2-ITA: Un piccolo LLM italiano con ragionamento e ricerca web},
author = {Sparacino, Riccardo},
year = {2026},
note = {Dual-licensed CC BY-NC-SA 4.0 / commerciale}
}
🙏 Ringraziamenti
Costruito con Ollama e llama.cpp. Dati di fine-tuning italiano: alpaca-gpt4-italian, SQuAD-it, dati sintetici. Base: AILO-152M-v2. Embedding per il re-ranking web: sentence-transformers MiniLM.
Parole chiave: modello linguistico piccolo, tiny LLM italiano, 152M, LLM efficiente, edge AI, on-device, inferenza CPU, Raspberry Pi LLM, modello Ollama, GGUF, instruction-tuned, ragionamento, ricerca web, RAG, assistente offline italiano.
- Downloads last month
- 649
4-bit
8-bit
16-bit