Ollama es un programa que te permite correr modelos de inteligencia artificial directamente en tu computadora, sin mandar tus datos a ningún servidor externo, sin pagar suscripción y sin necesitar conexión a internet después de la descarga inicial. En 2025 y 2026 se convirtió en la forma más accesible de usar IA de manera local, y tiene modelos que compiten en calidad con versiones gratuitas de ChatGPT.
Esta guía explica qué es, qué necesitás para que funcione y qué podés hacer con él que no podés hacer con los servicios en la nube.
Qué es exactamente Ollama
Ollama es un gestor de modelos de lenguaje local. Funciona como una capa que descarga modelos de IA (los archivos que contienen el "cerebro" del sistema) y los ejecuta en tu hardware. Vos le mandás preguntas, él las procesa en tu procesador o placa de video, y te devuelve respuestas.
Los modelos que podés correr con Ollama son versiones abiertas: Llama 3 (de Meta), Mistral, Gemma (de Google), Phi (de Microsoft), DeepSeek, Qwen y decenas más. Algunos son tan buenos que es difícil distinguirlos de GPT-4 en tareas cotidianas como resumir texto, escribir código o responder preguntas.
Qué necesitás para que funcione bien
El factor limitante es la RAM. Los modelos de lenguaje necesitan caber en memoria para correr de forma fluida. La regla general:
- 8 GB de RAM: podés correr modelos de 7B parámetros (Llama 3.2 8B, Mistral 7B). Respuestas lentas pero funcionales.
- 16 GB de RAM: el punto dulce. Modelos de 7-8B corren bien, podés probar 13B con paciencia.
- 32 GB o más: modelos grandes de 30-70B parámetros, calidad comparable a GPT-4.
Si tenés placa de video Nvidia con VRAM suficiente, Ollama la usa automáticamente y todo va mucho más rápido. AMD funciona pero requiere configuración adicional. Apple Silicon (M1, M2, M3) tiene soporte nativo y rendimiento muy bueno dado el costo del hardware.
El espacio en disco es otra variable: un modelo de 7B ocupa entre 4 y 8 GB dependiendo de la precisión. Necesitás espacio libre para los modelos que quieras tener instalados.
Cómo instalarlo
La instalación es un solo paso. Vas a `ollama.com`, descargás el instalador para tu sistema operativo (Windows, Mac o Linux) y lo ejecutás. No hay dependencias adicionales, no requiere Python ni Docker ni nada más.
En Linux podés hacer:
```
curl -fsSL https://ollama.com/install.sh | sh
```
Una vez instalado, Ollama corre como un servicio en segundo plano. Para descargar y usar un modelo, abrís una terminal y escribís:
```
ollama run llama3.2
```
Eso descarga el modelo (puede tardar varios minutos dependiendo de tu conexión y el tamaño del modelo) y abre una sesión de chat directamente en la terminal. Escribís tu pregunta, Enter, y responde.
Para ver qué modelos están disponibles: `ollama.com/library`. Hay más de 100 modelos distintos.
Para qué sirve en la práctica
Privacidad real: todo lo que procesás con Ollama queda en tu máquina. Si trabajás con documentos confidenciales, código propietario o información personal que no querés que procesen servidores externos, Ollama es la alternativa.
Sin límites de uso: ChatGPT en la versión gratuita tiene límites de mensajes por hora. Ollama no tiene ninguno — podés mandarle miles de consultas seguidas.
Funciona sin internet: después de descargar el modelo, no necesitás conexión. Útil si trabajás en ambientes sin red o con conexión limitada.
Integración con otras apps: Ollama expone una API local (por defecto en `localhost:11434`) compatible con la API de OpenAI. Eso significa que herramientas que normalmente se conectan a ChatGPT se pueden redirigir a Ollama con un cambio de URL.
La diferencia de calidad respecto a ChatGPT
Siendo honestos: los modelos locales de 7-8B son buenos pero no son GPT-4. En tareas de razonamiento complejo, análisis largo o creatividad abierta, los modelos grandes de OpenAI y Anthropic todavía ganan. Pero para el 80% de los usos cotidianos — resumir, explicar, traducir, escribir código, responder preguntas factuales — la diferencia es difícil de notar.
Donde los modelos locales ganan claramente es en velocidad de iteración (no hay tiempos de espera del servidor), en privacidad y en costo a largo plazo.
Interfaces gráficas para no usar la terminal
Si la terminal no es lo tuyo, hay varias interfaces visuales que se conectan a Ollama:
Open WebUI es la más popular: una interfaz web parecida a ChatGPT que instalás localmente y que se conecta a los modelos que tengas en Ollama. Permite historial de conversaciones, subir archivos y cambiar de modelo con un menú.
Msty y LM Studio son aplicaciones de escritorio con instaladores visuales que pueden usar Ollama o sus propios motores de inferencia.
Para la mayoría de los usuarios, instalar Ollama y después Open WebUI cubre todo lo que necesitarían de un servicio como ChatGPT, sin mandar datos a ningún lado.
Fuente original: Ver fuente