No necesitas pagar suscripciones mensuales ni enviar tus datos a servidores de terceros. Con Ollama puedes ejecutar modelos de IA de nivel profesional directamente en tu Mac, PC o Linux. Todo gratis, todo local, todo privado. Este tutorial te guia paso a paso para instalar y usar Ollama en tu ordenador.
Que es Ollama
Ollama es una herramienta open source que permite descargar y ejecutar modelos de lenguaje (LLMs) en tu propio ordenador. Funciona como un servidor local que puedes usar desde la terminal, una interfaz web, o conectar con tus aplicaciones.
A diferencia de ChatGPT o Claude, Ollama no requiere conexión a internet constante ni envía tus datos a servidores externos. Todo se procesa localmente en tu máquina, garantizando privacidad total y control absoluto sobre tu información.
Como elaboramos nuestras guias
En La Guia de la IA investigamos cada tema a fondo, probamos las herramientas de primera mano y contrastamos con fuentes especializadas. Nuestro objetivo es darte informacion fiable y practica. Conoce nuestra metodologia.
Los modelos disponibles incluyen Llama 3.1 (Meta), Mistral, Phi-3 (Microsoft), CodeLlama, Gemma, y muchos mas. Todos gratuitos y sin limites de uso. La comunidad de Ollama crece constantemente y nuevos modelos se añaden regularmente a su biblioteca oficial.
Crea contenido 10x más rápido con Jasper AI
Desde $49/mes · 30% comisión recurrente

Ventajas de ejecutar IA localmente con Ollama
Privacidad total: Ningún dato sale de tu ordenador. No hay registro de conversaciones, no hay análisis de uso, no hay perfiles de usuario. Tu información permanece completamente bajo tu control.
Sin costes de suscripción: Una vez instalado Ollama, puedes usar los modelos de manera ilimitada sin pagar nada. No hay cuotas mensuales, ni limitaciones de requests, ni modelos premium.
Disponibilidad offline: Descarga un modelo y úsalo sin conexión a internet. Ideal para trabajar en aviones, trenes o lugares sin cobertura.
Personalización: Crear modelos personalizados con tus propios datos y ajustes. Optimizar el rendimiento según tus necesidades específicas.
Velocidad: Sin latencia de red. El tiempo de respuesta depende solo de tu hardware local, no de servidores lejanos.
Requisitos minimos
- Mac con Apple Silicon (M1/M2/M3/M4): 8 GB RAM para modelos pequeños (7B), 16 GB para modelos medianos (13B), 32 GB+ para modelos grandes (70B). Los Mac son las mejores máquinas para IA local gracias al chip unificado y su arquitectura optimizada.
- PC con GPU Nvidia: 8 GB VRAM (RTX 3070+) para modelos 7B, 24 GB VRAM (RTX 4090) para modelos 70B. La compatibilidad con CUDA acelera significativamente la ejecución.
- PC con GPU AMD: 8 GB VRAM para modelos 7B. Requiere ROCm para optimización de rendimiento en Ollama.
- PC solo CPU: Funciona pero es lento. 16 GB RAM mínimo para modelos 7B, 32 GB para modelos más grandes. La ejecución por CPU es viable para pruebas pero no para uso productivo.
- Linux: Cualquier distribución moderna (Ubuntu 20.04+, Fedora, Debian). Los requisitos de hardware son similares a Windows y Mac.
Paso 1: Instalar Ollama
Mac: Descarga desde ollama.com y arrastra a Aplicaciones. O desde terminal: brew install ollama
Linux: curl -fsSL https://ollama.com/install.sh | sh
Windows: Descarga el instalador desde ollama.com. El instalador configura automáticamente las variables de entorno y crea un acceso directo en el escritorio.
Verifica la instalación ejecutando en terminal: ollama --version. Deberías ver un número de versión (ej: ollama version 0.1.x).

Paso 2: Descargar tu primer modelo
Abre la terminal y ejecuta:
ollama pull llama3.1
Esto descarga Llama 3.1 de 8B parámetros (~4.7 GB). Tarda unos minutos según tu conexión. Otros modelos recomendados para instalar y usar Ollama según tu caso de uso:
ollama pull mistral— Rápido y eficiente, ideal para chat general y respuestas inmediatasollama pull neural-chat— Optimizado para diálogos naturales y conversación fluidaollama pull codellama— Especializado en generación de código y explicaciones técnicasollama pull llama3.1:70b— Versión grande con mejor comprensión, necesita 40 GB RAM/VRAMollama pull phi-3— Modelo ligero de Microsoft, excelente relación rendimiento/tamañoollama pull gemma— Modelo de Google, buena alternativa con características únicas
Puedes tener múltiples modelos instalados simultáneamente. Solo usarán espacio en disco, no en RAM. Para ver todos tus modelos instalados: ollama list
Paso 3: Chatear con el modelo
Ejecuta: ollama run llama3.1
Se abre un chat interactivo en la terminal. Escribe tu pregunta y el modelo responde localmente. Toda la inferencia ocurre en tu CPU/GPU. Ningún dato sale de tu ordenador ni se almacena en servidores remotos.
Ejemplo de uso:
>>> ¿Cuál es la capital de España?
La capital de España es Madrid. Es la ciudad más grande del país y centro político, económico y cultural.
Para salir del chat escribe /bye o presiona Ctrl+C. El modelo permanece en memoria durante la sesión para respuestas más rápidas si continúas usando Ollama.
Paso 4: Interfaz grafica (opcional pero recomendado)
Para una experiencia tipo ChatGPT pero local, instala Open WebUI:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main
Abre http://localhost:3000 en tu navegador y tendrás una interfaz idéntica a ChatGPT pero conectada a tus modelos locales de Ollama. La interfaz incluye historial de conversaciones, búsqueda, y capacidad de cambiar entre modelos con un click.
Alternativas de interfaz: Si prefieres algo más ligero, prueba Ollama Web UI o Lobe Chat. Todas son gratuitas y se conectan directamente a tu instancia local de Ollama.
Paso 5: Usar Ollama desde tus apps
Ollama expone una API compatible con la de OpenAI en http://localhost:11434. Esto significa que cualquier aplicación que funcione con la API de OpenAI puede funcionar con Ollama cambiando solo la URL base y la clave de API.
Aplicaciones compatibles:
- Continue (VS Code): Autocomplete y chat integrados directamente en tu editor
- LibreChat: Interfaz multimodelo que funciona con Ollama
- Langchain: Para desarrolladores que construyen aplicaciones de IA
- Obsidian con plugins: Integra IA en tus notas
- Aplicaciones personalizadas: Usa la API REST de Ollama en cualquier aplicación que desarrolles
Ejemplo de request API: curl http://localhost:11434/api/generate -d '{"model":"llama3.1","prompt":"Hola mundo"}'
Rendimiento real y comparativas
En un MacBook Pro M4 con 32 GB de RAM, Llama 3.1 8B genera unas 40-50 tokens por segundo — prácticamente instantáneo para la mayoría de respuestas. El modelo 70B genera unos 8-12 tokens por segundo — más lento pero usable para tareas complejas.
Comparativa de velocidad según hardware:
- Mac M3 Pro (18GB): Llama 3.1 8B = 25-35 tokens/seg
- RTX 4090 (24GB VRAM): Llama 3.1 70B = 50-80 tokens/seg
- RTX 3070 (8GB VRAM): Llama 3.1 7B = 15-25 tokens/seg
- CPU solo (16GB RAM): Llama 3.1 7B = 2-5 tokens/seg
La calidad de Llama 3.1 8B no llega a GPT-4 o Claude 3, pero es sorprendentemente buena para resúmenes, redacción, traducción y programación básica. Para el 70% de las tareas cotidianas de procesamiento de texto, es más que suficiente. Y es completamente gratis y privado.
Configuración avanzada de Ollama
Variables de entorno: Puedes optimizar Ollama estableciendo variables antes de ejecutarlo:
OLLAMA_NUM_GPU— Número de capas a ejecutar en GPU (0 = solo CPU)OLLAMA_NUM_THREAD— Número de threads de CPU a usarOLLAMA_MODELS— Directorio personalizado para almacenar modelos
Importar modelos personalizados: Puedes crear un Modelfile para personalizar un modelo base con instrucciones específicas, sistema prompt customizado, y parámetros optimizados. Ejemplo:
FROM llama3.1
SYSTEM "Eres un experto en programación Python"
PARAMETER temperature 0.7
Gestión de memoria: Ollama mantiene los modelos en memoria entre requests para acelerar respuestas. Puedes configurar cuánto tiempo mantener modelos cargados antes de descargarlos automáticamente.
Casos de uso practicos
Escritura y redacción: Genera borradores, resume textos largos, mejora gramática y estilo. Ideal para blogueros, periodistas y creadores de contenido.
Programación: Usa CodeLlama para generar funciones, explicar código y debuggear. Perfectamente integrado con tu editor de código favorito.
Análisis de datos: Procesa grandes volúmenes de texto privado sin enviarlos a servidores externos. Crítico para industrias con requisitos de confidencialidad.
Educación: Crea un tutor personal que funciona offline. Explica conceptos, resuelve problemas, y adapta el nivel de dificultad.
Desarrollo de chatbots: Construye chatbots especializados para tu negocio sin dependencias de APIs externas ni costes recurrentes.
Solución de problemas comunes
Problema: «Connection refused» al intentar acceder a localhost:11434
Solución: Asegúrate de que Ollama está ejecutándose. En Mac, verifica el ícono en la barra de menú. En Windows/Linux, ejecuta ollama serve en una terminal.
Problema: Modelo muy lento o uso alto de RAM
Solución: Usa un modelo más pequeño (7B en lugar de 70B) o ajusta el parámetro num_gpu para usar más aceleración de GPU.
Problema: «out of memory» al descargar modelos
Solución: Libera espacio en disco. Los modelos 70B ocupan 40+ GB. Elimina modelos antiguos con ollama rm nombre_modelo
Problema: Respuestas de baja calidad o contradictorias
Solución: Experimenta con el parámetro temperatura (más bajo = más consistente, más alto = más creativo). También prueba modelos diferentes.
🎥 Videos recomendados
Estos videos proporcionan contexto adicional sobre cómo instalar y usar Ollama:
Ollama Setup Guide – Instalación Completa
Run AI Locally Tutorial – IA en tu PC
Preguntas frecuentes sobre Ollama
¿Es Ollama realmente gratis?
Completamente. Ollama es open source y gratuito. Solo pagas por el hardware (tu ordenador). No hay cuotas, suscripciones, ni costes ocultos. Descarga los modelos una sola vez y úsalos ilimitadamente.
¿Qué diferencia hay entre usar Ollama y ChatGPT?
Ollama ejecuta modelos localmente en tu máquina (privado, sin conexión, gratis pero menos potente). ChatGPT usa servidores de OpenAI (más potente, requiere conexión, de pago, pero tus datos van al servidor). Ollama es mejor para privacidad y desarrollo; ChatGPT es mejor para máxima calidad de respuesta.
¿Puedo usar Ollama para aplicaciones comerciales?
Sí. La mayoría de modelos (Llama, Mistral, Phi) están disponibles bajo licencias permisivas para uso comercial. Revisa la licencia específica de cada modelo. Ollama es código open source bajo licencia MIT, completamente libre para uso comercial.
Articulo relacionado: Canva Pro vs Midjourney 2026: cuál elegir para crear contenido con IA [comparativa completa]
Explora nuestra red AI Media: