|

Tutorial: Instalar y Usar Ollama para Ejecutar IA en Tu Propio Ordenador

Tutorial: Instalar y Usar Ollama para Ejecutar IA en Tu Propio Ordenador
8 min de lectura
🔄 Actualizado: 11 de febrero de 2026

No necesitas pagar suscripciones mensuales ni enviar tus datos a servidores de terceros. Con Ollama puedes ejecutar modelos de IA de nivel profesional directamente en tu Mac, PC o Linux. Todo gratis, todo local, todo privado. Este tutorial te guia paso a paso para instalar y usar Ollama en tu ordenador.

Publicidad

Que es Ollama

Ollama es una herramienta open source que permite descargar y ejecutar modelos de lenguaje (LLMs) en tu propio ordenador. Funciona como un servidor local que puedes usar desde la terminal, una interfaz web, o conectar con tus aplicaciones.

A diferencia de ChatGPT o Claude, Ollama no requiere conexión a internet constante ni envía tus datos a servidores externos. Todo se procesa localmente en tu máquina, garantizando privacidad total y control absoluto sobre tu información.

Como elaboramos nuestras guias

En La Guia de la IA investigamos cada tema a fondo, probamos las herramientas de primera mano y contrastamos con fuentes especializadas. Nuestro objetivo es darte informacion fiable y practica. Conoce nuestra metodologia.

Los modelos disponibles incluyen Llama 3.1 (Meta), Mistral, Phi-3 (Microsoft), CodeLlama, Gemma, y muchos mas. Todos gratuitos y sin limites de uso. La comunidad de Ollama crece constantemente y nuevos modelos se añaden regularmente a su biblioteca oficial.

Prueba ChatGPT Plus — el modelo más avanzado de OpenAI

Desde $20/mes

Probar ChatGPT Plus Gratis →

Crea contenido 10x más rápido con Jasper AI

Desde $49/mes · 30% comisión recurrente

Probar Jasper AI Gratis →

Tutorial: Instalar y Usar Ollama para Ejecutar IA en Tu Propio Ordenador
Ilustracion del articulo

Ventajas de ejecutar IA localmente con Ollama

Publicidad

Privacidad total: Ningún dato sale de tu ordenador. No hay registro de conversaciones, no hay análisis de uso, no hay perfiles de usuario. Tu información permanece completamente bajo tu control.

Sin costes de suscripción: Una vez instalado Ollama, puedes usar los modelos de manera ilimitada sin pagar nada. No hay cuotas mensuales, ni limitaciones de requests, ni modelos premium.

Disponibilidad offline: Descarga un modelo y úsalo sin conexión a internet. Ideal para trabajar en aviones, trenes o lugares sin cobertura.

Personalización: Crear modelos personalizados con tus propios datos y ajustes. Optimizar el rendimiento según tus necesidades específicas.

Velocidad: Sin latencia de red. El tiempo de respuesta depende solo de tu hardware local, no de servidores lejanos.

Requisitos minimos

  • Mac con Apple Silicon (M1/M2/M3/M4): 8 GB RAM para modelos pequeños (7B), 16 GB para modelos medianos (13B), 32 GB+ para modelos grandes (70B). Los Mac son las mejores máquinas para IA local gracias al chip unificado y su arquitectura optimizada.
  • PC con GPU Nvidia: 8 GB VRAM (RTX 3070+) para modelos 7B, 24 GB VRAM (RTX 4090) para modelos 70B. La compatibilidad con CUDA acelera significativamente la ejecución.
  • PC con GPU AMD: 8 GB VRAM para modelos 7B. Requiere ROCm para optimización de rendimiento en Ollama.
  • PC solo CPU: Funciona pero es lento. 16 GB RAM mínimo para modelos 7B, 32 GB para modelos más grandes. La ejecución por CPU es viable para pruebas pero no para uso productivo.
  • Linux: Cualquier distribución moderna (Ubuntu 20.04+, Fedora, Debian). Los requisitos de hardware son similares a Windows y Mac.

Paso 1: Instalar Ollama

Mac: Descarga desde ollama.com y arrastra a Aplicaciones. O desde terminal: brew install ollama

Linux: curl -fsSL https://ollama.com/install.sh | sh

Windows: Descarga el instalador desde ollama.com. El instalador configura automáticamente las variables de entorno y crea un acceso directo en el escritorio.

Verifica la instalación ejecutando en terminal: ollama --version. Deberías ver un número de versión (ej: ollama version 0.1.x).

Tutorial: Instalar y Usar Ollama para Ejecutar IA en Tu Propio Ordenador
Ilustracion del articulo

Paso 2: Descargar tu primer modelo

Publicidad

Abre la terminal y ejecuta:

ollama pull llama3.1

Esto descarga Llama 3.1 de 8B parámetros (~4.7 GB). Tarda unos minutos según tu conexión. Otros modelos recomendados para instalar y usar Ollama según tu caso de uso:

  • ollama pull mistral — Rápido y eficiente, ideal para chat general y respuestas inmediatas
  • ollama pull neural-chat — Optimizado para diálogos naturales y conversación fluida
  • ollama pull codellama — Especializado en generación de código y explicaciones técnicas
  • ollama pull llama3.1:70b — Versión grande con mejor comprensión, necesita 40 GB RAM/VRAM
  • ollama pull phi-3 — Modelo ligero de Microsoft, excelente relación rendimiento/tamaño
  • ollama pull gemma — Modelo de Google, buena alternativa con características únicas

Puedes tener múltiples modelos instalados simultáneamente. Solo usarán espacio en disco, no en RAM. Para ver todos tus modelos instalados: ollama list

Paso 3: Chatear con el modelo

Ejecuta: ollama run llama3.1

Se abre un chat interactivo en la terminal. Escribe tu pregunta y el modelo responde localmente. Toda la inferencia ocurre en tu CPU/GPU. Ningún dato sale de tu ordenador ni se almacena en servidores remotos.

Ejemplo de uso:

>>> ¿Cuál es la capital de España?

La capital de España es Madrid. Es la ciudad más grande del país y centro político, económico y cultural.

Para salir del chat escribe /bye o presiona Ctrl+C. El modelo permanece en memoria durante la sesión para respuestas más rápidas si continúas usando Ollama.

Paso 4: Interfaz grafica (opcional pero recomendado)

Para una experiencia tipo ChatGPT pero local, instala Open WebUI:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

Abre http://localhost:3000 en tu navegador y tendrás una interfaz idéntica a ChatGPT pero conectada a tus modelos locales de Ollama. La interfaz incluye historial de conversaciones, búsqueda, y capacidad de cambiar entre modelos con un click.

Alternativas de interfaz: Si prefieres algo más ligero, prueba Ollama Web UI o Lobe Chat. Todas son gratuitas y se conectan directamente a tu instancia local de Ollama.

Paso 5: Usar Ollama desde tus apps

Ollama expone una API compatible con la de OpenAI en http://localhost:11434. Esto significa que cualquier aplicación que funcione con la API de OpenAI puede funcionar con Ollama cambiando solo la URL base y la clave de API.

Aplicaciones compatibles:

  • Continue (VS Code): Autocomplete y chat integrados directamente en tu editor
  • LibreChat: Interfaz multimodelo que funciona con Ollama
  • Langchain: Para desarrolladores que construyen aplicaciones de IA
  • Obsidian con plugins: Integra IA en tus notas
  • Aplicaciones personalizadas: Usa la API REST de Ollama en cualquier aplicación que desarrolles

Ejemplo de request API: curl http://localhost:11434/api/generate -d '{"model":"llama3.1","prompt":"Hola mundo"}'

Rendimiento real y comparativas

En un MacBook Pro M4 con 32 GB de RAM, Llama 3.1 8B genera unas 40-50 tokens por segundo — prácticamente instantáneo para la mayoría de respuestas. El modelo 70B genera unos 8-12 tokens por segundo — más lento pero usable para tareas complejas.

Comparativa de velocidad según hardware:

  • Mac M3 Pro (18GB): Llama 3.1 8B = 25-35 tokens/seg
  • RTX 4090 (24GB VRAM): Llama 3.1 70B = 50-80 tokens/seg
  • RTX 3070 (8GB VRAM): Llama 3.1 7B = 15-25 tokens/seg
  • CPU solo (16GB RAM): Llama 3.1 7B = 2-5 tokens/seg

La calidad de Llama 3.1 8B no llega a GPT-4 o Claude 3, pero es sorprendentemente buena para resúmenes, redacción, traducción y programación básica. Para el 70% de las tareas cotidianas de procesamiento de texto, es más que suficiente. Y es completamente gratis y privado.

Configuración avanzada de Ollama

Variables de entorno: Puedes optimizar Ollama estableciendo variables antes de ejecutarlo:

  • OLLAMA_NUM_GPU — Número de capas a ejecutar en GPU (0 = solo CPU)
  • OLLAMA_NUM_THREAD — Número de threads de CPU a usar
  • OLLAMA_MODELS — Directorio personalizado para almacenar modelos

Importar modelos personalizados: Puedes crear un Modelfile para personalizar un modelo base con instrucciones específicas, sistema prompt customizado, y parámetros optimizados. Ejemplo:

FROM llama3.1
SYSTEM "Eres un experto en programación Python"
PARAMETER temperature 0.7

Gestión de memoria: Ollama mantiene los modelos en memoria entre requests para acelerar respuestas. Puedes configurar cuánto tiempo mantener modelos cargados antes de descargarlos automáticamente.

Casos de uso practicos

Escritura y redacción: Genera borradores, resume textos largos, mejora gramática y estilo. Ideal para blogueros, periodistas y creadores de contenido.

Programación: Usa CodeLlama para generar funciones, explicar código y debuggear. Perfectamente integrado con tu editor de código favorito.

Análisis de datos: Procesa grandes volúmenes de texto privado sin enviarlos a servidores externos. Crítico para industrias con requisitos de confidencialidad.

Educación: Crea un tutor personal que funciona offline. Explica conceptos, resuelve problemas, y adapta el nivel de dificultad.

Desarrollo de chatbots: Construye chatbots especializados para tu negocio sin dependencias de APIs externas ni costes recurrentes.

Solución de problemas comunes

Problema: «Connection refused» al intentar acceder a localhost:11434
Solución: Asegúrate de que Ollama está ejecutándose. En Mac, verifica el ícono en la barra de menú. En Windows/Linux, ejecuta ollama serve en una terminal.

Problema: Modelo muy lento o uso alto de RAM
Solución: Usa un modelo más pequeño (7B en lugar de 70B) o ajusta el parámetro num_gpu para usar más aceleración de GPU.

Problema: «out of memory» al descargar modelos
Solución: Libera espacio en disco. Los modelos 70B ocupan 40+ GB. Elimina modelos antiguos con ollama rm nombre_modelo

Problema: Respuestas de baja calidad o contradictorias
Solución: Experimenta con el parámetro temperatura (más bajo = más consistente, más alto = más creativo). También prueba modelos diferentes.

🎥 Videos recomendados

Estos videos proporcionan contexto adicional sobre cómo instalar y usar Ollama:

Ollama Setup Guide – Instalación Completa

Run AI Locally Tutorial – IA en tu PC

Preguntas frecuentes sobre Ollama

¿Es Ollama realmente gratis?
Completamente. Ollama es open source y gratuito. Solo pagas por el hardware (tu ordenador). No hay cuotas, suscripciones, ni costes ocultos. Descarga los modelos una sola vez y úsalos ilimitadamente.

¿Qué diferencia hay entre usar Ollama y ChatGPT?
Ollama ejecuta modelos localmente en tu máquina (privado, sin conexión, gratis pero menos potente). ChatGPT usa servidores de OpenAI (más potente, requiere conexión, de pago, pero tus datos van al servidor). Ollama es mejor para privacidad y desarrollo; ChatGPT es mejor para máxima calidad de respuesta.

¿Puedo usar Ollama para aplicaciones comerciales?
Sí. La mayoría de modelos (Llama, Mistral, Phi) están disponibles bajo licencias permisivas para uso comercial. Revisa la licencia específica de cada modelo. Ollama es código open source bajo licencia MIT, completamente libre para uso comercial.

Articulo relacionado: Canva Pro vs Midjourney 2026: cuál elegir para crear contenido con IA [comparativa completa]

La Guia de la IA

Equipo La Guía de la IA

Guias claras y accesibles sobre inteligencia artificial. Explicamos conceptos complejos de forma sencilla para que cualquier persona pueda entender y aprovechar la IA.

Publicaciones Similares