Saltar al contenido

¿Cuánta RAM y VRAM necesitas para correr un LLM local?

Cuanta RAM VRAM necesitas LLM local: Infografía de cuánta VRAM necesita cada modelo LLM local en 2026

Quieres correr un modelo de IA en tu propia laptop — sin nube, sin suscripciones, sin límites de tokens. La buena noticia: en 2026 es perfectamente viable. La mala: si no tienes la RAM o la VRAM correcta, el modelo directamente no arranca, o lo hace tan lento que no sirve de nada. Esta guía te dice exactamente cuánta memoria necesitas según el modelo que quieras correr.

Respuesta rápida: Para empezar con modelos útiles (7B–8B parámetros) necesitas 8 GB de VRAM en GPU dedicada, o 16 GB de memoria unificada en Apple Silicon. Para modelos serios de 32B necesitas 24 GB de VRAM o 32 GB de memoria unificada. Para correr modelos de 70B en local necesitas al menos 48–64 GB. Los detalles por modelo y herramienta están abajo.

Por qué la VRAM es el cuello de botella real de los LLMs locales

Cuando corres un LLM en local, el modelo completo tiene que caber en memoria mientras genera texto. No funciona como un videojuego, donde los datos entran y salen según se necesitan. Cada token que genera el modelo requiere pasar por todos los pesos del modelo, y esos pesos tienen que estar residentes en memoria en todo momento.

Si el modelo no cabe en VRAM, pasan dos cosas: o no arranca, o parte del modelo se descarga a la RAM del sistema. Ese segundo escenario se llama CPU offloading, y es un desastre de rendimiento: un modelo de 7B que corre a 45 tokens por segundo en GPU puede caer a 8 tokens por segundo con offloading parcial. La diferencia es la que hay entre una conversación fluida y una que tarda 30 segundos en responderte.

La RAM del sistema (no la VRAM) importa cuando haces CPU offloading o cuando el modelo supera lo que cabe en GPU. Para la mayoría de usuarios con GPU dedicada, la RAM del sistema importa menos que la VRAM — pero si no tienes GPU, la RAM del sistema es todo lo que tienes.

La fórmula para calcular cuánta VRAM necesita un modelo

Hay una regla base que funciona para estimar el uso de VRAM según el tamaño del modelo y la cuantización que uses:

  • FP16 (precisión completa): parámetros en miles de millones × 2 GB. Un modelo de 7B necesita ~14 GB.
  • Cuantización Q8: parámetros × 1 GB. Un modelo de 7B necesita ~7 GB.
  • Cuantización Q4 (el estándar habitual): parámetros × 0.5–0.7 GB. Un modelo de 7B necesita ~4–5 GB.

A ese número hay que sumarle un 10–20% extra para el KV cache — la memoria que el modelo usa para recordar el contexto de la conversación. Cuanto más larga sea la ventana de contexto que uses, más KV cache necesita.

¿Qué es la cuantización? Es la técnica que comprime los pesos del modelo de 16 bits a representaciones de 4 u 8 bits. Reduce el uso de memoria entre un 50% y un 75% a cambio de una pérdida mínima de calidad. Q4_K_M es el formato más habitual para uso local y en la práctica la diferencia de calidad respecto a FP16 es imperceptible para la mayoría de tareas.

Tabla de VRAM por modelo y cuantización — 2026

Esta es la referencia práctica para los modelos más usados en Ollama y LM Studio en junio de 2026, todos en cuantización Q4_K_M salvo que se indique:

ModeloParámetrosVRAM Q4_K_MVRAM mínima GPUApple Silicon mínimo
Llama 3.2 1B1B~0.8 GBCualquier GPU / CPU8 GB
Qwen3 0.6B0.6B~0.5 GBCualquier GPU / CPU8 GB
Llama 3.1 8B8B~4.9 GB8 GB VRAM16 GB
Qwen3 8B8B~5.2 GB8 GB VRAM16 GB
Gemma 4 12B12B~7.6 GB8 GB VRAM (justo)16 GB
Phi-4 14B14B~8.5 GB12 GB VRAM16 GB
Qwen3 14B14B~9 GB12 GB VRAM16 GB
Gemma 4 27B27B~17 GB24 GB VRAM32 GB
Qwen3 32B32B~20 GB24 GB VRAM32 GB
Llama 3.3 70B70B~42 GB48 GB VRAM (dual GPU)64 GB
DeepSeek-R1 70B70B~42 GB48 GB VRAM (dual GPU)64 GB

Nota sobre modelos MoE (Mixture of Experts): modelos como Qwen3 235B-A22B tienen muchos más parámetros totales pero solo activan una fracción por token. En Q4, el Qwen3 235B-A22B necesita ~140 GB de VRAM en total pero solo ~15 GB activos por inferencia — no sirve para laptops, pero es útil saberlo si comparas números en foros.

¿Cuánta VRAM tiene tu laptop? Guía por GPU

Si tienes una laptop con GPU NVIDIA dedicada, aquí está la VRAM disponible y qué modelos puedes correr de forma fluida:

GPU laptopVRAMModelos viables (Q4_K_M)Velocidad aprox.
RTX 40506 GBLlama 3.1 8B (justo), Qwen3 8B (justo)~15–20 tok/s
RTX 40608 GBLlama 3.1 8B, Qwen3 8B, Gemma 4 12B~30–40 tok/s
RTX 407012 GBTodo lo anterior + Phi-4 14B, Qwen3 14B~40–55 tok/s
RTX 408012 GBIgual que RTX 4070 (más rápido)~55–70 tok/s
RTX 507012 GBHasta 14B fluido, 32B con offloading~60–80 tok/s
RTX 508016 GBHasta 27B fluido, 32B con margen~80–100 tok/s

La RTX 4060 con 8 GB es el punto de entrada real para LLMs locales útiles en 2026. Con ella corres Llama 3.1 8B y Qwen3 8B a velocidad conversacional sin problema. Si quieres modelos de 14B o superior, necesitas al menos 12 GB de VRAM (RTX 4070 en laptops).

¿Buscas una laptop con RTX 4060 o superior para correr LLMs? Consulta nuestra guía de mejores laptops para inteligencia artificial con recomendaciones actualizadas a 2026 por presupuesto → ver opciones en Amazon USA | ver en Amazon España

Apple Silicon: la memoria unificada como VRAM

En los chips Apple M-series, la RAM y la VRAM son la misma memoria física — lo que Apple llama memoria unificada. Esto cambia completamente el cálculo respecto a las laptops Windows, porque toda la memoria disponible es accesible para el modelo sin penalización.

Chip AppleMemoria unificadaModelos viablesVelocidad aprox. (Ollama/MLX)
M4 (MacBook Air base)16 GBLlama 3.1 8B, Qwen3 8B, Gemma 4 12B~25–35 tok/s
M4 (MacBook Air 16 GB)16 GBIgual, con contextos más largos~25–35 tok/s
M4 Pro24–48 GBHasta 32B fluido con 48 GB~40–60 tok/s
M4 Max36–128 GBHasta 70B con 64 GB+~50–80 tok/s

La ventaja clave de Apple Silicon para LLMs es el ancho de banda de memoria, que es muy superior al de cualquier laptop Windows. El M4 Max con 128 GB puede correr modelos de 70B parámetros con fluidez real — algo que en Windows requeriría una configuración de dos GPUs de gama alta.

La desventaja: Apple Silicon no soporta CUDA. Si tu flujo de trabajo depende de librerías que solo funcionan con NVIDIA (algunos entornos de fine-tuning, TensorFlow con GPU específico), necesitas Windows o Linux con NVIDIA. Para inferencia pura con Ollama o LM Studio, Apple Silicon es excelente.

¿Y si no tienes GPU dedicada? CPU offloading explicado

Si tu laptop solo tiene gráficos integrados, puedes correr LLMs igual — pero usando la RAM del sistema en lugar de VRAM. Herramientas como Ollama y LM Studio soportan ejecución en CPU. La experiencia es más lenta pero funcional para modelos pequeños.

  • 16 GB RAM del sistema: puedes correr modelos de 1B–3B en CPU con velocidad aceptable (5–10 tokens por segundo). Suficiente para ver cómo funciona la IA local.
  • 32 GB RAM del sistema: modelos de 7B–8B en CPU a ~5–8 tok/s. Lento para conversación fluida, pero funcional para tareas puntuales.
  • 64 GB RAM del sistema: modelos de 14B–32B en CPU. Muy lento (~2–5 tok/s) — solo recomendable si no hay alternativa.

El CPU offloading parcial (cuando el modelo no cabe en VRAM y parte se mueve a RAM del sistema) es el peor escenario: el modelo corre, pero a velocidad de CPU aunque tengas GPU. Si tienes 8 GB de VRAM y tratas de correr un modelo de 14B, el rendimiento se desplomará. La solución correcta no es más CPU — es menos modelo o más VRAM.

Cuánta RAM del sistema necesitas según tu GPU

La RAM del sistema importa incluso si tienes buena GPU. Aquí la guía práctica:

  • GPU con 8 GB VRAM → 16 GB RAM sistema mínimo, 32 GB recomendado. El sistema operativo y las aplicaciones en segundo plano consumen RAM. Con 16 GB vas justo; con 32 GB tienes margen.
  • GPU con 12 GB VRAM → 32 GB RAM sistema. Si haces CPU offloading de capas de modelos grandes, la RAM del sistema se convierte en extensión de la VRAM.
  • GPU con 16–24 GB VRAM → 32–64 GB RAM sistema. Para modelos de 70B con offloading parcial, necesitas RAM del sistema para complementar la VRAM.

Una cosa que poca gente menciona: la velocidad de la RAM también importa en la inferencia en CPU. Pasar de DDR5-4800 a DDR5-6000 mejora la velocidad de generación de tokens entre un 20% y un 23% en modelos que corren sobre CPU. No es un número marginal.

Recomendación por perfil: qué hardware comprar en 2026

Resumiendo todo lo anterior en decisiones concretas de compra:

Quiero probar la IA local sin gastar mucho

Cualquier laptop con 16 GB de RAM puede correr modelos de 1B–3B en CPU con Ollama. Es lento pero funciona. Si ya tienes una laptop con esas specs, empieza ahí antes de comprar nada. Modelos recomendados: Qwen3 0.6B, Llama 3.2 1B, Phi-3 mini.

Quiero modelos útiles a velocidad conversacional

Necesitas una laptop con RTX 4060 (8 GB VRAM) o un MacBook con M4 y 16 GB. Con esto corres Llama 3.1 8B y Qwen3 8B a 30–40 tokens por segundo — velocidad de conversación real. Es el punto de entrada que realmente funciona.

Laptops con RTX 4060: ASUS ROG Zephyrus G14, Lenovo Legion Slim 5, MSI Katana 15 → ver opciones en Amazon USA | ver en Amazon España

Quiero modelos de 14B–32B para tareas exigentes

Necesitas 12 GB de VRAM (RTX 4070 en laptops) o MacBook Pro M4 Pro con 24 GB. Con 12 GB de VRAM corres Qwen3 14B y Phi-4 fluidamente. Con 24 GB de memoria unificada en M4 Pro llegas hasta modelos de 27B sin problema.

Quiero correr modelos de 70B en local

En laptop, la única opción viable es el MacBook Pro M4 Max con 64 GB o 128 GB de memoria unificada. Con 64 GB puedes correr Llama 3.3 70B en Q4 a ~8–12 tokens por segundo. Con 128 GB vas más holgado y llegas a velocidades conversacionales. En Windows, los modelos de 70B en laptop no son viables sin sacrificar demasiada velocidad — es territorio de desktop con GPUs de 24 GB o más.

Para profundizar en las herramientas para correr estos modelos, consulta nuestra guía sobre cómo usar Ollama en laptop con requisitos detallados por modelo.

Preguntas frecuentes sobre RAM y VRAM para LLMs

¿Cuánta VRAM necesito para correr un LLM local?

El mínimo útil en 2026 es 8 GB de VRAM para GPU NVIDIA, o 16 GB de memoria unificada en Apple Silicon. Con eso corres modelos de 7B–8B parámetros en cuantización Q4 a velocidad conversacional. Con 6 GB de VRAM es posible pero muy justo — los modelos de 7B apenas caben y no queda margen para el contexto.

¿Puedo correr un LLM sin GPU, solo con RAM?

Sí, con Ollama o LM Studio en modo CPU. Con 16 GB de RAM puedes correr modelos de 1B–3B. Con 32 GB, modelos de 7B aunque lento. Es perfectamente válido para explorar la IA local o para tareas que no requieren respuesta inmediata. Para uso diario conversacional necesitas GPU.

¿Qué es mejor para LLMs: más VRAM o más RAM del sistema?

Más VRAM siempre, si tienes que elegir. La VRAM determina qué modelos puedes correr y a qué velocidad. La RAM del sistema solo entra en juego cuando el modelo no cabe en VRAM (CPU offloading), y en ese caso la velocidad cae drásticamente de todas formas. Invierte primero en VRAM; la RAM del sistema importa como complemento, no como sustituto.

¿La cuantización Q4 reduce mucho la calidad del modelo?

En la práctica, para la mayoría de tareas cotidianas (chat, resumen, código, análisis de texto), la diferencia entre Q4_K_M y FP16 es imperceptible. Los benchmarks muestran pérdidas de calidad del 1–3% en tareas de razonamiento complejo. Para uso general, Q4_K_M es el formato correcto: reduce la VRAM necesaria en ~75% con una calidad casi idéntica.

¿Qué laptop compro si quiero empezar con IA local en 2026?

Si tienes presupuesto ajustado: cualquier laptop con RTX 4060 y 16 GB de RAM del sistema (ASUS Vivobook Pro, Lenovo Legion Slim 5). Si no te importa el precio y quieres la mejor experiencia sin CUDA: MacBook Pro M4 Pro con 24 GB. Para deep learning serio con CUDA: laptop con RTX 4070 y 32 GB de RAM. Consulta la comparativa completa en nuestra guía de mejores laptops para inteligencia artificial en 2026.