La factura invisible de la IA: tokens, contexto y presupuestos que no cuadran

8 de junio de 2026 16 min de lectura

Durante meses, muchas empresas han mirado la IA como una suscripción. Veinte euros al mes por aquí. Treinta dólares por usuario allí. Una licencia de Copilot. Una cuenta de Claude. Un plan de ChatGPT. Algo asumible, casi menor, comparado con el coste de un equipo técnico, una agencia o un proveedor de software. Y entonces llega la sorpresa:

Una persona de marketing usa ChatGPT de forma intensiva y no nota demasiado el límite. Otra prueba Claude para trabajar con documentos largos, o un equipo técnico empieza a usar Claude Code, Cursor, GitHub Copilot o Replit Agent, y de pronto la sensación cambia. Las respuestas se cortan. El uso se agota. Aparecen créditos, límites, consumos, facturación por uso o avisos que nadie había metido en el Excel inicial.

La pregunta ya no es “qué herramienta de IA contratamos”.

La pregunta empieza a ser otra: qué tipo de consumo estamos abriendo dentro de la empresa, quién lo va a disparar y con qué control.

Antes de hablar de costes: qué es un token

Un token es una unidad de texto que el modelo usa para leer, procesar y generar una respuesta. No equivale siempre a una palabra. Puede ser una palabra corta, una parte de una palabra, un signo de puntuación, un espacio o un fragmento de código.

OpenAI lo explica de forma bastante sencilla: un token puede ser tan pequeño como un carácter o tan largo como una palabra completa, y el cálculo depende del idioma, del contexto y del modelo. Como regla orientativa en inglés, 1 token son unos 4 caracteres, 100 tokens son unas 75 palabras y un párrafo suele rondar los 100 tokens.

La trampa empieza cuando alguien traduce mentalmente “tokens” como “palabras”. No funciona así.

Una frase corta consume poco. Una conversación larga consume más. Un PDF entero consume mucho más. Veinte PDFs, una transcripción de una reunión, instrucciones internas, histórico de decisiones y una petición compleja al final ya no son “una pregunta a la IA”. Son una carga de contexto.

Y ese contexto cuesta.

Los límites de la IA no se miden en páginas, sino en contexto

Cuando una empresa pregunta si una IA “aguanta documentos largos”, en realidad está preguntando por su ventana de contexto.

La ventana de contexto es la cantidad de información que el modelo puede tener delante a la vez para responder. Por eso los proveedores presumen de millones de tokens. No es solo marketing técnico. Es una forma de decir: “este modelo puede mirar más información antes de contestar”.

Google, por ejemplo, empezó a empujar mucho esta idea con Gemini 1.5 Pro y su ventana de 1 millón de tokens. Después abrió el acceso a 2 millones de tokens para Gemini 1.5 Pro en la API.

Para dirección, la lectura útil no es “qué impresionante”. La lectura útil es otra.

Si una herramienta puede procesar cada vez más contexto, también puede consumir cada vez más contexto. Y cuando el uso pasa de una prueba aislada a un equipo entero trabajando con documentación, código, correos, actas, presentaciones y datos, la factura deja de parecer una licencia plana.

No es lo mismo pedirle a una IA que reformule un email que pedirle que revise un repositorio, entienda una arquitectura, encuentre un error, proponga cambios, vuelva a probar, vuelva a fallar y vuelva a intentarlo.

La segunda tarea tiene otra naturaleza.

La suscripción mensual engaña: no todo el uso pesa igual

Aquí conviene separar dos cosas que muchas empresas mezclan.

Una cosa son las suscripciones tipo ChatGPT Plus, Claude Pro, Microsoft 365 Copilot o Gemini integrado en Workspace. Otra cosa es el consumo vía API, agentes, herramientas de programación o plataformas que trasladan parte del coste real del modelo al usuario.

ChatGPT Plus cuesta 20 dólares al mes y OpenAI indica expresamente que el uso de API va separado y se factura de forma independiente. Claude Pro cuesta 20 dólares al mes si se paga mensualmente e incluye Claude Code, pero Anthropic también deja claro que aplican límites de uso. El plan Max parte de 100 dólares al mes y ofrece 5 o 20 veces más uso que Pro.

Microsoft 365 Copilot Business funciona con otra lógica: precio por usuario. En la página oficial aparece a 25,20 dólares por usuario y mes con compromiso mensual, o 21 dólares por usuario y mes en suscripción anual, con promoción temporal a 18 dólares. Pero Copilot Chat también permite usar agentes personalizados con facturación medida en algunos casos.

Luego está la API. Ahí ya no estamos hablando de “me cuesta X al mes”. Estamos hablando de entrada, salida, tokens cacheados, ventanas largas, prioridad, herramientas, llamadas externas y modelos distintos.

Tabla comparativa IA Herramientas

(A fecha de junio de 2026, las diferencias son claras)

Proveedor / modelo	Entrada	Salida	Lectura para dirección

OpenAI GPT-5.5, contexto corto

5 $ / 1M tokens

30 $ / 1M tokens

La salida pesa mucho más que la entrada. Si el modelo genera mucho, el coste sube.

OpenAI GPT-5.5, contexto largo

10 $ / 1M tokens

45 $ / 1M tokens

Meter más contexto puede duplicar parte del coste.

OpenAI Codex GPT-5.3

1,75 $ / 1M tokens

14 $ / 1M tokens

La programación ya tiene tarifa específica. No es el mismo uso que un chat general.

Claude Sonnet 4.6

3 $ / 1M tokens

15 $ / 1M tokens

Muy usado para trabajo técnico y análisis. Coste relevante en salida.

Claude Opus 4.8

5 $ / 1M tokens

25 $ / 1M tokens

Modelo más caro, pensado para tareas más exigentes.

Gemini 2.5 Pro

1,25 $ o 2,50 $ / 1M tokens según tamaño del prompt

10 $ o 15 $ / 1M tokens

Google diferencia el precio si el prompt supera 200K tokens.

Gemini 2.5 Flash

0,30 $ / 1M tokens de texto, imagen o vídeo

2,50 $ / 1M tokens

Mucho más barato para usos de volumen, pero no sirve igual para todo.

La conclusión operativa es incómoda: no existe “el coste de la IA”: Existe el coste de cada modelo, de cada tarea, de cada modalidad, de cada ventana de contexto y de cada patrón de uso.

El salto real llega con programación, razonamiento y agentes

En marketing, comunicación o dirección, gran parte del uso sigue siendo conversacional: redactar, revisar, comparar, resumir, preparar una reunión, analizar un documento.

Puede ser intensivo. Puede consumir mucho. Pero suele tener una lógica más visible: yo pido, la herramienta responde. En programación cambia el patrón.

Una herramienta de IA para código no solo contesta. Puede leer archivos, revisar dependencias, analizar errores, editar, volver a probar, pedir más contexto, generar código, corregir lo anterior y seguir. Cuando entra el agente, la conversación deja de ser una línea entre persona y modelo. Se convierte en una secuencia de trabajo.

GitHub lo ha explicado de forma directa al anunciar que Copilot pasa a facturación basada en uso desde el 1 de junio de 2026. Según GitHub, Copilot ha dejado de ser un asistente dentro del editor y se ha convertido en una plataforma más agentiva, capaz de ejecutar sesiones largas, iterar sobre repositorios enteros y usar modelos más recientes. La compañía reconoce que una pregunta rápida y una sesión autónoma de varias horas podían costar lo mismo al usuario, aunque la demanda de cómputo fuera muy distinta.
Cursor vivió algo parecido. En 2025 tuvo que explicar su cambio de precios porque los modelos nuevos podían gastar muchos más tokens por petición en tareas largas. La propia empresa reconoció que las tareas más difíciles podían costar un orden de magnitud más que las simples y que por eso pasaba de límites por petición a uso incluido medido a precios de API.
Replit también cambió la forma de cobrar su Agent. Pasó a un modelo basado en esfuerzo, porque las tareas complejas ya no se parecían a pequeños cambios de 0,25 dólares por checkpoint. Algunas peticiones podían implicar más tiempo, más computación y más razonamiento.

Las empresas que venden herramientas de IA para programación están moviendo precios porque el consumo real ya no cabe bien en una tarifa plana sencilla.

La trampa empresarial: querer ahorrar programadores sin gobernar el consumo

Aquí aparece la parte incómoda para muchas compañías. La IA entró en algunos comités con una promesa implícita: hacer más con menos, reducir dependencia de perfiles caros, acelerar desarrollo, recortar horas de programación, producir más contenido, resolver más rápido. Parte de esa promesa puede ser cierta. Pero solo si se gobierna bien.

Si una empresa abre herramientas de programación con IA sin decidir límites, prioridades y criterios de uso, puede cambiar un coste visible por otro menos visible. Antes pagaba horas humanas. Ahora paga licencias, consumo, revisión, seguridad, deuda técnica y supervisión.

Y no todo lo generado por IA ahorra trabajo. A veces lo desplaza.

El código hay que revisarlo. Las decisiones hay que entenderlas. Los errores hay que detectarlos. La seguridad no se delega en un agente porque el agente “parece que sabe”. En sectores regulados, esta parte no es un detalle. Es el centro de la decisión.

Un estudio reciente sobre consumo de tokens en tareas de programación agentiva apunta justo a este problema: las tareas agentivas de código pueden consumir muchísimo más que el chat de código o el razonamiento aislado, con alta variabilidad entre ejecuciones y sin que más consumo garantice siempre más precisión.

Dicho más claro: el gasto no sube solo porque haya más gente usando IA. Sube porque cada uso puede estar haciendo más trabajo interno del que el usuario ve.

Y eso cambia el presupuesto.

Qué debería decidir una empresa antes de abrir el grifo

Antes de desplegar IA en equipos técnicos, marketing, contenidos o áreas de negocio, una empresa debería hacerse preguntas menos vistosas y más útiles.

Qué tareas justifican consumo alto. No todas las tareas merecen el mejor modelo, la ventana más larga o el agente más autónomo. Hay trabajos que piden potencia. Otros piden método.

Qué perfiles pueden lanzar procesos intensivos. No es lo mismo que una persona haga consultas puntuales a que un equipo técnico ejecute agentes contra repositorios enteros. El riesgo y el coste no son comparables.

Qué límites se ponen por área, proyecto o tipo de tarea. El presupuesto de IA no debería ser una bolsa común que se descubre cuando ya se ha agotado. Tiene que haber umbrales, avisos y responsabilidad.

Qué se revisa antes de escalar. Si una prueba con IA funciona, la decisión no es “dársela a todo el mundo”. La decisión es documentar qué ha funcionado, cuánto ha costado, qué riesgo introduce y qué parte del proceso sigue necesitando criterio humano.

La IA no se presupuesta preguntando cuánto cuesta un token. Se presupuesta entendiendo qué decisiones va a delegar la empresa, cuántas veces, con qué contexto, usando qué modelo y bajo qué control. Ese es el punto que muchos Excel todavía no están recogiendo.

Cuando la canción me encaja

Cuando el uso pasa de una persona curiosa a un equipo entero trabajando con agentes, todo empieza a contar. Incluso lo que nadie había puesto en el presupuesto. ¿Que mejor forma de acabar este post que rememorando de nuevo a Depeche Mode con «Everything Counts»?

FAQs

¿Qué es un token en inteligencia artificial?

Un token es una unidad de texto que el modelo procesa para entender una petición y generar una respuesta. Puede ser una palabra, parte de una palabra, un signo, un espacio o un fragmento de código. Por eso el coste de una tarea de IA no se calcula bien contando páginas o palabras.

¿Por qué los tokens importan para una empresa?

Los tokens importan porque condicionan coste, límites de uso y capacidad de trabajo. Una consulta breve puede consumir poco. Un análisis con muchos documentos, código o instrucciones internas puede consumir mucho más. Si la empresa no lo mide, puede presupuestar la IA como licencia y descubrir tarde que el uso real va por otro lado.

¿Cuesta lo mismo usar ChatGPT, Claude, Gemini o Copilot?

No. Cada proveedor tiene planes, límites y tarifas distintas. Una suscripción mensual no funciona igual que una API, una herramienta de programación o un agente conectado a sistemas internos. Comparar solo el precio por usuario puede ser engañoso si no se analiza qué tipo de uso va a hacer cada equipo.

¿Por qué la programación con IA puede disparar más gasto?

La programación con IA puede disparar más gasto porque no siempre es una pregunta y una respuesta. Un agente puede leer archivos, revisar errores, modificar código, probar, fallar, volver a intentar y pedir más contexto. Cada ciclo consume tokens y cómputo. Por eso las herramientas de código están moviéndose hacia modelos de facturación por uso.

¿Una ventana de contexto más grande siempre es mejor?

No siempre. Una ventana de contexto grande permite trabajar con más información a la vez, pero también puede aumentar consumo, coste y latencia. La pregunta útil no es “cuántos tokens admite este modelo”, sino qué información necesita realmente para tomar una buena decisión o resolver una tarea concreta.

¿Cómo debería una empresa presupuestar la IA?

Una empresa debería presupuestar la IA por tipo de tarea, perfil de usuario, modelo usado, volumen de contexto y nivel de autonomía. No basta con multiplicar licencias por usuarios. Hay que distinguir uso conversacional, análisis documental, generación de código, agentes y llamadas a herramientas externas.

¿Qué error se comete al implantar IA en equipos técnicos?

El error habitual es abrir herramientas potentes sin decidir límites, responsabilidades y criterios de revisión. La IA puede acelerar desarrollo, pero también generar más código que revisar, más dependencias que controlar y más consumo que pagar. Sin gobierno, el ahorro prometido puede convertirse en coste invisible.

¿Qué debería revisar dirección antes de escalar agentes de IA?

Dirección debería revisar qué problema resuelve el agente, cuánto consume, qué datos toca, quién valida sus resultados y qué ocurre cuando falla. Un agente no es solo una herramienta más. Puede ejecutar cadenas largas de trabajo. Eso exige criterio previo, no entusiasmo por defecto.

Links y fuentes citadas

Conceptos básicos sobre tokens y contexto

OpenAI: qué son los tokens y cómo contarlos
Explica qué es un token, por qué no equivale siempre a una palabra y cómo se calculan de forma aproximada.
Google: Gemini 1.5 y la ventana de contexto de 1 millón de tokens
Fuente útil para explicar por qué los proveedores presumen de ventanas de contexto cada vez más grandes.

Tarifas oficiales y modelos de precio

OpenAI API Pricing
Tarifas oficiales de OpenAI por modelo, tokens de entrada, tokens de salida y tokens cacheados.
Anthropic: Claude Pricing
Página oficial de precios de Claude, incluidos planes Pro, Max, Team y Enterprise.
Anthropic Docs: precios de modelos Claude
Documentación técnica para comparar precios por millón de tokens en los modelos de Claude.
Google Gemini API Pricing
Tarifas oficiales de Gemini API, con diferencias entre modelos Pro, Flash, entrada, salida y contexto largo.
Microsoft 365 Copilot: planes y precios
Fuente oficial para distinguir Copilot como licencia por usuario de otros usos medidos, como agentes personalizados.

Herramientas de programación y agentes citadas

GitHub Copilot: cambio hacia facturación basada en uso
Ejemplo claro de cómo una herramienta de programación con IA pasa de una lógica de suscripción a una lógica de créditos y consumo.
Cursor: explicación del cambio de precios de junio de 2025
La propia empresa explica que las tareas más difíciles pueden consumir muchos más tokens que las peticiones simples.
Replit Agent: introducción del pricing basado en esfuerzo
Refuerza la idea central del post: una tarea pequeña y una tarea compleja no deberían costar lo mismo si el agente consume más tiempo y computación.
Replit: recap del pricing basado en esfuerzo
Complementa el enlace anterior y explica cómo calculan cargos cuando el agente trabaja en tareas más exigentes.

Investigación y datos que refuerzan la tesis

How Do AI Agents S pend Your Money? Estudio sobre consumo de tokens en tareas de programación agentiva. Es útil porque analiza por qué los agentes pueden consumir mucho más que un chat de código convencional.
Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models Paper interesante para matizar que el coste por tokens también puede variar según idioma, tokenización y modelo.
Practices and Challenges of Using GitHub Copilot: An Empirical Study Estudio sobre el uso real de GitHub Copilot, sus beneficios y limitaciones. Refuerza la parte del post donde se explica que el código generado por IA sigue necesitando revisión humana.
El coste oculto de la IA. Según una encuesta de KPMG, solo el 26% de las empresas tiene una visión completa de sus costes de IA; el 50% solo ve una parte y el 22% no los ve o los descubre tras la factura.
La métrica que los directores financieros tienen dificultades para seguir: el uso de la IA. Según una nueva encuesta, solo el 26% de las empresas afirma tener una visión integral de sus costes de IA.

Lectura complementaria sobre agentes y costes

GitHub Docs: uso y facturación basada en consumo para Copilot
Complementa el anuncio corporativo de GitHub con más detalle operativo sobre créditos, multiplicadores y cambios de facturación.
Google Cloud: precios de la plataforma de agentes Gemini Enterprise
Fuente útil para ver que, cuando la IA entra en agentes empresariales, aparecen capas de coste distintas al simple “precio por usuario”.

Descarga la guía con 95 herramientas IA