El sueño del pibe: tokens infinitos

Cuando éramos chicos y nos preguntaban qué le pediríamos al genio de la lámpara si pudiéramos pedir una sola cosa, muchos respondíamos lo mismo: “deseos infinitos”. Una jugada maestra. Trampa creativa.

Cada vez que abría una conversación con un modelo me cruzaba esa misma idea, en versión adulta: “tengo que tener un LLM corriendo en mi máquina y olvidarme de los tokens”. Tokens infinitos. Privacidad total. Sin contar palabras, sin renovar licencias, sin pedir permiso a nadie. Una utopía.

Lo intenté.

Lo primero que descubrí es que no se trataba de instalar un programa. Se trataba de armar una computadora distinta. Un modelo local tiene que vivir entero dentro de la GPU — la placa de video. La GPU es el chip que en una computadora normal mueve los videojuegos y el video; en una pensada para IA, es lo que ejecuta el modelo. Cuanto más grande el modelo, más memoria de GPU necesita.

Así que primero tuve que conseguir una máquina con una placa de video decente. La conseguí prestada en mi trabajo — sin eso, el experimento no hubiera arrancado. Cuando finalmente la tuve enchufada y andando, sentí que la mitad del trabajo ya estaba hecho.

Spoiler: la mitad del trabajo todavía no había empezado.

Probé más de diez modelos. Ninguno entraba completo en la GPU. Todos terminaban apoyándose en la RAM de la computadora, y esa derivación los volvía desesperantemente lentos. Los primeros que instalé tardaban unos 45 segundos en responder “hola, Bocha” (así llamé a mi asistente local). Cuarenta y cinco segundos para un saludo.

Empecé a buscar modelos cada vez más livianos para ganar velocidad. Bajé un escalón, otro, otro más. En algún momento di con uno que respondía rápido. Le hice una prueba mínima: “¿cuántas copas Libertadores tiene el Club Atlético Independiente?”.

Respondió con total seguridad. Estaba mal.

Cero confianza. No me servía para nada real.

La conclusión: para tener una IA local que funcione bien, hay que invertir una carretilla de dinero en una placa de video más grande (y el resto de la computadora acorde) — justo en el momento en que el costo de este tipo de chips está en las nubes.

Volví a la licencia paga.

Por la cantidad de horas que mi asistente trabaja por día — mientras lo uso, y mientras corre tareas solo — el costo es ridículo. Menos que una suscripción de Disney+ y Netflix juntas.

Comentarios