DeepSeek y el Superdepor
Para mí lo más importante de todo, y la principal lección a extraer, es que los chinos entendieron perfectamente que seguir la estela de las compañías estadounidenses, empeñadas en una carrera basada en aumentar una y otra vez el tamaño de los modelos para entrenarlos con conjuntos de datos cada vez más grandes, no era una buena idea No soy un experto en fútbol, aunque me gusta verlo -mucho más jugarlo, pero en esto, incluso cuando la juventud me sostenía, siempre fui un paquete-. Aun así, me voy a permitir usar un símil futbolístico para intentar explicarles lo que creo que es la lección más importante del fenómeno DeepSeek que estamos viviendo estos días. Pero eso vendrá luego. DeepSeek es una joven compañía tecnológica China -lo que comúnmente denominamos como startup-. Acaba de publicar un modelo de lenguaje que tiene prestaciones comparables a los mejores modelos del mundo, que hasta ahora situábamos casi en exclusiva en compañías estadounidenses como OpenAI (con los modelos que subyacen a su archiconocido ChatGPT), Google (Gemini), Meta (LLaMA) y algunas otras. Hasta aquí nada especialmente sorprendente, habida cuenta de la apuesta China por liderar la IA y la gran ventaja que, junto con EE. UU., nos lleva a la UE en este ámbito. Dentro del revuelo que ha causado DeepSeek estos días, casi comparable al que provocó a finales de 2022 el anuncio de ChatGPT, hay dos cuestiones que considero especialmente sorprendentes. La primera es que el modelo de DeepSeek es gratis y además, abierto. Abierto en este caso significa que no solo puede usarse, sino modificarse. No han dado información, que yo sepa, sobre los conjuntos de datos utilizados para el entrenamiento de este modelo, que no solo es de texto, sino multimodal (permite generar imágenes, por ejemplo). De hecho, OpenAI y la mismísima Casa Blanca acusan a la compañía china de robarles los datos de modo desleal, lo que le ha permitido entrenar su modelo con mucho menos coste. Paradojas del destino, porque hace algún tiempo OpenAI reconoció en un documento presentado ante la Cámara de los Lores del Reino Unido que no podría haber realizado ChatGPT sin violar derechos de autor y The New York Times y otros medios los llevaron a juicio acusándolos de usar sus contenidos de modo ilegal para entrenar sus modelos. Al final va a resultar que DeepSeek es el Robin Hood de la IA. Por lo demás, DeepSeek hasta ha publicado los pesos o parámetros de su modelo, que son en última instancia el resultado del entrenamiento de la arquitectura neuronal de computación que subyace al mismo. También han hecho una descripción detallada de su arquitectura. En definitiva, han publicado algo así como los planos de la nave USS Enterprise de Star Trek. Pero ni esto es lo más sorprendente. Abrir los modelos es algo que podrían hacer los demás, aunque no parecen dispuestos a hacerlo. Lo realmente llamativo, y que abre una gran ventana por la que ha comenzado a entrar aire fresco, es que, según sus creadores, este modelo ha sido entrenado con un consumo de recursos que es un orden de magnitud o menos que el de sus equivalentes estadounidenses. Producir un modelo de estas características por debajo del 10% del coste de los modelos de los gigantes tecnológicos americanos no es que sea una sorpresa, es casi un milagro. Es pronto para hacer valoraciones más finas, ya que falta información, pero todo apunta a que no estamos ante un timo como el de la “fusión fría”, sino más bien ante algo comparable a los logros que también China está consiguiendo en el campo de la fisión nuclear (la denominada energía del Sol). Para mí lo más importante de todo, y la principal lección a extraer, es que los chinos entendieron perfectamente que seguir la estela de las compañías estadounidenses, empeñadas en una carrera basada en aumentar una y otra vez el tamaño de los modelos para entrenarlos con conjuntos de datos cada vez más grandes, no era una buena idea, o al menos no era la mejor idea. Meterse en esa carrera cuando no cuentas con el combustible necesario es condenarte a ir siempre a la estala de las compañías estadounidenses, y viéndoles la trasera cada vez más de lejos. En definitiva, si se trata de invertir más y más dinero para conseguir modelos más y más grandes, la suerte siempre estará del lado americano. Por eso, para no ser los eternos segundones y vista su inquebrantable ambición por liderar el cotarro, los chinos investigaron denodadamente en nuevos modelos y formas de entrenarlos. Y acertaron. Ahora sí usaré el símil futbolístico, a ver si logro explicarme mejor. Si usted quiere jugar y tener alguna opción de ganar la liga en la primera división del fútbol, pero dispone de pocos recursos, no tiene sentido que sigas la política de fichajes, de juego, de márquetin, de dirección… de los equipos de presupuestos gigantes. Aquellos que multiplican por diez veces o más la capacidad de inversión de casi
Para mí lo más importante de todo, y la principal lección a extraer, es que los chinos entendieron perfectamente que seguir la estela de las compañías estadounidenses, empeñadas en una carrera basada en aumentar una y otra vez el tamaño de los modelos para entrenarlos con conjuntos de datos cada vez más grandes, no era una buena idea
No soy un experto en fútbol, aunque me gusta verlo -mucho más jugarlo, pero en esto, incluso cuando la juventud me sostenía, siempre fui un paquete-. Aun así, me voy a permitir usar un símil futbolístico para intentar explicarles lo que creo que es la lección más importante del fenómeno DeepSeek que estamos viviendo estos días. Pero eso vendrá luego.
DeepSeek es una joven compañía tecnológica China -lo que comúnmente denominamos como startup-. Acaba de publicar un modelo de lenguaje que tiene prestaciones comparables a los mejores modelos del mundo, que hasta ahora situábamos casi en exclusiva en compañías estadounidenses como OpenAI (con los modelos que subyacen a su archiconocido ChatGPT), Google (Gemini), Meta (LLaMA) y algunas otras. Hasta aquí nada especialmente sorprendente, habida cuenta de la apuesta China por liderar la IA y la gran ventaja que, junto con EE. UU., nos lleva a la UE en este ámbito.
Dentro del revuelo que ha causado DeepSeek estos días, casi comparable al que provocó a finales de 2022 el anuncio de ChatGPT, hay dos cuestiones que considero especialmente sorprendentes. La primera es que el modelo de DeepSeek es gratis y además, abierto. Abierto en este caso significa que no solo puede usarse, sino modificarse.
No han dado información, que yo sepa, sobre los conjuntos de datos utilizados para el entrenamiento de este modelo, que no solo es de texto, sino multimodal (permite generar imágenes, por ejemplo). De hecho, OpenAI y la mismísima Casa Blanca acusan a la compañía china de robarles los datos de modo desleal, lo que le ha permitido entrenar su modelo con mucho menos coste. Paradojas del destino, porque hace algún tiempo OpenAI reconoció en un documento presentado ante la Cámara de los Lores del Reino Unido que no podría haber realizado ChatGPT sin violar derechos de autor y The New York Times y otros medios los llevaron a juicio acusándolos de usar sus contenidos de modo ilegal para entrenar sus modelos. Al final va a resultar que DeepSeek es el Robin Hood de la IA.
Por lo demás, DeepSeek hasta ha publicado los pesos o parámetros de su modelo, que son en última instancia el resultado del entrenamiento de la arquitectura neuronal de computación que subyace al mismo. También han hecho una descripción detallada de su arquitectura. En definitiva, han publicado algo así como los planos de la nave USS Enterprise de Star Trek.
Pero ni esto es lo más sorprendente. Abrir los modelos es algo que podrían hacer los demás, aunque no parecen dispuestos a hacerlo. Lo realmente llamativo, y que abre una gran ventana por la que ha comenzado a entrar aire fresco, es que, según sus creadores, este modelo ha sido entrenado con un consumo de recursos que es un orden de magnitud o menos que el de sus equivalentes estadounidenses. Producir un modelo de estas características por debajo del 10% del coste de los modelos de los gigantes tecnológicos americanos no es que sea una sorpresa, es casi un milagro. Es pronto para hacer valoraciones más finas, ya que falta información, pero todo apunta a que no estamos ante un timo como el de la “fusión fría”, sino más bien ante algo comparable a los logros que también China está consiguiendo en el campo de la fisión nuclear (la denominada energía del Sol).
Para mí lo más importante de todo, y la principal lección a extraer, es que los chinos entendieron perfectamente que seguir la estela de las compañías estadounidenses, empeñadas en una carrera basada en aumentar una y otra vez el tamaño de los modelos para entrenarlos con conjuntos de datos cada vez más grandes, no era una buena idea, o al menos no era la mejor idea. Meterse en esa carrera cuando no cuentas con el combustible necesario es condenarte a ir siempre a la estala de las compañías estadounidenses, y viéndoles la trasera cada vez más de lejos. En definitiva, si se trata de invertir más y más dinero para conseguir modelos más y más grandes, la suerte siempre estará del lado americano. Por eso, para no ser los eternos segundones y vista su inquebrantable ambición por liderar el cotarro, los chinos investigaron denodadamente en nuevos modelos y formas de entrenarlos. Y acertaron.
Ahora sí usaré el símil futbolístico, a ver si logro explicarme mejor. Si usted quiere jugar y tener alguna opción de ganar la liga en la primera división del fútbol, pero dispone de pocos recursos, no tiene sentido que sigas la política de fichajes, de juego, de márquetin, de dirección… de los equipos de presupuestos gigantes. Aquellos que multiplican por diez veces o más la capacidad de inversión de casi todos los demás. Eso siempre va a condenarte a ocupar las posiciones últimas de la tabla, si no al descenso directo. Tienes que hacer cosas distintas, como apostar por la cantera, ir a fichar antes que nadie donde los grandes todavía no están buscando, aplicar estrategias distintas de entrenamiento y posicionamiento en el campo y… ¡y yo qué voy a saber!, si ya he confesado que el fútbol no es lo mío. Por eso, y por contar con el Zorro de Arteixo como entrenador, el Superdepor ganó la liga, llegó a las semifinales de la Copa de Europa y le birló una copa al Real Madrid en su estadio el día que este celebraba su centenario. El Depor no quiso ser un Real Madrid pobre, sino que apostó por ser algo muy distinto y le salió bien. Eso sí, ni hay mal ni bien que cien años dure, y ahora todo aquello es historia.
Hacer cosas distintas nunca garantiza el éxito, pero hacer lo mismo con muchos menos recursos te condenará al fracaso. Por cierto, a ver si alguien se atreve a decir ahora eso de: “¡lo engañé como a un chino!”.