Sobre DeepSeek y el control de las exportaciones

 

Sobre DeepSeek y el control de las exportaciones

On DeepSeek and Export Controls

A few weeks ago I made the case for stronger US export controls on chips to China. Since then DeepSeek, a Chinese AI company, has managed to — at least in some respects — come close to the performance of US frontier AI models at lower cost.

Here, I won't focus on whether DeepSeek is or isn't a threat to US AI companies like Anthropic (although I do believe many of the claims about their threat to US AI leadership are greatly overstated)1. Instead, I'll focus on whether DeepSeek's releases undermine the case for those export control policies on chips. I don't think they do. In fact, I think they make export control policies even more existentially important than they were a week ago2.

Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. To be clear, they’re not a way to duck the competition between the US and China. In the end, AI companies in the US and other democracies must have better models than those in China if we want to prevail. But we shouldn't hand the Chinese Communist Party technological advantages when we don't have to.

Three Dynamics of AI Development

Antes de exponer mi argumento político, voy a describir tres dinámicas básicas de los sistemas de IA que es crucial comprender:

1.     Leyes de escalado. 

Una propiedad de la IA -que mis cofundadores y yo fuimos de los primeros en documentar cuando trabajábamos en OpenAI- es que, en igualdad de condiciones, el aumento de la formación de los sistemas de IA conduce a resultados mucho mejores en una serie de tareas cognitivas, en general. Así, por ejemplo, un modelo de 1 millón de dólares podría resolver el 20% de las tareas de codificación importantes, uno de 10 millones podría resolver el 40%, uno de 100 millones podría resolver el 60%, y así sucesivamente. Estas diferencias suelen tener enormes implicaciones en la práctica -otro factor de 10 puede corresponder a la diferencia entre el nivel de destreza de un estudiante universitario y el de un doctor-, por lo que las empresas están invirtiendo mucho en la formación de estos modelos.

2.     Desplazamiento de la curva. 

En este campo surgen constantemente ideas, grandes y pequeñas, que hacen que las cosas sean más eficaces o eficientes: puede tratarse de una mejora de la arquitectura del modelo (un retoque de la arquitectura básica Transformer que utilizan todos los modelos actuales) o simplemente una forma de ejecutar el modelo de forma más eficiente en el hardware subyacente. Las nuevas generaciones de hardware también tienen el mismo efecto. Lo que esto suele hacer es desplazar la curva: si la innovación es un «multiplicador de cómputo» (CM) 2x, entonces permite obtener un 40% en una tarea de codificación por 5M$ en lugar de 10M$; o un 60% por 50M$ en lugar de 100M$, etc. Cada empresa de IA fronteriza descubre regularmente muchos de estos CM: con frecuencia pequeños (~1,2x), a veces medianos (~2x), y de vez en cuando muy grandes (~10x). Como el valor de tener un sistema más inteligente es tan alto, este desplazamiento de la curva suele hacer que las empresas gasten más, no menos, en la formación de modelos: las ganancias en eficiencia de costes acaban dedicándose íntegramente a formar modelos más inteligentes, limitadas únicamente por los recursos financieros de la empresa. 

A la gente le atrae naturalmente la idea de que «primero algo es caro, luego se abarata», como si la IA fuera algo único de calidad constante, y cuando se abarate, utilizaremos menos chips para entrenarla. Pero lo importante es la curva de escala: cuando se desplaza, simplemente la recorremos más rápido, porque el valor de lo que hay al final de la curva es muy alto.

 . En 2020, mi equipo publicó un artículo que sugiere que el desplazamiento de la curva debido al progreso algorítmico es de ~1,68x/año. Probablemente se haya acelerado significativamente desde entonces; tampoco tiene en cuenta la eficiencia y el hardware. Yo diría que la cifra actual es de unas 4 veces al año. Aquí hay otra estimación. Los cambios en la curva de formación también desplazan la curva de inferencia y, como resultado, durante años se han producido grandes descensos en el precio manteniendo constante la calidad del modelo. Por ejemplo, Claude 3.5 Sonnet, que se lanzó 15 meses después que el GPT-4 original, supera al GPT-4 en casi todas las pruebas comparativas, a pesar de tener un precio de API ~10 veces inferior.

3. Cambio de paradigma

De vez en cuando, lo que se está escalando cambia un poco o se añade un nuevo tipo de escalado al proceso de entrenamiento. De 2020 a 2023, lo principal que se escalaba eran los modelos preentrenados: modelos entrenados en cantidades crecientes de texto de Internet con un poquito de otro entrenamiento encima. En 2024, la idea de utilizar el aprendizaje por refuerzo (RL) para entrenar modelos que generen cadenas de pensamiento se ha convertido en un nuevo foco de escalado. Anthropic, DeepSeek y muchas otras empresas (quizá la más notable OpenAI, que lanzó su modelo o1-preview en septiembre) han descubierto que este entrenamiento aumenta enormemente el rendimiento en determinadas tareas seleccionadas y objetivamente medibles, como las matemáticas, las competiciones de codificación y el razonamiento que se asemeja a estas tareas. Este nuevo paradigma implica empezar con el tipo ordinario de modelos preentrenados y, en una segunda etapa, utilizar la RL para añadir las habilidades de razonamiento. Es importante destacar que, dado que este tipo de RL es nuevo, todavía estamos en una fase muy temprana de la curva de escalado: la cantidad que se gasta en la segunda etapa de RL es pequeña para todos los jugadores. Gastar 1 millón de dólares en lugar de 0,1 millones es suficiente para obtener enormes ganancias. Las empresas trabajan ahora con gran rapidez para ampliar la segunda fase a cientos de millones y miles de millones, pero es fundamental comprender que nos encontramos en un «punto de cruce» único en el que existe un nuevo y potente paradigma que se encuentra al principio de la curva de ampliación y, por tanto, puede obtener grandes beneficios rápidamente.


DeepSeek's Models

The three dynamics above can help us understand DeepSeek's recent releases. About a month ago, DeepSeek released a model called "DeepSeek-V3" that was a pure pretrained model3 — the first stage described in #3 above. Then last week, they released "R1", which added a second stage. It's not possible to determine everything about these models from the outside, but the following is my best understanding of the two releases.

DeepSeek-V3 was actually the real innovation and what should have made people take notice a month ago (we certainly did). As a pretrained model, it appears to come close to the performance of4 state of the art US models on some important tasks, while costing substantially less to train (although, we find that Claude 3.5 Sonnet in particular remains much better on some other key tasks, such as real-world coding). DeepSeek's team did this via some genuine and impressive innovations, mostly focused on engineering efficiency. There were particularly innovative improvements in the management of an aspect called the "Key-Value cache", and in enabling a method called "mixture of experts" to be pushed further than it had before.

However, it's important to look closer:

·        DeepSeek does not "do for $6M5 what cost US AI companies billions". I can only speak for Anthropic, but Claude 3.5 Sonnet is a mid-sized model that cost a few $10M's to train (I won't give an exact number). Also, 3.5 Sonnet was not trained in any way that involved a larger or more expensive model (contrary to some rumors). Sonnet's training was conducted 9-12 months ago, and DeepSeek's model was trained in November/December, while Sonnet remains notably ahead in many internal and external evals. Thus, I think a fair statement is "DeepSeek produced a model close to the performance of US models 7-10 months older, for a good deal less cost (but not anywhere near the ratios people have suggested)".

·        La tesis de que usaban un modelo Opus 3.5 mayor para destilar a Sonnet estaba muy aceptada y parecería no ser cierta.

·        If the historical trend of the cost curve decrease is ~4x per year, that means that in the ordinary course of business — in the normal trends of historical cost decreases like those that happened in 2023 and 2024 — we’d expect a model 3-4x cheaper than 3.5 Sonnet/GPT-4o around now. Since DeepSeek-V3 is worse than those US frontier models — let’s say by ~2x on the scaling curve, which I think is quite generous to DeepSeek-V3 — that means it would be totally normal, totally "on trend", if DeepSeek-V3 training cost ~8x less than the current US models developed a year ago. I’m not going to give a number but it’s clear from the previous bullet point that even if you take DeepSeek’s training cost at face value, they are on-trend at best and probably not even that. For example this is less steep than the original GPT-4 to Claude 3.5 Sonnet inference price differential (10x), and 3.5 Sonnet is a better model than GPT-4. All of this is to say that DeepSeek-V3 is not a unique breakthrough or something that fundamentally changes the economics of LLM’s; it’s an expected point on an ongoing cost reduction curve. What’s different this time is that the company that was first to demonstrate the expected cost reductions was Chinese. This has never happened before and is geopolitically significant. However, US companies will soon follow suit — and they won’t do this by copying DeepSeek, but because they too are achieving the usual trend in cost reduction.

·        Both DeepSeek and US AI companies have much more money and many more chips than they used to train their headline models. The extra chips are used for R&D to develop the ideas behind the model, and sometimes to train larger models that are not yet ready (or that needed more than one try to get right). It's been reported — we can't be certain it is true — that DeepSeek actually had 50,000 Hopper generation chips6, which I'd guess is within a factor ~2-3x of what the major US AI companies have (for example, it's 2-3x less than the xAI "Colossus" cluster)7. Those 50,000 Hopper chips cost on the order of ~$1B. Thus, DeepSeek's total spend as a company (as distinct from spend to train an individual model) is not vastly different from US AI labs.

·        It’s worth noting that the "scaling curve" analysis is a bit oversimplified, because models are somewhat differentiated and have different strengths and weaknesses; the scaling curve numbers are a crude average that ignores a lot of details. I can only speak to Anthropic’s models, but as I’ve hinted at above, Claude is extremely good at coding and at having a well-designed style of interaction with people (many people use it for personal advice or support). On these and some additional tasks, there’s just no comparison with DeepSeek. These factors don’t appear in the scaling numbers.

R1, which is the model that was released last week and which triggered an explosion of public attention (including a ~17% decrease in Nvidia's stock price), is much less interesting from an innovation or engineering perspective than V3. It adds the second phase of training — reinforcement learning, described in #3 in the previous section — and essentially replicates what OpenAI has done with o1 (they appear to be at similar scale with similar results)8. However, because we are on the early part of the scaling curve, it’s possible for several companies to produce models of this type, as long as they’re starting from a strong pretrained model. Producing R1 given V3 was probably very cheap. We’re therefore at an interesting “crossover point”, where it is temporarily the case that several companies can produce good reasoning models. This will rapidly cease to be true as everyone moves further up the scaling curve on these models.

Export Controls

All of this is just a preamble to my main topic of interest: the export controls on chips to China. In light of the above facts, I see the situation as follows:

·        Existe una tendencia en curso por la que las empresas gastan cada vez más en la formación de potentes modelos de IA, incluso cuando la curva se desplaza periódicamente y el coste de formación de un determinado nivel de inteligencia del modelo disminuye rápidamente. Lo que ocurre es que el valor económico de entrenar modelos cada vez más inteligentes es tan grande que cualquier ganancia en costes se consume con creces casi de inmediato: se vuelve a verter en la fabricación de modelos aún más inteligentes por el mismo enorme coste que pensábamos gastar en un principio. En la medida en que los laboratorios estadounidenses aún no las hayan descubierto, las innovaciones en eficiencia desarrolladas por DeepSeek pronto serán aplicadas por laboratorios estadounidenses y chinos para entrenar modelos multimillonarios. Estos modelos funcionarán mejor que los modelos multimillonarios que planeaban entrenar anteriormente, pero seguirán gastando miles de millones. Esta cifra seguirá aumentando hasta que la IA sea más inteligente que casi todos los humanos en casi todas las cosas..

·        Making AI that is smarter than almost all humans at almost all things will require millions of chips, tens of billions of dollars (at least), and is most likely to happen in 2026-2027. DeepSeek's releases don't change this, because they're roughly on the expected cost reduction curve that has always been factored into these calculations.

·        This means that in 2026-2027 we could end up in one of two starkly different worlds. In the US, multiple companies will definitely have the required millions of chips (at the cost of tens of billions of dollars). The question is whether China will also be able to get millions of chips9.

    • If they can, we'll live in a bipolar world, where both the US and China have powerful AI models that will cause extremely rapid advances in science and technology — what I've called "countries of geniuses in a datacenter". A bipolar world would not necessarily be balanced indefinitely. Even if the US and China were at parity in AI systems, it seems likely that China could direct more talent, capital, and focus to military applications of the technology. Combined with its large industrial base and military-strategic advantages, this could help China take a commanding lead on the global stage, not just for AI but for everything.
    • If China can't get millions of chips, we'll (at least temporarily) live in a unipolar world, where only the US and its allies have these models. It's unclear whether the unipolar world will last, but there's at least the possibility that, because AI systems can eventually help make even smarter AI systems, a temporary lead could be parlayed into a durable advantage10. Thus, in this world, the US and its allies might take a commanding and long-lasting lead on the global stage.

·        Well-enforced export controls11 are the only thing that can prevent China from getting millions of chips, and are therefore the most important determinant of whether we end up in a unipolar or bipolar world.

·        The performance of DeepSeek does not mean the export controls failed. As I stated above, DeepSeek had a moderate-to-large number of chips, so it's not surprising that they were able to develop and then train a powerful model. They were not substantially more resource-constrained than US AI companies, and the export controls were not the main factor causing them to "innovate". They are simply very talented engineers and show why China is a serious competitor to the US.

·        DeepSeek also does not show that China can always obtain the chips it needs via smuggling, or that the controls always have loopholes. I don't believe the export controls were ever designed to prevent China from getting a few tens of thousands of chips. $1B of economic activity can be hidden, but it's hard to hide $100B or even $10B. A million chips may also be physically difficult to smuggle. It's also instructive to look at the chips DeepSeek is currently reported to have. This is a mix of H100's, H800's, and H20's, according to SemiAnalysis, adding up to 50k total. H100's have been banned under the export controls since their release, so if DeepSeek has any they must have been smuggled (note that Nvidia has stated that DeepSeek's advances are "fully export control compliant"). H800's were allowed under the initial round of 2022 export controls, but were banned in Oct 2023 when the controls were updated, so these were probably shipped before the ban. H20's are less efficient for training and more efficient for sampling — and are still allowed, although I think they should be banned. All of that is to say that it appears that a substantial fraction of DeepSeek's AI chip fleet consists of chips that haven't been banned (but should be); chips that were shipped before they were banned; and some that seem very likely to have been smuggled. This shows that the export controls are actually working and adapting: loopholes are being closed; otherwise, they would likely have a full fleet of top-of-the-line H100's. If we can close them fast enough, we may be able to prevent China from getting millions of chips, increasing the likelihood of a unipolar world with the US ahead.

Dado mi enfoque en los controles de exportación y la seguridad nacional de EE.UU., quiero ser claro en una cosa. No veo a DeepSeek como un adversario y no se trata de atacarlos en particular. En las entrevistas que han concedido, parecen investigadores inteligentes y curiosos que sólo quieren crear tecnología útil.

Pero están en deuda con un gobierno autoritario que ha cometido violaciones de los derechos humanos, se ha comportado de forma agresiva en la escena mundial y tendrá muchas más libertades en estas acciones si son capaces de igualar a EE.UU. en IA. El control de las exportaciones es una de nuestras herramientas más poderosas para evitarlo, y la idea de que el hecho de que la tecnología sea cada vez más poderosa, de que ofrezca más por su dinero, es una razón para levantar nuestros controles a la exportación no tiene ningún sentido.

Footnotes

1.     1I’m not taking any position on reports of distillation from Western models in this essay. Here, I’ll just take DeepSeek at their word that they trained it the way they said in the paper.

2.     2Incidentally, I think the release of the DeepSeek models is clearly not bad for Nvidia, and that a double-digit (~17%) drop in their stock in reaction to this was baffling. The case for this release not being bad for Nvidia is even clearer than it not being bad for AI companies. But my main goal in this piece is to defend export control policies.

3.     3To be completely precise, it was a pretrained model with the tiny amount of RL training typical of models before the reasoning paradigm shift.

4.     4It is stronger on some very narrow tasks.

5.     5This is the number quoted in DeepSeek's paper — I am taking it at face value, and not doubting this part of it, only the comparison to US company model training costs, and the distinction between the cost to train a specific model (which is the $6M) and the overall cost of R&D (which is much higher). However we also can't be completely sure of the $6M — model size is verifiable but other aspects like quantity of tokens are not.

6.     6In some interviews I said they had "50,000 H100's" which was a subtly incorrect summary of the reporting and which I want to correct here. By far the best known "Hopper chip" is the H100 (which is what I assumed was being referred to), but Hopper also includes H800's, and H20's, and DeepSeek is reported to have a mix of all three, adding up to 50,000. That doesn't change the situation much, but it's worth correcting. I'll discuss the H800 and H20 more when I talk about export controls.

7.     7Note: I expect this gap to grow greatly on the next generation of clusters, because of export controls.

8.     8I suspect one of the principal reasons R1 gathered so much attention is that it was the first model to show the user the chain-of-thought reasoning that the model exhibits (OpenAI's o1 only shows the final answer). DeepSeek showed that users find this interesting. To be clear this is a user interface choice and is not related to the model itself.

9.     9Note that China's own chips won't be able to compete with US-made chips any time soon. As I wrote in my recent op-ed with Matt Pottinger: "China's best AI chips, the Huawei Ascend series, are substantially less capable than the leading chip made by U.S.-based Nvidia. China also may not have the production capacity to keep pace with growing demand. There's not a single noteworthy cluster of Huawei Ascend chips outside China today, suggesting that China is struggling to meet its domestic needs...".

10.  10To be clear, the goal here is not to deny China or any other authoritarian country the immense benefits in science, medicine, quality of life, etc. that come from very powerful AI systems. Everyone should be able to benefit from AI. The goal is to prevent them from gaining military dominance.

11.  11Several links, as there have been several rounds. To cover some of the major actions: One, two, three, four.

12.   https://darioamodei.com/on-deepseek-and-export-controls

 

“…al final las empresas de EEUU y otras democracias deben tener modelos mejores que los de china si queremos prevalecer” Dario


 

 DeepSeek V3 no es un cambio fundamental en la economía de cómo se entrenan a los LLM's, sino una continuación de la tendencia que llevamos viendo meses.

Toda ganancia en el abaratamiento del entrenamiento de los modelos no se convierte en ahorro de computación, sino que se dedica íntegramente a entrenar modelos incluso más potentes


La revolución de la IA no es la de dar acceso a todos a un ChatGPT potente, sino que la IA va a entrar y se va a colocar en la mayoría de procesos de la sociedad. Y eso requiere de muchos chips


https://darioamodei.com/on-deepseek-and-export-controls

La primera innovación y más importante es el uso de reinforcement learning (RL), sin hacer supervisión (SFT). hasta ahora, se hacían datasets para el post-train caros y laboriosos al tener que etiquetarlos. Lo han hecho con código y matemáticas, por lo que el modelo es particularmente bueno en esas áreas. la cuestion, y lo bello del approach, es ver como generaliza a cadenas de razonamiento en otros ámbitos. por ejemplo, el modelo muestra comportamientos emergentes al hacer backtracking ("aha! moment"), o cambiar de idioma

Estos comportamientos ya se ven en o1 y gemini Thinking, por cierto -- lo nuevo es obtenerlos sin hacer SFT, y solamente con RL. Usan un mecanismo llamado GRPO, que está bien contado aquí:

The Math Behind DeepSeek: A Deep Dive into Group Relative Policy Optimization (GRPO)

The Math Behind DeepSeek: A Deep Dive into Group Relative Policy Optimization (GRPO) | by Sahin Ahmed, Data Scientist | Jan, 2025 | Medium

Para la inferencia han reducido costes usando una técnica que ya vimos en V3: la compresión del caché K/V. Se basa en un principio similar a LoRA: usar matrices de menor rango para reducir el uso de memoria (lo que puede ser excelente para largo contexto).

El resto de decisiones no es muy nuevo: MoE, multi-token inference, etc. Hay que decir una cosa: si bien usa menos recursos, es menos eficiente. llega a un MFU del 16%, mientras que implementaciones óptimas en TPU pueden llegar al 70%.

How has DeepSeek improved the Transformer architecture? | Epoch AI

(1) Ramón Medrano Llamas on X: "estos comportamientos ya se ven en o1 y gemini Thinking, por cierto -- lo nuevo es obtenerlos sin hacer SFT, y solamente con RL. usan un mecanismo llamado GRPO, que está bien contado aquí: https://t.co/n6CbKhWBam" / X

The Math Behind DeepSeek: A Deep Dive into Group Relative Policy Optimization (GRPO) | by Sahin Ahmed, Data Scientist | Jan, 2025 | Medium

¿Han usado datos sinteticos de modelos de OpenAI? si. aunque puede que indirectamente, ahora hay mucho crawling que captura datos sintéticos (y mucho spam). esta por ver si es demostrable

¿Esta el modelo censurado? no. pero la API si. todas las API tienen protecciones (contra recitación, por ejemplo). DeepSeek además tiene "la protección China", no es muy diferente a las reglas de "safety" del AI Act en la EU, por cierto.

DeepSeek R1 Exposed: Security Flaws in China’s AI Model  • KELA Cyber Threat Intelligence

¿Es realmente tan barato? hay una mejora en eficiencia interesante, pero hay que contar que hay muchos más recursos en juego (para empezar el coste de V3, Qwen o Llama). ¿es una enmienda a la totalidad? en ningún caso. la inferencia es mucho más costosa, por ejemplo.

DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 · GitHub

¿HA ESTALLADO LA BURBUJA DE LA IA? - DeepSeek y la caída de NVIDIA

Análisis sobre la caída en bolsa de NVIDIA por causa de la salida del modelo open source chino DeepSeek. ¿Quién gana y quién pierde en esta batalla comercial?

¿ La caída de Nvidia es por DeepSeek-V3 o por causas anteriores?

 ¿Por qué grandes compañías como Meta o Alibaba "regalan" sus modelos de IA? ¿Qué sentido tiene para ellos el desarrollo Open Source? Observa el gráfico, la respuesta está allí.


 Si tomamos el ejemplo de Meta, ellos tienen claro que la IA va a ser una plataforma y que el beneficio está en lo que puedan construir encima. Por lo que lo que les interesa es que la IA avance rápido para que sea lo mejor y más barata posible. Y el mejor modo de conseguirlo es liberando sus modelos. Y creo que su visión es la correcta: Efectivamente, los modelos son cada vez mejores y más baratos, por lo que la IA va camino de convertirse en el nuevo Internet, algo virtualmente gratuito a nivel de usuario.

 De hecho, será incluso más gratuito, ya que muchas soluciones de IA no dependerán de un proveedor en la nube, sino que llegarán incorporadas en los diferentes dispositivos. Fijaros en el gráfico. Se habla mucho de que DeepSeek ha reducido el coste de un nivel de inteligencia de o1 en 27 veces. Pero más sorprendente es que desde su lanzamiento, en marzo de 2023, el coste de inferencia sobre un nivel de inteligencia similar a GPT4 se ha reducido 1000 veces. (en emenos de 2 años)

El futuro el negocio de la IA no va a estar en la IA, sino en lo que se haga con ella.

 " DeepSeek y lo que pasó ayer:  Probablemente el mayor choque positivo tfp en la historia del mundo" Olivier Blanchard.

El presidente Trump dice que el modelo de IA DeepSeek de China es una «llamada de atención» para las empresas estadounidenses, pero es positivo que se desarrollen métodos de IA más rápidos y baratos

Funcionamiento SASAC VS caso DeepSeek-V3....The Short Case for Nvidia Stock

 Jeffrey Emanuel

  ¿De dónde sale DeepSeek?

La Comisión Estatal para la Supervisión y Administración de los Activos del Estado.

La SASAC son las siglas en ingles de la Comisión Estatal para la Supervisión y Administración de los Activos del Estado. Es una institución clave en la economía china, encargada de supervisar y administrar las empresas estatales (SOEs, por sus siglas también en inglés).

(2) Ma Wukong 马悟空 on X: "A nivel de infraestructuras, teniendo China las mejores del mundo más de lo mismo: El Puente Shenzhen-Zhongshan, on una longitud de 24 km, este puente es una obra maestra de ingeniería que conecta regiones clave del sur de China. Su construcción involucró a múltiples SOEs https://t.co/JZvZXTyoB4" / X

¿De dónde puede salir DeepSeek?

Creada en mayo del año 2023, DeepSeek ha contado,con el inversor: el fondo de cobertura chino High-Flyer, también propiedad del creador de esta inteligencia artificial, Liang Wenfeng.

DeepSeek no sólo rompe los esquemas del mercado de la IA, seguramente es otra estrategia más de dumping impulsada por China para debilitar a las empresas de IA y el monopolio de NVIDIA.

- ¿Que puede pasar si la estrategia es efectiva?

  Es un caso similiar a la sobreproducción impulsada por el estado en los coches eléctricos, para tambalear la industria europea de automoción

DeepSeek-V3, ha sorprendido a la comunidad tecnológica al demostrar un rendimiento comparable al de los mejores sistemas del mercado utilizando solo 2.000 chips de Nvidia

 DeepSeek no ha entrenado con precisamente pocos recursos. No son transparentes por que existen sanciones de exportación de EEUU a China. Pero se rumorea que tienen acceso a unas 50.000 Nvidia H100. Si que sabemos que el equipo se compone de algo más de 100 investigadores en IA

OpenAI dice tener pruebas de que DeepSeek usó sus modelos para entrenar a su propia IA

Hace unos días sus recursos eran dos tapas de yogures y unas cordones de los zapatos. Hoy ya se sospecha que pueden llegar a 500M-1000M. Y por si no fuera poco esto. Los chinos son unos grandes maestros de la propaganda. Independientemente de que Deepseek tenga mucho mérito

OpenAI dice tener pruebas de que DeepSeek usó sus modelos para entrenar a su propia IA | Financial Times

La mayoría de startups no trabajan entrenando modelos fundacionales. Si no creando un ecosistema sobre esos modelos. Por ejemplo creando herramientas para controlar mejor como generan datos, aplicándolos a nuevos tareas, creando nuevos casos de uso... No vas a entrenar un modelo con más computo y datos que Google, intentar competir por ahí es un error.

Mejores modelos, significa más casos de usos, nuevas posibilidades que explorar y por lo tanto, más usuarios, más necesidad de inferencia, más startups y más computo. Nvidia no va a dejar de vender GPUs

A medida que la inteligencia artificial sea más eficiente y accesible, su uso se disparará, convirtiéndola en una mercancía de la que nunca tendremos suficiente

 Lo que estamos señalando es estas empresas de IA actualmente cotizan a múltiplos extremadamente altos, y estos inevitablemente se ajustarán a las nuevas realidades del mercado.

"Sí es un gran avance académico. Sí es un muy buen modelo y alternativa open source para los usuarios. Y sí añade presión extra a los labs de IA. Pero no es el fin de nada, y menos una desventaja para las big corps. Pensad que lo que demuestra la aparición de DeepSeek es que se puede entrenar un modelo state-of-the-art sin tantos recursos. ¿Le resta ventaja a las grandes empresas que tanto han invertido en recursos computacionales? No. Aprovecharán estos avances compartidos en abierto para entrenar modelos aún más potentes llevando al máximo sus capacidades de computación.

 Y eso hablando de entrenar, pero si hablamos de inferencia ellos encantados de contar con mejores modelos que poder ejecutar en enormes sus enormes centros de computación. Da igual si es made in China o made in California. Lo que pone DeepSeek sobre la mesa es que el entrenar modelos no es algo exclusivo de unas pocas empresas. Eso sí, el ejecutarlo aún dependerá de quien tenga la computación. Y ese es el moat del futuro.

 El que tenga acceso a la computación (y a la energía) es el que podrá exprimir estos modelos para obtener fuerza de trabajo automática e inteligencia bajo demanda. Y entre más mejor. 

 DeepSeek officially announces another open-source AI model, Janus-Pro-7B. This model generates images and beats OpenAI's DALL-E 3 and Stable Diffusion across multiple benchmarks

Meta Scrambles After Chinese AI Equals Its Own, Upending Silicon Valley

  • https://www.theinformation.com/articles/meta-scrambles-after-chinese-ai-equals-its-own-upending-silicon-valley

Siemens Energy sufre una caída de casi el 20% en sus acciones ante el temor por la competencia de DeepSeek

Nvidia cae 17 % en el día

Nvidia pierde más de 560.000 millones de dólares tras la irrupción de DeepSeek, el ChatGPT chino. Es la mayor destrucción de valor de la historia de la Bolsa

Sus acciones se derrumban un 15% al cierre de la Bolsa europea, en la mayor pérdida de capitalización bursátil o valor en Bolsa por parte de una compañía en un solo día: más de 560.000 millones de dólares (unos 530.000 millones de euros).

  • https://cincodias.elpais.com/mercados-financieros/2025-01-27/nvidia-pierde-mas-de-400000-millones-de-dolares-en-la-mayor-destruccion-de-valor-de-la-historia-de-la-bolsa.html?utm_medium=social&utm_campaign=echobox&utm_source=Twitter&ssm=TW_CM#Echobox=1737990220-4
  • https://x.com/FinRacionales/status/1883802383307915652

El IBEX 35% esté plano en el día cuando todos los índices caen con fuerza. Habla de la nula exposición de la bolsa española a la IA 

"I wrote up all my thoughts on whether NVDA stock is finally a decent short (or at least not a good thing to own at this point). I’m a huge bull when it comes to the power and potential of AI, but there are just too many forces arrayed against them to sustain supernormal profits". 

 El impacto de DeepSeek no solo golpea a Nvidia, sino a todo el sector de semiconductores: el índice de Filadelfia registra su peor día desde la pandemia.

 La incertidumbre por la batalla tecnológica desata ventas masivas en el sector.

 La batalla mundial , mas importante en la actualidad

 El control de IA, las nuevas energeias, la robotica, y el resto de tecnologias disruptivas

El renacimiento con la IA / la verdadera batalla mundial 

 Aliarse con EEUU/La India Vs aliarse con China? Ver funcionamiento SASAC VS caso DeepSeek-V3

https://avisosnadie.blogspot.com/2025/01/aliarse-con-eeuula-india-vs-aliarse-con.html

El proyecto "Stargate" contará (supuestamente) con una inversión de 500.000 millones de dólares en 5 años y una sola empresa puede perder casi lo mismo en un día.. (pero veremos rebote en proximos dias)

Impacto economico de la IA

  •  https://www.siliconcontinent.com/p/how-to-think-about-the-economic-impact

   La IA desplazara...

 DeepSeek: la inteligencia artificial china que supera a ChatGPT (y es gratuita)

- La decepción de los inversores con la inteligencia artificial-JDIAZCARDIEL

Dos años después del lanzamiento de ChatGPT, los mercados quieren recoger el beneficio de su inversión

Queremos saber el retorno de la inversión de las empresas tecnológicas por cada dólar invertido en inteligencia artificial”, dijo un directivo de la firma de inversión RBC Capital Markets a Bloomberg Technology.

  ‘Big tech’ versus puntocom: ¿es diferente esta vez?

Aunque hay parecidos, son muy distintas en tamaño, y el modelo de negocio de los gigantes actuales está asentado y tiene mucho potencial-12 ENE 2023

Las empresas tecnológicas han vivido dos grandes crisis en las dos últimas décadas: a principios de la década de los 2000, la conocida como crisis de las puntocom; a partir de 2022, la crisis de las big tech.

Vayamos ahora con las diferencias.

Para empezar, aunque perteneciente al sector tecnológico, el tipo de empresa protagonista de una crisis y otra no tiene nada que ver. En la época puntocom, hubo una fuerte proliferación de pequeñas empresas start-ups. En la actualidad, estamos hablando de auténticos gigantes tecnológicos. Sin ir más lejos, de las 10 empresas de mayor capitalización bursátil a finales de 2022, 7 eran tecnológicas (y de ellas, 6 de EE UU).

Para seguir, el modelo de negocio de las puntocom que quebraron no tiene nada que ver con el de las big tech. Muchas puntocom salieron a Bolsa sin tener terminado siquiera su producto final. Por otro lado, aquellas compañías más sólidas perdieron potencial de crecimiento una vez internet estaba ya implantado, ya que la revolución tecnológica que acompañó a las puntocom fue de infraestructuras. Por su parte, las big tech tienen en la mayor parte de los casos distintas líneas de productos y servicios con un modelo de negocio claro y asentado. Asimismo, el manejo de una ingente cantidad de datos les aporta fuerte potencial de futuro.

El principal problema de las big tech ha venido dado, salvo en algunos casos de decisiones empresariales aventuradas, como la ingente inversión en el metaverso de Meta-Facebook, por el difícil entorno macroeconómico. La guerra contra Ucrania y el temor a la estanflación han reducido la demanda de los consumidores y los ingresos publicitarios de estas compañías.

En tercer lugar, durante la burbuja puntocom se generó una verdadera exuberancia irracional, se trataba de no quedarse atrás. Los inversores comenzaron a apostar por empresas que aún no habían generado ningún beneficio y obviaron la realización de análisis basados en indicadores tradicionales, como precio/ingresos. En el contexto actual, no parece que los inversores estén abandonando las técnicas ortodoxas de valoración financiera.

El impacto de la crisis puntocom sobre la economía estadounidense fue más fuerte que el de las big tech. En efecto, el consenso de economistas considera que las puntocom provocaron una leve recesión sobre la economía de EE UU, mientras que con las big tech, el proceso ha sido justo el inverso: la mala marcha de la economía ha pesado sobre su potencial de crecimiento a través de caídas en la demanda de sus productos y en sus ingresos publicitarios.

Por último, el entorno regulatorio no es el mismo para las puntocom y las big tech. La creciente importancia de estas, con su extensión de líneas de negocio a áreas como las finanzas y la recopilación de un número ingente de datos, está motivando una fuerte respuesta regulatoria desde distintas jurisdicciones. En el caso de la UE, por ejemplo, destacan la Digital Markets Act y la Digital Services Act, así como la próxima consulta que lanzará la Comisión Europea, para determinar si las big tech han de pagar una contribución para sufragar parte de las infraestructuras de telecomunicaciones.

En definitiva, si bien las crisis de las puntocom y las big tech presentan similitudes evidentes, creo que se puede afirmar con seguridad que esta vez es diferente. Pero para que realmente se mantengan las diferencias, es vital tener una conducta inversora responsable, conduciendo los debidos procesos de due diligence y evitando invertir sobre la base de expectativas y no de indicadores financieros claros y comprobables.

Judith Arnal es doctora en Economía y técnico comercial y economista del Estado. Colaboradora de Agenda Pública

Hay que poner las cosas en su sitio. ¿Nadie sabía hasta la tercera semana de enero de 2025 de la existencia de DeepSeek? 

En el Foro de Davos, organizado por el World Economic Forum (segunda semana de enero), “de repente”, los pocos líderes de firmas Big Tech que no asistieron a la ceremonia de inauguración del presidente Trump en Washington, hablaron con admiración de DeepSeek. Uno de ellos fue Satya Nadella (CEO de Microsoft), que destacó que DeepSeek operaba en open source, que había sido muy eficiente en su gestación (mínima inversión y un rendimiento espectacular, que ha dejado en mal lugar a sus homólogos norteamericanos)... En Davos se habló de DeepSeek.

Curiosamente, qué casualidad, el semanario británico The Economist dedicaba su sección más importante, en su número fechado el 25 de enero de 2025, a tomarse en serio la competencia china en inteligencia artificial y, por supuesto, hablaba de DeepSeek, que, parece ser, “alimenta” a las Big Tech chinas como Huawei, Tencent, Alibaba y ByteDance, entre otros conglomerados tecnológicos chinos.

Y, en tercer lugar, y para poner la guinda al pastel, Occidente amanece el 27 de enero de 2025 con un “lunes negro” en las bolsas mundiales, que hunden los valores de empresas como Nvidia y ASLM, entre otras muchas firmas tecnológicas, relacionadas en Occidente con el desarrollo de la inteligencia artificial: microprocesadores, software, servidores, data centers, ordenadores, smartphones…, según The Wall Street Journal y Bloomberg, la pérdida de valor en bolsa de los valores occidentales protagonistas de la IA, alcanzaría 1 trillón de dólares.

DeepSeek no es el Santo Grial, ni la Piedra Rosetta, ni El Dorado, ni la Piedra Filosofal.

Es simplemente una expresión más de que Estados Unidos y China están embarcados, desde 2013, cuando Xi Jinping llegó al poder en China, en una guerra comercial, económica, tecnológica y digital, militar, geoestratégica y geopolítica, por obtener la primacía mundial. Guerra, de la que hemos venido dando cuenta en IT User desde sus inicios: en 2020, con “Contexto Geoestratégico de la guerra tecnológica entre EE.UU y China”; en 2018 con “En breve, las guerras no serán tanques y aviones, sino cibernéticas”...

 Jorge Díaz Cardiel, socio director general de Advice Strategic Consultants

 Europa necesita un nuevo proteccionismo?

https://avisosnadie.blogspot.com/2025/01/europa-necesita-un-nuevo-proteccionismo.html

 Trump confirmó que va a imponer un arancel del 25% a todos los productos importados desde Canadá y México. Empezarían a regir desde el 1° de febrero Comenzó el enfrentamiento comercial entre EEUU y sus vecinos

https://avisosnadie.blogspot.com/2025/01/menos-trump-y-mas-ue-nuestro-problema.html

Europa ha despertado?

https://avisosnadie.blogspot.com/2025/01/europa-ha-despertadocon-25-anos-de.html

Algunas causas de la guerra comercial entre China y Estados Unidos

 https://articulosclaves.blogspot.com/2024/12/algunas-causas-de-la-guerra-comercial.html

La guerra comercial de Trump restará hasta un 1% al PIB mundial ya en 2025

https://articulosclaves.blogspot.com/2024/12/la-guerra-comercial-de-trump-restara.html

China ¿cuando empezó la guerra comercial?

https://articulosclaves.blogspot.com/2024/08/china-cuando-empezo-la-guerra-comercial.html

Actual guerra comercial

La guerra comercial entre Estados Unidos y China comenzó con dos grandes empresas tecnológicas en el punto de mira, Huawei y Google.

Con la creciente escalada del conflicto muchos se preguntan ahora a qué otras empresas del mundo tecnológico está afectando —o puede llegar a afectar— esta disputa.

https://www.bbc.com/mundo/noticias-49551605

https://articulosclaves.blogspot.com/2024/08/esta-guerra-comercial-tiene-sus.html

https://blogs.uoc.edu/humanitats/es/algunas-causas-de-la-guerra-comercial-entre-china-y-estados-unidos/

 https://theconversation.com/la-historia-interminable-de-la-guerra-comercial-entre-china-y-estados-unidos-171155

https://articulosclaves.blogspot.com/2024/12/china-fracturo-el-textil-las-placas.html

https://articulosclaves.blogspot.com/2024/12/la-alemania-que-conociamos-ya-no-existe.html

https://articulosclaves.blogspot.com/2024/12/puede-la-politica-industrial-reactivar.html

https://articulosclaves.blogspot.com/2024/12/occidente-no-se-muere-pero-se-esfuerza.html

https://articulosclaves.blogspot.com/2024/12/guerra-comercial-estados-unidos-y-china.html

https://articulosclaves.blogspot.com/2024/12/algunas-causas-de-la-guerra-comercial.html

El «drill, baby, drill» trumpiano podría pasar a la Historia como revulsivo estratégico, eclipsado por los desafueros retóricos de su creador

https://www.almendron.com/tribuna/hasta-donde-llegara-el-drill-baby-drill-trumpiano/

Informe  McKinsey sobre Europa y el desprecio a la innovación, son 3.000 euros menos per cápita empleados por ejercicio que EEUU

https://forosenar.blogspot.com/2025/01/mckinsey-saca-los-colores-las-grandes.html

  Mediante una relectura del legado de Friedrich List, uno de los padres del nacionalismo alemán, Marvin Suesse intenta comprender cómo encajan el nacionalismo económico y la globalización en un contexto de gran fragmentación geopolítica. 

https://articulosclaves.blogspot.com/2024/12/el-nacionalismo-economico-y-el-futuro.html

Europa desunida

 No hay soluciones rápidas. Un primer paso sería comunicar con mucha más claridad los riesgos

 Armida van Rij, Senior Research Fellow, Europe Programme.

 ¿Trump tiene interés en negociar con la UE ?

Ante la sobreproducción de China

https://articulosclaves.blogspot.com/2024/12/china-fracturo-el-textil-las-placas.html

https://articulosclaves.blogspot.com/2024/12/la-alemania-que-conociamos-ya-no-existe.html

https://articulosclaves.blogspot.com/2024/12/puede-la-politica-industrial-reactivar.html

https://articulosclaves.blogspot.com/2024/12/occidente-no-se-muere-pero-se-esfuerza.html

Ahora sabemos que unos aranceles indiscriminados y generalizados perjudicarán a los trabajadores, los consumidores y las empresas, tanto en Estados Unidos como en nuestros socios. 

https://articulosclaves.blogspot.com/2024/12/para-evitar-un-segundo-choque-chino.html

La: IA es el renacimiento

https://articulosclaves.blogspot.com/2024/11/la-ia-es-el-renacimiento.html

 Europa está atrapada entre el viejo y el nuevo orden

 La guerra tecnológica EEUU-China y sus efectos sobre Europa

https://www.realinstitutoelcano.org/analisis/la-guerra-tecnologica-eeuu-china-y-sus-efectos-sobre-europa/

El proteccionismo comercial ha sido uno de los temas más populares de la campaña electoral americana, especialmente en los territorios golpeados por la pérdida de empleos industriales bien remunerados. La victoria del candidato que más ha abundado en la inflación de propuestas lo ha expuesto con nitidez: según el presidente electo, el déficit comercial es una de las causas de la pérdida de tejido productivo de la economía americana

  " Los aranceles constituyen una solución simplista para problemas económicos profundamente complejos. Como toda medida populista, prometen beneficios inmediatos y visibles mientras ocultan costes sustanciales y duraderos a largo plazo. En una economía globalizada e interconectada, la prosperidad económica sostenible no se alcanza erigiendo barreras artificiales, sino desarrollando ventajas competitivas genuinas y adaptables" M.Hidalgo

El comercio ya solo es geopolítico

La UE sigue jugando a que los aranceles tienen reglas, pero China y EEUU no responden más que a la lógica del poder. Hoy hablo del juego geopolítico en el que se ha convertido el comercio mundial.  La UE aplica correctamente las normas para salvar su industria, pero a China le da igual: ella, como EEUU, no responde a la lógica, sino al juego del poder

La nueva geopolítica del comercio global 

https://brujulaeconomica.blogspot.com/2024/05/la-nueva-geopolitica-del-comercio-global.html

https://articulosclaves.blogspot.com/2024/09/geopolitica-del-informe-draghi.html

https://articulosclaves.blogspot.com/2024/12/el-nacionalismo-economico-y-el-futuro.html

Contexto geoestratégico de la guerra tecnológica entre EEUU y China-2020-

Lo que está en cuestión es la primacía de Estados Unidos como primera potencia económica, empresarial y militar del mundo. Los norteamericanos somos paranoicos. Como escribió Andy Grove, ex presidente y CEO de Intel Corporation, primer fabricante de procesadores del mundo y empresa para la que tuve el honor de trabajar como director de España y Portugal: “only the paranoids survive”; “sólo los paranoicos sobreviven”. La paranoia está instalada en la psicología norteamericana y, en el caso que nos ocupa, desde los políticos y los empresarios a la población general, la pregunta está en el aire, cuando menos desde 2009: “¿perderá Estados Unidos su condición de primera potencia mundial a favor de China?”. Es la cuestión central de uno de los libros del experto en política internacional y buen amigo, Fareed Zakaria (CNN, Time, Newsweek, Foreign Affairs), “The Post American World”, libro de cabecera del presidente Barack Obama, también amigo (y ex jefe). La lectura de esta obra llevó a Obama a preguntarse en el discurso sobre el estado de la unión de enero de 2020 sobre “¿no debíamos haber sido nosotros los que construyéramos el tren bala de Shanghái en vez de China?”. Diez años después, la pregunta se mantiene y explica en buena parte la victoria de Trump en las elecciones presidenciales de 2016 con su lema “América first”.

·        https://www.ituser.es/opinion/2020/05/contexto-geoestrategico-de-la-guerra-tecnologica-entre-eeuu-y-china

 Escenarios 2025 ¿Como reaccionara Europa?    

The World Ahead, The Economist, y que presentará las tendencias clave que influirán en 2025

·        https://articulosclaves.blogspot.com/2024/11/escenarios-2025-como-reaccionara-europa_30.html


Comentarios

Entradas populares de este blog

Criptomonedas sin regular, otro caso que se aviso que pasaría

Funcionamiento SASAC VS caso DeepSeek-V3....The Short Case for Nvidia Stock ¿Aliarse con EEUU y la India o aliarse con China ?

Los medios de comunicación no ponen a cada uno en su sitio