URL : https://youtu.be/knn6pYec4kM
Format : Veille IA hebdomadaire
Le 9 avril, ZII a publié les poids de son modèle GLM 5.1 en open source sous licence MIT. Licence MIT, ça veut dire qu'on peut en faire absolument ce qu'on veut : usage commercial, modification, redistribution, créer une application dessus et la vendre. Zéro restriction.
Les performances sont remarquables. Sur le SWE Bench Pro — un benchmark de code où les modèles IA doivent résoudre de vrais problèmes issus de vrais dépôts GitHub — GLM 5.1 obtient un score de 58,4 %. ChatGPT est à 57,7, Claude Opus à 4.3. C'est serré, mais le fait qu'un modèle gratuit et ouvert soit devant les deux modèles fermés les plus puissants de la planète, c'est un basculement. C'est la première fois que ça arrive sur un benchmark de cette importance.
Meilleur modèle open source du monde, oui, sans aucun doute. Meilleur modèle tout court, pas encore — du moins à l'utilisation. Mais l'écart commence à se réduire et on atteindra bientôt le niveau de Claude Sonnet 4.6 avec de l'open source, et ça c'est très fort.
GLM 5.1 n'est pas conçu pour répondre vite à une question et passer à autre chose. Il est conçu pour travailler longtemps — jusqu'à 8h en autonomie sur une seule tâche. Les modèles précédents, y compris GLM 5.0, avaient tendance à épuiser leurs idées rapidement : ils testaient trois ou quatre approches connues, atteignaient un plateau et restaient bloqués. Leur donner plus de temps ne changeait rien.
GLM 5.1 fait l'inverse. Plus on lui donne de temps, meilleur il devient.
ZII l'a testé sur un problème d'optimisation de base de données vectorielles en Rust. Le meilleur résultat obtenu en session standard par un modèle était de 3 547 requêtes par seconde, record détenu par Claude Opus 4.6. GLM 5.1 a tourné pendant 600 itérations, plus de 6 000 appels d'outils, et a atteint 21 500 requêtes par seconde — soit six fois le record précédent.
Pour montrer l'étendue de ses capacités, ZII lui a aussi demandé de construire un bureau Linux complet depuis zéro avec des applications fonctionnelles : navigateur, lecteur audio, éditeur de texte, moniteur système, calculatrices, et même des jeux. Après 8 heures de travail autonome, il avait produit plus de 50 applications qui tournent réellement. Ce n'est plus du simple vibe coding où on génère un fichier et on espère que ça marche — là, ça commence vraiment à être du lourd.
C'est un détail que beaucoup ont raté : ce modèle a été entraîné intégralement sur des puces Huawei. Pas une seule puce Nvidia dans le processus.
Les sanctions américaines partaient du principe que sans Nvidia, la Chine ne pourrait pas produire des modèles frontières. GLM 5.1 est la preuve que cette hypothèse est en train de s'effondrer.
Reuters, citant The Information, a confirmé début avril que DeepSeek V4 devrait sortir dans les prochaines semaines et tournera lui aussi sur des puces Huawei — plus précisément les Ascend 910C.
Ce qu'on sait du modèle :
Le fondateur de DeepSeek, Liang Wenfeng, aurait confirmé en interne un lancement dans la seconde moitié d'avril. Sur Polymarket, les parieurs estiment à 84 % la probabilité d'un lancement avant le 15 mai.
DeepSeek a délibérément refusé de donner à Nvidia un accès anticipé au modèle — en réservant cette fenêtre exclusivement au fabricant de puces chinois. C'est un choix stratégique très clair.
Par ailleurs, Alibaba, ByteDance et Tencent auraient tous passé des commandes massives de puces Huawei pour héberger DeepSeek V4 via leurs services cloud. Les prix de ces puces ont bondi de 20 % en quelques semaines.
GLM 5.1 entraîné sur Huawei, DeepSeek V4 optimisé pour Huawei, des géants tech chinois qui se préparent à offrir ces modèles à l'échelle mondiale — l'écosystème IA chinois est en train de construire une infrastructure complète qui ne dépend plus du tout de la Silicon Valley. C'est un rééquilibrage des forces.
Seaweed 2.0 était sorti en Chine en février et avait immédiatement été extrêmement viral grâce à des clips d'une qualité hallucinante — un combat entièrement généré par IA entre Tom Cruise et Brad Pitt, des personnages Disney recréés sans autorisation.
La réaction de Hollywood avait été violente. Disney avait envoyé une mise en demeure, Paramount avait accusé ByteDance de pillage flagrant de sa propriété intellectuelle, et deux sénateurs américains avaient écrit au PDG de ByteDance pour exiger la fermeture du service.
Résultat : ByteDance avait mis en pause le lancement mondial pendant des semaines, renforcé les garde-fous contre la violation de propriété intellectuelle. Finalement, le 9 avril, l'API est devenue disponible à l'international via Fal.ai, partenaire officiel d'infrastructure sélectionné par ByteDance.
Ce qui rend Seaweed 2.0 unique : il génère la vidéo et le son en un seul passage. Pas de post-production audio séparée. Le dialogue est synchronisé avec les lèvres, les effets sonores correspondent aux actions à l'écran, la musique suit le ton de la scène. C'est le premier modèle vidéo commercial qui accepte le texte, l'image, la vidéo et l'audio dans une seule requête. Le concurrent direct de Google Veo 3.
Juste au moment où Seaweed 2.0 semblait prendre la tête, un inconnu est apparu sur le leaderboard d'Artificial Analysis. Le 7 avril, un modèle anonyme appelé Happy Horse 1.0 s'est inscrit sur la plateforme. Pas de nom d'équipe, pas de logo, pas d'article de blog — juste des résultats.
Les scores :
Pendant 3 jours, personne ne savait d'où il venait. Le 10 avril, Alibaba a confirmé : Happy Horse est un produit de leur unité AI Innovation. Le projet est dirigé par Zhang Di, ancien architecte en chef de Kling — l'un des modèles vidéo les plus respectés du marché. L'homme qui a construit l'un des meilleurs moteurs vidéo au monde est parti en construire un encore meilleur chez le concurrent.
L'architecture : un transformer unifié de 40 couches qui traite simultanément des tokens de texte, d'images, de vidéo et d'audio dans une seule séquence. Pas de modules séparés, pas de cross-attention entre modalités. Tout passe par le même système.
L'équipe a confirmé que le modèle sera entièrement open source. Les poids et le code seront publiés prochainement. L'accès à l'API est prévu pour le 30 avril. En attendant, on peut déjà le tester via l'arena d'Artificial Analysis.
OpenAI avait récemment arrêté Sora. ByteDance était bloqué pendant des semaines à cause des problèmes de copyright. Et c'est exactement dans ce vide qu'Alibaba débarque avec un modèle qui domine les classements dès son premier jour. Stratégiquement, c'est parfaitement exécuté.
En résumé, les trois premiers du classement mondial de la vidéo IA sont maintenant chinois : Happy Horse d'Alibaba, Seaweed 2.0 de ByteDance, et Kling 3.0 de Kuaishou.
Meta a dévoilé Mu Spark le 8 avril. C'est le premier modèle de leur nouvelle unité Meta Super Intelligence Lab, dirigée par Alexander Wang — l'ancien PDG de Scale AI, celui qui a pris la place de Yann LeCun.
En avril 2025, Meta sortait Llama 4 — un échec. Les développeurs ne l'avaient pas adopté. Les benchmarks étaient décevants. Zuckerberg avait décidé de tout reprendre à zéro. Il a investi 14,3 milliards de dollars dans Scale AI pour une participation de 49 %, et recruté Alexander Wang pour diriger ce nouveau labo. L'objectif affiché : la super intelligence personnelle.
Mu Spark obtient un score de 52 sur l'Intelligence Index d'Artificial Analysis. Pour référence, Gemini 3.1 et GPT sont à 57, Claude Opus est à 53. Mu Spark est dans le top 5 mondial — mieux que Llama 4, mais pas le nouveau standard.
Points forts réels :
Mu Spark sera propriétaire. Fermé. Pas d'open source, pas de poids téléchargeables, un accès API en preview privé réservé à des partenaires sélectionnés. C'est une rupture totale avec la philosophie Llama qui avait fait la force de Meta dans la communauté.
Quand le modèle n'est pas le meilleur et qu'en plus il est fermé, la question devient légitime : pourquoi un développeur choisirait-il Mu Spark plutôt que GLM 5.1, qui est gratuit, ouvert et obtient de meilleurs scores en code ?
La réponse de Meta, c'est la distribution : 3,2 milliards d'utilisateurs quotidiens sur Facebook, Instagram, WhatsApp et Messenger. Mu Spark va alimenter l'assistant Meta AI sur toutes ces plateformes, plus les lunettes Ray-Ban Meta. Aucun autre labo n'a ce genre de surface de distribution. L'usage, pas les benchmarks — c'est probablement le vrai pari de Meta.
Mais il y a un point frappant : Meta annonce un budget d'investissement entre 115 et 135 milliards de dollars pour 2026 — presque le double de l'année précédente. Le résultat, c'est un modèle qui arrive 4e ou 5e selon les benchmarks. Pendant ce temps, ZII produit le meilleur modèle open source du monde entraîné sur des puces chinoises, et DeepSeek prépare un modèle d'un billion de paramètres à une fraction de ce coût. L'efficacité avec laquelle les labos chinois convertissent des ressources limitées en résultats de pointe est franchement impressionnante.
Côté open source et génération vidéo, LTX Video 2.3 de Lightricks est un modèle de 22 milliards de paramètres qui génère audio et vidéo synchronisés en un seul passage. Testé sur une RTX 4080, c'est assez impressionnant.
Caractéristiques :
Depuis janvier, près de 5 millions de personnes ont déjà téléchargé LTX, et la communauté a développé des optimisations qui accélèrent l'inférence de 2,3 fois. Il y a des LoRAs pour des styles, des mouvements et des cas d'usage que Lightricks n'avait même pas envisagés.
Un créateur indépendant avec un PC gaming correct peut aujourd'hui produire du contenu vidéo avec un audio synchronisé, l'éditer localement et ne dépendre d'aucune plateforme. C'est un niveau d'autonomie créative qui n'existait tout simplement pas il y a 6 mois.
Si cette semaine devait se résumer en une phrase : nous avons vécu le moment où l'open source a rattrapé le closed source — ce n'est plus un horizon lointain, c'est maintenant.
Les outils les plus puissants de la planète deviennent accessibles à tous, maintenant. Les modèles de code qui rivalisent avec les meilleurs ingénieurs — on peut les télécharger. Les modèles vidéo qui produisent du contenu de qualité cinématographique — on peut les faire tourner sur son PC. Les agents IA qui travaillent 8h en autonomie — on peut y accéder via une API à quelques dollars.
L'avantage concurrentiel ne vient plus de l'accès à la technologie. Tout le monde y a accès. L'avantage vient de savoir l'utiliser : comprendre quels outils existent, comment les combiner, comment les intégrer dans un workflow qui produit des résultats concrets.