Comment ça marche

  1. Envoyez votre morceau en transcription. L'audio voyage via une connexion chiffrée, est transcrit avec les timings de chaque ligne par IA (WhisperX), puis supprimé de nos serveurs.
  2. Corrigez et stylez les paroles. Éditez chaque ligne, scindez-les ou fusionnez-les, décalez le timing global, puis choisissez la police, la taille, la couleur, le style de lisibilité et la position sur un fond en boucle.
  3. Rendez le MP4 dans votre navigateur. La vidéo verticale finale en 1080×1920 est encodée localement avec ffmpeg.wasm — le rendu lui-même ne consomme aucun crédit IA.

Fonctionnalités

  • Transcription IA avec timings. WhisperX renvoie chaque ligne de paroles avec son début et sa fin, dans la langue détectée automatiquement.
  • Mode isolation de voix. Mix dense, voix noyée ? Relancez la transcription sur la voix isolée (séparée d'abord) pour une précision bien meilleure — 4 crédits au lieu de 2.
  • Un vrai éditeur de paroles. Corrigez les mots, scindez une ligne avec Entrée, ajoutez ou supprimez des lignes, et décalez tous les timings ensemble jusqu'à ±2 secondes.
  • Fonds en boucle et styles. Galeries urbain, nature, abstrait, artiste, musique, nightlife et lofi — ou votre propre vidéo (jusqu'à 60 s, 50 Mo) — avec 5 polices, 4 styles de lisibilité et position libre.

FAQ

Le créateur de vidéo lyrics est-il gratuit ?

Non — il fait partie d'AudioKit Premium (9,90 €/mois ou 99 €/an), car la transcription IA tourne sur des serveurs dédiés. AudioKit Premium inclut 100 crédits IA par mois, partagés entre tous les outils IA. Une transcription coûte 2 crédits (4 avec la voix isolée, qui ajoute une passe de séparation IA). Besoin de plus ? Des packs de recharge sont disponibles depuis Mon espace (100 crédits à 5,99 €, 250 à 11,99 €) — les crédits de pack n'expirent pas. Le rendu vidéo, lui, est gratuit : il tourne dans votre navigateur et ne consomme aucun crédit.

Quelle est la précision de la synchronisation des paroles ?

Honnêtement : très bonne sur des voix claires, imparfaite sur les cas difficiles. WhisperX cale chaque ligne du texte chanté, et le chant est réellement difficile à transcrire — un mix dense, des effets lourds ou une voix noyée peuvent produire des mots faux ou des timings décalés ; c'est l'état de l'art, pas une particularité d'AudioKit. Vous pouvez corriger chaque ligne dans l'éditeur, décaler tous les timings de ±2 secondes, et le mode isolation de voix gère les cas difficiles.

Qu'est-ce que l'option isolation de voix ?

Pour les mix chargés : l'IA sépare d'abord la voix de l'instrumental (Demucs), puis transcrit la voix isolée — bien plus précis quand le chant est enfoui. C'est plus long (environ 3–5 minutes au lieu de 1–2) et cela consomme 4 crédits au lieu de 2, car deux opérations IA tournent sur nos serveurs.

Que devient mon fichier audio ?

Il est envoyé via une connexion chiffrée, transcrit, puis supprimé — il n'est pas conservé. Votre vidéo de fond ne quitte jamais votre navigateur : seul l'audio part en transcription, et le MP4 final est rendu localement sur votre machine.

Quelle vidéo obtient-on à la fin ?

Un MP4 vertical 9:16 en 1080×1920 — le format natif des Reels, de TikTok et des Shorts — avec vos paroles incrustées, exactement comme dans l'aperçu. Vous choisissez le fond en boucle (sept galeries ou votre propre vidéo), la police parmi cinq, la taille, la couleur, le style de lisibilité et la position. Le rendu tourne dans votre navigateur et il est gratuit.