Come aggiungere sottotitoli multilingua ai video corso con l’AI
Aggiungere sottotitoli voleva dire assumere trascrittori ($1–3/min) e traduttori ($0,10–0,20/parola per lingua). Per un corso di 10 ore tradotto in cinque lingue, è una fattura a quattro cifre e due settimane di attesa.
Nel 2026 la pipeline è diversa. L’AI gestisce trascrizione, traduzione e timing — gli umani revisionano, non scrivono da zero. Il costo per lingua scende di 50–100x. La qualità, per contenuto tecnico di corso, è abbastanza buona che gli studenti non se ne accorgono.
Questo è il playbook pratico.
Perché sottotitoli multilingua?
Due ragioni che muovono il fatturato:
- Espansione di accessibilità. Spettatori con deficit uditivo, spettatori in ambienti rumorosi, spettatori che imparano il tuo argomento in seconda lingua — le didascalie ampliano il pubblico raggiungibile anche in una sola lingua.
- Mercato internazionale raggiungibile. I corsi solo in inglese lasciano grossi mercati sul tavolo. Aggiungere sottotitoli spagnoli + tedeschi + francesi + portoghesi + giapponesi può circa raddoppiare il tuo pubblico globale raggiungibile senza ri-registrare una sola lezione.
Per corsi high-ticket ($500+), anche un lift del 5–10% dalle vendite internazionali ripaga molte volte l’intera pipeline di sottotitoli.
La pipeline a colpo d’occhio
[Video sorgente]
│
▼
[Trascrivi in VTT lingua sorgente] ← modello STT audio
│
▼
[Revisione umana del VTT sorgente] ← 5–10 min/ora di video
│
▼
[Traduzione AI nelle lingue target] ← LLM di frontiera
│
▼
[Revisione madrelingua opzionale] ← per tier premium
│
▼
[Allega come <track> nel player HLS] ← sidecar WebVTT
Ogni step ha leve di qualità. Salta la revisione umana per contenuto cheap; aggiungi un revisore madrelingua per materiale ad alto rischio.
Step 1: Trascrivi la lingua sorgente
I moderni modelli speech-to-text producono VTT temporizzato direttamente dall’audio sorgente. La categoria è matura nel 2026; i frontier audio-STT e i grandi modelli speech open-source sono tutti nella fascia 95%+ di accuratezza per parola su narrazione chiara di un solo speaker.
Cosa darli in pasto:
- Audio sorgente al massimo bitrate disponibile. Non downsampliare per la trascrizione. Anche un MP4 con la traccia audio originale va bene.
- Hint di lingua sorgente. L’auto-detect funziona, ma specificare la lingua riduce gli errori sul primo burst di parlato.
- Hint di speaker (opzionale). Se hai più speaker, etichettali; alcuni modelli faranno diarizzazione.
Output: timestamp WebVTT + testo. Aspettati 95%+ di accuratezza per parola su narrazione chiara; aspettati di sistemare a mano nomi propri, gergo tecnico e brand name.
Step 2: Pulisci il VTT sorgente (non saltarlo)
Questo è lo step più economico e a maggior leva. Cinque minuti di revisione umana sul VTT in lingua sorgente prevengono 50 minuti di pulizia sulle versioni tradotte.
Cosa sistemare:
- Brand name (il tuo prodotto, integrazioni, framework).
- Gergo di dominio che il modello ha allucinato foneticamente.
- Confini di frase — i cue generati dall’AI a volte spezzano a metà clausola; stringi per leggibilità.
- Etichette di speaker se contano.
Dai in pasto il VTT sorgente pulito alla traduzione. Garbage in, garbage out — vale ancora di più traducendo.
Step 3: Traduci con AI in ogni lingua target
I LLM di frontiera gestiscono la traduzione con un singolo prompt: “Traduci questo file VTT in {lingua target}, preserva timestamp, preserva la numerazione cue, non cambiare i tag < o >.”
Due tip pratici:
- Traduci tutto il file in un prompt se entra nella context window. Il contesto cross-cue produce terminologia più consistente.
- Fornisci un glossario. Una breve lista come
{"AVCaption": "AVCaption", "embed token": "embed token (tecnico), token di incorporamento (UX)"}mantiene brand name e termini tecnici consistenti.
La qualità su contenuto tecnico di corso è ora abbastanza buona che la maggior parte degli studenti non noterà la differenza da un traduttore umano. Per copy marketing o umorismo, assumi un revisore.
Step 4: Allega come tracce WebVTT
In HLS, le tracce sottotitoli sono referenziate dalla master playlist:
#EXT-X-MEDIA:TYPE=SUBTITLES,GROUP-ID="subs",NAME="English",
DEFAULT=YES,LANGUAGE="en",URI="subs/en.m3u8"
#EXT-X-MEDIA:TYPE=SUBTITLES,GROUP-ID="subs",NAME="Italiano",
DEFAULT=NO,LANGUAGE="it",URI="subs/it.m3u8"
Ogni subs/{lang}.m3u8 è a sua volta una piccola playlist che punta al file WebVTT. Il player li espone nel suo menu didascalie.
Se il tuo video host astrae questo (come fa AVCaption), carichi il VTT e la piattaforma cabla la playlist per te.
Step 5: (Opzionale) Burn-in per una lingua
Alcune piattaforme (TikTok, Instagram Reels, LinkedIn) auto-play in muto, quindi le didascalie burnate in una lingua spingono il completamento. Per la tua piattaforma corso, il sidecar VTT è sempre meglio — toggliable, switchabile, non gonfia lo storage.
Se fai burn-in per la distribuzione social, genera un file separato. Non mescolare burn-in e sidecar nella stessa delivery.
Controlli qualità che vale la pena fare
- Controllo lunghezza. Ogni cue dovrebbe essere leggibile nel suo slot temporale. Il testo tradotto spesso corre 20–40% più lungo dell’inglese (specialmente tedesco, spagnolo). Stringi o spezza.
- Controllo caratteri. Alcuni script (arabo, ebraico) sono RTL — verifica che il tuo player li renderizzi correttamente.
- Controllo consistenza. Brand name e termini chiave dovrebbero apparire identici in tutto il file. Un semplice grep cattura la deriva.
- Drift di timing. I video lunghi accumulano piccoli errori di timing. Spot-check al 25%, 50%, 75% del video.
Onestà sui costi
Costo API grezzo per un video di 10 minuti tradotto in 5 lingue:
- Trascrizione: ~$0,05–0,10
- Traduzione (5 lingue): ~$0,10–0,30
- Totale: ben sotto $1
Aggiungi la revisione umana e il costo sale con la tariffa del revisore. Un revisore madrelingua a $30/ora che spende 10 minuti per lingua aggiunge $25 totali.
Le feature sottotitoli bundle nelle piattaforme video tipicamente caricano per minuto o per lingua, spesso $0,10–0,50 per minuto per lingua. AVCaption Enterprise include i sottotitoli multilingua nel prezzo flat — utile per librerie ad alto volume.
Come AVCaption gestisce la pipeline
AVCaption Studio (Enterprise) gestisce il lato authoring end-to-end:
- Upload video → Studio rileva automaticamente la lingua sorgente e produce una bozza di transcript dall’audio.
- Modifichi qualsiasi cue nell’editor Studio (riga sorgente + waveform + miniatura del frame affiancati) — sistemi brand name, ripulisci i confini di frase.
- Aggiungi tracce in lingue ulteriori (file
.vtttradotti) — il costo di traduzione è bundle nel prezzo flat Enterprise. - Le tracce WebVTT sono allegate automaticamente alla playlist HLS; il custom embed player le espone nel menu didascalie.
Il player stesso supporta tracce illimitate per video su ogni piano (Free incluso) e renderizza il display bilingue (due lingue) quando passi ?subtitle2={lang} nell’URL embed — utile per language learner e team globali che revisionano contenuto in seconda lingua.
Lingue da prioritizzare
Se puoi sceglierne solo una manciata, un set starter ad alto impatto per corsi sorgente in inglese:
- Spagnolo — vasto mercato Latam + Spagna.
- Portoghese (brasiliano) — grande, sotto-servito da corsi solo in inglese.
- Tedesco — alto potere d’acquisto, spesso paga prezzo pieno.
- Francese — Francia + Canada + parti d’Africa.
- Giapponese — mercato premium dei tech-creator, bassa penetrazione di corsi inglesi.
- Vietnamita, indonesiano, thai — economie creator in rapida crescita, bassa concorrenza.
Salta le lingue dove il tuo argomento ha volume di ricerca zero localmente. Non tradurre contenuti di cucina in latino.
In sintesi
I sottotitoli AI nel 2026 non sono “sperimentali”. Sono il default per i creator attenti ai costi che vanno globali. Esegui la pipeline economica (STT audio → traduzione → VTT), fai una revisione umana di 5 minuti, spedisci — e lascia che il player gestisca lo switch multi-traccia live.
Il player AVCaption porta tracce sottotitoli illimitate per video su ogni piano incluso il Free, più display bilingue (due lingue) per language learner — carica il video sorgente e una traccia VTT, poi aggiungi ?subtitle=es&subtitle2=en all’URL embed per vedere il bilingual mode in azione. Studio (Enterprise) gestisce la creazione del transcript quando non hai file sorgente. Per saperne di più sul gioco internazionale dei corsi, vedi corsi online e prodotti digitali.