Dělali jste s někým rozhovor a nechcete to přepisovat ručně. Nebo máte podcast a chcete k němu mít i textový přepis (protože přístupnost a protože SEO). Máte video a chcete ho otitulkovat. A nechce se vám to poslouchat a přepisovat ručně. Dnes už je to snadné.
Už jsem to tu řešil před rokem a půl v Přepis (podcastu) s pomocí Whisper? Ukážeme si na příkladu důležitého tématu a zjistíte, jak na Whisper na Macu, Windows a v Google Colab a ukázal jednu z cest jak audio převést na text.
Whisper v podobě software pro Mac/Windows/Linux nebo s pomocí Google Colab. Pro Windows mimochodem doporučím whisper-standalone-win
Funguje to dobře, ale mezitím se objevily další možností. Nutno dodat, že zpravidla placené, ale také umějící různé další vychytávky.
POZNÁMKA: Whisper neumí rozpoznávání kdo mluv (diarisation), musí se to řešit dalším software.
Deepgram, prozatím nejlepší objevené
Když jsem nedávno pro klienta hledal jak to dělat “snadněji”, tak jsem prozkoumal řádu možností a nakonec využil Deepgram. Dá se vyzkoušet chvíli zdarma (počáteční kredit je 200 USD a vydrží poměrně dost), ale poté (pochopitelně) budete muset platit. Ale vyplatí se to. Služba navíc umí i více týmových členů.
TIP: Jde to i opačně, “text to speech” se umí naučit váš hlas a poté převyprávět (velmi dobře převyprávět) libovolný text. Více v Konec experimentu s hlasovým digitálním já. Praktické postřehy a proč (prozatím) skončil.
Do Deepgramu prostě nahrajete audio, je to online, takže musíte počítat s potřebou slušnějšího připojení k Internetu. Stačí jít do API Playground a můžete nahrát audio a provést přepis – hlavně to nedělejte z homepage, tam je jakási divná gamifikace co nikam nevede.
V API Playground navíc lze nastavit parametry přepisu. Diarization (rozpoznávání kdo mluví), Utterances (segmentování podle pauz v mluvení), Paragraphs+Punctuations (odstavce a interpunkce). Vyplatí se v záhlaví kontrola zda správně poznal jazyk.
Pak už jen kliknete na “Run” a počkáte. Hodinové audio bude trvat tak 15 až 20 sekund, takže vlastně fantasticky rychlé.
Dostanete JSON nebo textový přepis, podle toho co se vám bude víc hodit.
Nikdy to nebude 100% dokonalé, pokud je v nahrávce příliš hluku na pozadí, tak vypadnou slova i věty. Může si občas i plést jednotlivé lidi, ale umí to docela dobře.
Deepgram má dva modely, Nova-2 (výchozí) a můžete přepnout i na Whisper, ten bude o něco pomalejší a může poskytnout rozdílné výsledky. A zkušenosti z testování je, že je víc citlivý na nekvalitní audio.
POZNÁMKA: Deepgram umí i Text to speech (váš hlas ale nahrát nemůžete, jen několik předdefinovaných a nevypadá to, že by uměl češtinu) a Text to text (sumarizace, sentiment, atd a ani tady neumí češtinu).
Deepgram je použitelný přes API, nemusíte tedy používat Web (a ani se tím vlastně ani moc nepoužívá). Vygenerujete si API klíč a pak už voláte – usnadní vám to tím, že pokaždé bude ukazovat jak to můžete dělat. A jede to i z příkazové řádky s pomocí curl,
Další možnosti (a vyzkoušel jsem toho hodně)
Beey si můžete vyzkoušet na pár desítkách minut zdarma, umí mluvčí i by měl být lepší u nahrávek s rušivým pozadím. Ale zrovna ta detekce mluvčích v češtině hodně kulhá, ale umí češtinu. A podle komentářů je jednou z těch lepších služeb.
ChatGPT umí (teoreticky) také přepis, ale háček je, že audio může být maximálně 100 MB. O něco mírně větší audio záznamy můžete zkusit zmenšit, nástrojů na to je řada a běžně se dá dosáhnout poloviční či ještě menší velikosti. Problém je ale většinou je, že se stejně dozvíte “V této chvíli nemám nainstalovaný potřebný software pro přepis zvuku.”. Přes API to ale nakonec stejně využívá Whisper, takže ….
Google Cloud Speech-to-Text je obtížně použitelné pokud jste prostě obyčejný uživatel. Dá se vyzkoušet zadarmo, do počátku můžete mít i kredit a délka audia je omezena na 400 MB. Použití je ale skutečně komplikované. Na druhou stranu, umí opravdu nejvíc jazyků ze všech. Je to také extrémně pomalé, ale to může být dáno neplaceným použitím.
Transkriptor umí češtinu, umí oddělit mluvčí i tvorbu titulků. Možností přizpůsobení je velmi málo, ale v placené by to mohlo být snad i lepší, kvalita je možná tak nastejno jako DeepGram a plná verze je, jak jinak, placená. A sice můžete zkoušet, ale zápis stáhnout můžete jen v placené verzi (dokonce není možné výsledek ani kopírovat do schránky).
Descript umí záplavu věci nad rámec přepisu, hlavně pracovat s videem a titulkovat. U přepisů umí hodně jazyků i detekci více mluvčích (ale výsledky jsou rozpačité). K vyzkoušení bez placení můžete maximálně hodinu audia.
TIP: Clipchamp je aplikace pro Windows (a má i webovou podobu), video editor, ale umí pracovat i s audio soubory. Ale přepis je extrémně pomalý (a odehrává se kdesi v cloudu, takže nutné mít slušné připojení). Slouží (a dobře) pro titulkování videa, byť výsledný .srt zápis lze stáhnout a dál zpracovávat. Nebo přidat do videa.
Služby co neumí česky
Otter.ai se sice zaměřuje hlavně na přepisy online setkání (Zoom. Meet, atd), ale jde tam nahrát audio (Import vpravo nahoře). Lze i zkoušet zadarmo, jak co se týče přepisů ze setkání, tak tři přepisy audio souborů (a je to mimochodem hodně pomalé). Jinak pochopitelně placené. A pozor, umí jen angličtinu.
AssemblyAI také jde zkoumat zdarma a je určené hlavně pro volání přes API, ale má playground, kde si to můžete zkoušet. Má to ale opět háček, neumí česky.
POZNÁMKA: Ono “neumí česky” je bohužel velmi častá stopka. Je málo Speech-to-text co umí česky, ale podobné je to i řady dalších jazyků.