Přeskočit na obsah
@365tipu
  • Domů
    • Práce na dálku
    • Twitter for dummies
    • Jak na Mastodon
    • Facebook a marketing
    • Návod pro Instagram
    • Jak na LinkedIn
    • Bezpečný Internet
    • Bezpečnost pro novináře
    • Soukromí na Facebooku
    • Pomocník webdesignera
    • Jak na WordPress
    • Nepostradatelné software
      • Jak na Windows 11
      • Jak na Windows 10
      • Jak na iPhone/iPad
      • Jak na Mac OS
      • Jak na Apple TV/TV+
      • Jak na Apple Watch
      • Jak na Apple AirTag
      • Microsoft Office
      • Linux
    • Jazykový koutek
    • GTD
    • Filmy a TV seriály
    • Recenze
    • Chytrá domácnost
      • Chytrá domácnost
      • Jak na Google Home
      • Amazon Echo a Alexa
      • Apple HomePod
      • Jak na Raspberry Pi
      • Jak na QNAP NAS
      • Netatmo
    • Jak na Home Assistant
  • Všechny štítky
  • Odběr e-mailem
  • RSS/XML
  • Kontakt
    • Kontakt
    • Twitter
    • Facebook
    • BlueSky
    • Mastodon
      • Threads
    • Zásady Cookies (EU)
        📩 Přihlaste si newsletter, jenom tak je možné mít všechno. Na sociální sítě jde tak zhruba polovina zajímavého obsahu, e-mail 2x týdně doručí vše v praktickém souhrnu. Ne webu vyjde 5 tipů týdně, jen v newsletteru jsou desítky dalších věcí.
22. 8. 2024 podle 365tipů
Software, Žurnalistika

TIP#2786: Jak na přepis rozhovoru na text? Speech-to-text služby

Dělali jste s někým rozhovor a nechcete to přepisovat ručně. Nebo máte podcast a chcete k němu mít i textový přepis (protože přístupnost a protože SEO). Máte video a chcete ho otitulkovat. A nechce se vám to poslouchat a přepisovat ručně. Dnes už je to snadné. 

Už jsem to tu řešil před rokem a půl v Přepis (podcastu) s pomocí Whisper? Ukážeme si na příkladu důležitého tématu a zjistíte, jak na Whisper na Macu, Windows a v Google Colab a ukázal jednu z cest jak audio převést na text.

Whisper v podobě software pro Mac/Windows/Linux nebo s pomocí Google Colab.  Pro Windows mimochodem doporučím whisper-standalone-win

Funguje to dobře, ale mezitím se objevily další možností. Nutno dodat, že zpravidla placené, ale také umějící různé další vychytávky.

POZNÁMKA: Whisper neumí rozpoznávání kdo mluv (diarisation), musí se to řešit dalším software. 

Deepgram, prozatím nejlepší objevené

Když jsem nedávno pro klienta hledal jak to dělat “snadněji”, tak jsem prozkoumal řádu možností a nakonec využil Deepgram. Dá se vyzkoušet chvíli zdarma (počáteční kredit je 200 USD a vydrží poměrně dost), ale poté (pochopitelně) budete muset platit. Ale vyplatí se to. Služba navíc umí i více týmových členů. 

TIP: Jde to i opačně, “text to speech” se umí naučit váš hlas a poté převyprávět (velmi dobře převyprávět) libovolný text. Více v Konec experimentu s hlasovým digitálním já. Praktické postřehy a proč (prozatím) skončil.

Do Deepgramu prostě nahrajete audio, je to online, takže musíte počítat s potřebou slušnějšího připojení k Internetu. Stačí jít do API Playground a můžete nahrát audio a provést přepis – hlavně to nedělejte z homepage, tam je jakási divná gamifikace co nikam nevede.

V API Playground navíc lze nastavit parametry přepisu. Diarization (rozpoznávání kdo mluví), Utterances (segmentování podle pauz v mluvení), Paragraphs+Punctuations (odstavce a interpunkce). Vyplatí se v záhlaví kontrola zda správně poznal jazyk.

Pak už jen kliknete na “Run” a počkáte. Hodinové audio bude trvat tak 15 až 20 sekund, takže vlastně fantasticky rychlé. 

Dostanete JSON nebo textový přepis, podle toho co se vám bude víc hodit. 

Nikdy to nebude 100% dokonalé, pokud je v nahrávce příliš hluku na pozadí, tak vypadnou slova i věty. Může si občas i plést jednotlivé lidi, ale umí to docela dobře.

Deepgram má dva modely, Nova-2 (výchozí) a můžete přepnout i na Whisper, ten bude o něco pomalejší a může poskytnout rozdílné výsledky. A zkušenosti z testování je, že je víc citlivý na nekvalitní audio. 

POZNÁMKA: Deepgram umí i Text to speech (váš hlas ale nahrát nemůžete, jen několik předdefinovaných a nevypadá to, že by uměl češtinu) a Text to text (sumarizace, sentiment, atd a ani tady neumí češtinu). 

Deepgram je použitelný přes API, nemusíte tedy používat Web (a ani se tím vlastně ani moc nepoužívá). Vygenerujete si API klíč a pak už voláte – usnadní vám to tím, že pokaždé bude ukazovat jak to můžete dělat. A jede to i z příkazové řádky s pomocí curl, 

Další možnosti (a vyzkoušel jsem toho hodně)

Beey si můžete vyzkoušet na pár desítkách minut zdarma, umí mluvčí i by měl být lepší u nahrávek s rušivým pozadím. Ale zrovna ta detekce mluvčích v češtině hodně kulhá, ale umí češtinu. A podle komentářů je jednou z těch lepších služeb. 

ChatGPT umí (teoreticky) také přepis, ale háček je, že audio může být maximálně 100 MB. O něco mírně větší audio záznamy můžete zkusit zmenšit, nástrojů na to je řada a běžně se dá dosáhnout poloviční či ještě menší velikosti. Problém je ale většinou je, že se stejně dozvíte “V této chvíli nemám nainstalovaný potřebný software pro přepis zvuku.”.  Přes API to ale nakonec stejně využívá Whisper, takže ….

Google Cloud Speech-to-Text je obtížně použitelné pokud jste prostě obyčejný uživatel. Dá se vyzkoušet zadarmo, do počátku můžete mít i kredit a délka audia je omezena na 400 MB. Použití je ale skutečně komplikované. Na druhou stranu, umí opravdu nejvíc jazyků ze všech. Je to také extrémně pomalé, ale to může být dáno neplaceným použitím. 

Transkriptor umí češtinu, umí oddělit mluvčí i tvorbu titulků. Možností přizpůsobení je velmi málo, ale v placené by to mohlo být snad i lepší, kvalita je možná tak nastejno jako DeepGram a plná verze je, jak jinak, placená.  A sice můžete zkoušet, ale zápis stáhnout můžete jen v placené verzi (dokonce není možné výsledek ani kopírovat do schránky). 

Descript umí záplavu věci nad rámec přepisu, hlavně pracovat s videem a titulkovat. U přepisů umí hodně jazyků i detekci více mluvčích (ale výsledky jsou rozpačité). K vyzkoušení bez placení můžete maximálně hodinu audia. 

TIP: Clipchamp je aplikace pro Windows (a má i webovou podobu), video editor, ale umí pracovat i s audio soubory. Ale přepis je extrémně pomalý (a odehrává se kdesi v cloudu, takže nutné mít slušné připojení). Slouží (a dobře) pro titulkování videa, byť výsledný .srt zápis lze stáhnout a dál zpracovávat. Nebo přidat do videa.  

Služby co neumí česky

Otter.ai se sice zaměřuje hlavně na přepisy online setkání (Zoom. Meet, atd), ale jde tam nahrát audio (Import vpravo nahoře). Lze i zkoušet zadarmo, jak co se týče přepisů ze setkání, tak tři přepisy audio souborů (a je to mimochodem hodně pomalé). Jinak pochopitelně placené. A pozor, umí jen angličtinu. 

AssemblyAI také jde zkoumat zdarma a je určené hlavně pro volání přes API, ale má playground, kde si to můžete zkoušet. Má to ale opět háček, neumí česky. 

POZNÁMKA: Ono “neumí česky” je bohužel velmi častá stopka. Je málo Speech-to-text co umí česky, ale podobné je to i řady dalších jazyků.

Související příspěvky

TIP#2359: Můžete použít #AI (#ChatGPT) pro psaní článků? Jak zadávat AI co má dělat? Dvojitý tip
TIP#777: Jaký je rozdíl mezi průměrem a mediánem a proč je důležité správně vybrat?
TIP#3017: Jaký je rozdíl v “zeptat se AI” a “použít Deep Research” (hloubkový výzkum), pokročilou argumentací (advanced reasoning) a GPT Search? 

AI Novinařina Software Umělá inteligence Žurnalistika

Předchozí článekTIP#2785: ESP32 a Bluetooth Proxy pro Home AssistantDalší článek TIP#2787: Router? Hub? Switch?  Co všechna ta pojmenování znamenají? Pojďme si projít více než deset termínů

Nejnovější příspěvky

TIP#3028: Picun F8S (F8 Pro na Aliexpressu) sluchátka s ANC co vypadají jako Apple AirPods Max (recenze a zkušenosti)

TIP#3027: Co dělat, když z mého WhatsApp odcházejí podivné zprávy kontaktům? Jak vyřešit hacknutý WhatsApp? Jak funguje hacknutí účtu?

Nákupní rádce (49): Arašídové máslo. Chytrý zavlažovací ventil. Kamera Lamax X9.2. Raid nepostradatelný pomocník

TIP#3026: Je nutné aplikace na MacOS instalovat pouze do Applications? Jak aplikaci přesunout na jiný disk?

TIP#3025: Proč oddělit pracovní a soukromou AI

TIP#3024: Na čem mít připojenou Chytrou TV (či Apple TV)? Na Wi-Fi nebo na Ethernetu?

TIP#3023: Co dělat když na X/Twitteru nevidíte fotky? A co když tvrdí, že vám není 18? 

TIP#3022: Jak dlouho vydrží podložka pod myš (a klávesnici). Kdy poznáte, že je zralá na výměnu? Jaké existují? Jak je udržovat?

TIP#3021: Mám na LinkedIn děkovat za to, že mi někdo schválil propojení? 

TIP#3020: Jak skladovat banány, aby nezhnědly a vydržely déle čerstvé

Nejčtenější

Přispět na provoz můžete

Přispějte. 500 Kč můžete změnit dle vlastního uvážení. Z částky zaplatíme DPH a pochopitelně daně platbou na účet 331049001/5500, spec. symbol 365. Částku si můžete změnit. Z platby odvádíme DPH a daníme ji.

... nebo placeným odběrem

Staňte se platícím odběratelem newsletteru. 5 USD/měsíc, 50 USD/rok nebo dle vlastního uvážení od 100 USD/rok. Každou středu a neděli nálož informací.

Kontakt a tak

Kontakt: 365tipu@gmail.com

Veškerý obsah zde uveřejněný je CC-BY-NC-SA