Přeskočit na obsah
@365tipu
  • Domů
    • Práce na dálku
    • Twitter for dummies
    • Jak na Mastodon
    • Facebook a marketing
    • Návod pro Instagram
    • Jak na LinkedIn
    • Bezpečný Internet
    • Bezpečnost pro novináře
    • Soukromí na Facebooku
    • Pomocník webdesignera
    • Jak na WordPress
    • Nepostradatelné software
      • Jak na Windows 11
      • Jak na Windows 10
      • Jak na iPhone/iPad
      • Jak na Mac OS
      • Jak na Apple TV/TV+
      • Jak na Apple Watch
      • Jak na Apple AirTag
      • Microsoft Office
      • Linux
    • Jazykový koutek
    • GTD
    • Filmy a TV seriály
    • Recenze
    • Chytrá domácnost
      • Chytrá domácnost
      • Jak na Google Home
      • Amazon Echo a Alexa
      • Apple HomePod
      • Jak na Raspberry Pi
      • Jak na QNAP NAS
      • Netatmo
    • Jak na Home Assistant
  • Všechny štítky
  • Odběr e-mailem
  • RSS/XML
  • Kontakt
    • Kontakt
    • Twitter
    • Facebook
    • BlueSky
    • Mastodon
      • Threads
    • Zásady Cookies (EU)
2. 9. 2025 podle 365tipů
Software

TIP#3050: Chcete aby AI dokázala pracovat s (například) celou knihou? Dávejte jí strojově čitelná data. Rozhodně ne PDF

Pár posledních týdnů pomáhám s vydáním knížky o AI (od Lukáše Sedláčka) a mimo to, že už ji mám skoro přečtenou (skvělé čtení), tak jsme potřebovali z knihy dostat i různé “výkřiky”. Do PPC, na socnety, na zadní stranu, atd.  A tak nějak „si s knihou povídat“.

Je to knížka o AI, takže proč nevyužívat AI pro to, co by měla umět dobře. Takže si řeknete, že prostě vezmete PDF celé knihy a nahrajete ho do AI (ChatGPT). Což jde v pohodě, má jen pár set stránek, takže se tam “vejde”.

Ale v okamžiku kdy se začnete ptát na konkrétní věci v obsahu, tak zjistíte … že ChatGPT si suverénně vymýšlí. 

Neví kolik to má kapitol, nedokáže správně uvést číslo stránky pokud chcete vědět odkud něco vybrala. A u výběru ani dokáže citovat, kompletně si vymýšlí i celé texty, byť jsou tak nějak “založené” na něčem, co v knize skutečně je.

Pak navíc začne říkat, že něco nejde, co ještě před chvíli šlo. 

Paradoxně to není problém nedostatku tokenů, tedy toho, že by knížka byla moc velká, ale něčeho úplně jiného

Dávejte AI strojově čitelná data

PDF je ten nejméně vhodný formát pro nahrávání do AI. Stejně tak jako je to ten nejméně vhodný formát, pokud něco posíláte novinářům, nebo prostě někam, kde potřebují z toho PDF dostat původní nepoškozený text.

TIP: Což je mimochodem i klíčové ve zcela jiném případě, viz Tiskové zprávy se v PDF nikdy neposílají. Zopakujeme si to. Nikdy

AI prostě neustále narážela na to, že uvnitř PDF je vše ve formě přizpůsobené pro zobrazení a tisk. Zjednodušeně věci tam vlastně nejdou ani správně za sebou, nejsou strukturovaná a rozpoznatelná. 

V tomhle případě navic problémy dělalo i to, že hodně stránek knížky byly zdroje (Lukáš Sedláček neuvěřitelně precizně vše o čem píše zdrojuje) a tohle dělalo kupu dalších problémů.

Nakonec jsem ručně PDF “očesal” aby tam byly opravdu jen stránky s textem knihy. A ještě navíc uložil v “linearizované” (PDF Linearization) podobě. Ta může pomoci tím, že věci v PDF jdou postupně za sebou. NIkoliv bez správného pořadí. Bylo to rychlejší než PDF převést na Markdown (nebo klidně i Word).

POZNÁMKA: Některá PDF je nutné prohnat OCR, aby vůbec bylo možné získat původní text. To je pro AI ještě horší. 

Pak už ChatGPT dělala co měla – správná čísla stránek, do písmenka správné icitace. 

Nedávejte AI PDF soubory

Čistě prakticky je nejlepší předložit AI knihu ve Wordu, ideálně, HTML, čistém textu (klidně i RTF). Všechno jsou to formáty, které jsou daleko lépe strojově čitelné (zpracovatelné). AI navíc PDF čte s pomocí knihoven v Pythonu, takže tam mohou vznikat spousty dalších komplikací. Knihovny jako pdfplumber, PyMuPDF vnášejí vlastní chyby. 

Výhoda Wordu, HTML či RTF je, že umí zachovat kapitoly, nadpisy, odstavce, odkazy. AI pak chápe kontext (např. že něco je poznámka pod čarou, ne hlavní text). V PDF se tohle rozbije. AI navíc nahrané věci tokenizuje a rozseká na kusy – v PDF opět může dojít k tomu, že se bude v rozsekaných blocích ztrácet. 

PRAVIDLO: Cokoliv ChatGPT předkládáte by mělo být ​​strojově čitelné, strukturované (je to mimochodem ideální i pro prompty, hodně to pomůže) a obsahovat metadata. 

Takže například tabulku tam tk< nedávejte v PDF, ale ideálně jako CSV, případně XLS. Skutečně spíš to CSV, protože i XLS je už komplikovanější. 

ChatGPT navíc umí poradit, prostě to s ní nejdřív proberte – co máte za data, můžete je tam i nahrát v podobě co máte, a ať vám řekne jaký by byl ideální formát (a nezapomeňte ji říct co bude zpracovávat). 

Skvělé vysvětlení toho, proč je PDF peklo a absolutně se nehodí k šíření dokumentů co je potřeba použít dál jinak než jen zobrazit nebo vytisknout.

RAG nebo CustomGPT nebo Projekt

Pro složitější věci (knihy, rozsáhlé tabulky, datové sady) se standardně používá RAG (Retrieval Augmented Generation) – místo nahrání obřího souboru se data uloží do databáze, indexují a AI se k nim dotazuje. To ale v klasickém využít ChatGPT nemůžete využít.  Jedině pokud se vydáte do použití CustomGPT a napojení přes API – reálně se to dělá tak, že se vezme GPT přes API a k tomu vektorová databáze a middleware co to spojí. 

V Custom GPT je to  ale také trošku jiné – ale pořád ne úplně plnohodnotné RAG, jak se dělá ve firmách. Jde tam nahrát soubory  a CustomGPT je používá jako znalostní bázi. Funguje to podobně jako jednoduchý RAG. GPT si při dotazu vytáhne relevantní kousky z těch nahraných souborů a vloží je do promptu. Ale stále platí, že PDF prostě nejsou strukturovaná a strojově zpracovatelná data.

Do CustomGPT jde nahrát maximálně 20 souborů, limit 512 MB na souborů a navíc 2 miliony tokenů na soubor u textů/dokumentů, u tabulek cca 50 MB. Pro jednoho uživatele ja tam maximální uložiště 10 GB, pro organizace 100 GB. Jsou tam i omezení počtu nahrávání podle plánu (free vs. placené). 

Ještě je tu ale cesta přes Projekt – tam totiž můžete nahrát soubory na úrovní projektu a chová se to stejně jako CustomGPT. A platí i stejná omezení jako v CustomGPT.  Stejně jako všude dříve, i zde jde nahrávat soubory textové (TXT, DOCX, RTF, MD, HTML), tabulkové (CSV, XLSX), a také PDF Výhoda u Projektu je, že můžete nastavit omezení paměti, čistě na prostor projektu.

CustomGPT je výhodné v tom, že ho mohou využívat i další lidé – získají “chytré” GPT s nahranými soubory a jedou si vlastní chaty. Projekt je váš, případně týmový. A lze tam mít víc chatovacích vláken. 

Halucinace? Stejně mohou být

Pozor ale, AI si ráda „halucinuje“ zdroje i z dobře připraveného textu. Není to jen formátem, ale povahou modelu. Proto je vždy nutné dělat kontrolu. A zvolit odpovídající model, je dost velký rozdil mezi plným nebo „mini“.

Další tipy týkající se ChatGPT

  • TIP#2850: Jak pracovat s ChatGPT rozhraním? Základy

    TIP#2850: Jak pracovat s ChatGPT rozhraním? Základy

    Překvapivě často narážím na to, že lidé nevědí jak ChatGPT funguje a jak pracovat s rozhraním, ať už webovým nebo mobilním (je prakticky shodné). Netuší ani základy, takže těmi začneme. A přidám…

  • TIP#2837: Jak funguje ChatGPT search. Základy i pokročile tipy. A proč to není náhrada klasického vyhledávače

    TIP#2837: Jak funguje ChatGPT search. Základy i pokročile tipy. A proč to není náhrada klasického vyhledávače

    ChatGPT má od konce října 2024 novou funkci ChatGPT search. Pokročilejší schopnost integrující vyhledávací nástroje (stále ale Bing) i další zdroje (včetně médií) pro získání aktuálních informací. Včetně velmi dobrého zdrojování. Prozatím…

  • TIP#2834: Advanced Voice Mode na ChatGPT. V čem je jiný než předchozí podoba a k čemu je to dobré?

    TIP#2834: Advanced Voice Mode na ChatGPT. V čem je jiný než předchozí podoba a k čemu je to dobré?

    Do ChatGPT v Evropě dorazilo Advanced Voice Mode. Doposud ho OpenAI klasicky blokovala, protože se dohadovala s EU o dalších podivnostech a šlo to jedině přes VPN. Od 24. října je ale…

  • TIP#2825: Jak funguje paměť (memory) v ChatGPT? Jak zjistit co se o vás naučila?

    TIP#2825: Jak funguje paměť (memory) v ChatGPT? Jak zjistit co se o vás naučila?

    Od jisté doby má ChatGPT paměť (Memory). Do ní si ukládá věci, které zjistila při vaši konverzaci. Paměť můžete potlačit (v rámci chatu) a můžete se i podívat, co se o vás…

  • TIP#2817: Jak používat dočasný (temporary) chat v ChatGPT a k čemu slouží

    TIP#2817: Jak používat dočasný (temporary) chat v ChatGPT a k čemu slouží

    ChatGPT je postavená na tom, že můžete vytvářet další a další chaty a poté se k nim případně i kdykoliv vracet a pokračovat v konverzaci. Osobně jich tam mám určitě přes tisícovku…

  • TIP#2808: Jak využít ChatGPT pro návrh témat pro váš web/blog, která ještě nemáte zpracovaná

    TIP#2808: Jak využít ChatGPT pro návrh témat pro váš web/blog, která ještě nemáte zpracovaná

    ChatGPT funguje docela dobře pro navrhování článků na určité téma. Už jsem to probíral v Poradí mi AI jaké další tipy mám psát pro 365tipů? Využití #ChatGPT pro návrh témat v trochu…

  • TIP#2806: Využijte novou “uvažující” ChatGPT o1 pro detailnější zadání pro DALL E 3

    TIP#2806: Využijte novou “uvažující” ChatGPT o1 pro detailnější zadání pro DALL E 3

    OpenAI na počátku září uvedla ChatGPT o1 (v preview podobě) se schopností uvažovat. A je docela zajímavé ji zkusit využit pro lepší návrhy zadání (promptu) pro DALL E 3 v klasické GPT…

  • TIP#2802: Co je to HAARP? A proč si někteří lidé myslí, že slouží USA k manipulaci počasí?

    TIP#2802: Co je to HAARP? A proč si někteří lidé myslí, že slouží USA k manipulaci počasí?

    Je to teď aktuální. dezoláti na sociálních sítích tvrdí, že za současné počasí a povodně mohou USA a jakýsi HAARP. Tak jsem se šel zeptat ChatGPT a výjimečně to nedám na JustIT.cz.…

  • TIP#2761: Co umí (neumí) ChatGPT-4o mini vs. plná ChatGPT-4o

    TIP#2761: Co umí (neumí) ChatGPT-4o mini vs. plná ChatGPT-4o

    V červenci 2024 Open AI vypustili do světa ChatGPT-4o mini. Je tedy dobré vědět co neumí oproti plné a komplexnější ChatGPT-4o. Následjící tabulky pochází přímo od ChatGPT 4o mini.  Související příspěvky TIP2567:…

  • TIP#2710: Co všechno je/není možné dělat v neplacené Chat GPT (GPT-4o)?

    TIP#2710: Co všechno je/není možné dělat v neplacené Chat GPT (GPT-4o)?

    OpenAI v dubnu 2024 uvolnilo GPT-4o, pokročilejší verzi GPT4, ale hlavně verzi ve které se otevřela řada schopností, které doposud byly pouze v placené GPT Plus.  Související příspěvky TIP#3212: Jak využít ChatGPT…

  • TIP#2624: Další šetření času s Image Magick. Vytvoření stínu okolo/pod obrázkem

    TIP#2624: Další šetření času s Image Magick. Vytvoření stínu okolo/pod obrázkem

    Dělal jsem to chvíli v Canva, ale je to trochu opruz. Otevřít Canva, nahrát obrázek, vyvolat menu, editace, efekty, stín, stáhnout obrázek. Pak jsem se šel ChatGPT zeptat, jestli nejde Canva nějak…

  • TIP#2621: ChatGPT? Google Bard/Gemini? Microsoft Bing/Copilot? Co vybrat?

    TIP#2621: ChatGPT? Google Bard/Gemini? Microsoft Bing/Copilot? Co vybrat?

    Tohle je těžké. Máme tu v zásadě tři hlavní linie generativních umělých inteligencí. ChatGPT od OpenAI, Gemini (dříve Bard) od Google a Copilot (dříve Bing) od Microsoftu. Ta poslední je navíc postavená…

  • TIP#2619: Jak velké množství souborů třídit do složek podle roku a měsíce? A jak v tom pomůže ChatGPT?

    TIP#2619: Jak velké množství souborů třídit do složek podle roku a měsíce? A jak v tom pomůže ChatGPT?

    Mám v počítači dvě složky, kde každý měsíc přibude spousta souborů a je velmi vhodné ty starší odsouvat někam do archivu, aby ta složka zůstala použitelná. Dlouho jsem to dělal ručně. Prostě…

  • TIP#2577: Jaké jsou nejvíce rozšířené AI mýty?

    TIP#2577: Jaké jsou nejvíce rozšířené AI mýty?

    Další přírůstek do série “Mýty” se týká AI, věci co je aktuálně hodně v kurzu a také tomu odpovídá řada mýtů s tím spojených. Související příspěvky TIP#2396: Jak je to u ChatGPT…

  • TIP2567: Co je to OSINT a pomůže při téhle činnosti AI?

    TIP2567: Co je to OSINT a pomůže při téhle činnosti AI?

    Občas na tuhle zkratku narážím, takže je možná dobré ji přidat k vysvětleným cizím slovíčkům. OSINT je vlastně tak trochu zkratka a znamená „Open Source Intelligence„.  Související příspěvky TIP#3037: Jak pracovat s…

«Předchozí stránka
1 2 3 4 5 6
Další stránka»

Související příspěvky

TIP#3168: Jak na ChatGPT API pro souhrn článků na Internetu. Další velmi dobrý příklad včetně kompletního skriptu (odemčeno)
TIP#3162: Jak na ChatGPT API pro překlad z a do češtiny. Můžete tím snadno nahradit DeepL (odemčeno)
TIP#3061: Necháváte si od ChatGPT (či jiné AI) psát skripty? Pár zásadních tipů i delší přehled

AI ChatGPT Python Software Umělá inteligence

Předchozí článekTIP#3049: Nákupní rádce: Má dnes vůbec smysl kupovat displeje (notebooky) s 1920x1080?Další článek TIP#3051: Proč si lidé na LinkedIn pletou příspěvky s e-mailem a dávají tam nadměrné podpisy? 

Nejnovější příspěvky

  • TIP#3253: Co je to latence a proč to hraje roli (nejen) při hraní her
  • TIP3252: Chladit notebooky podložkou? Co byste měli vědět
  • TIP#3251: Kouzelná meteostanice ATMOS řeší problém, o kterém ani nevíte
  • TIP#3250: Jak zabránit tomu, aby se Mac po restartu znovu otevřel se všemi aplikacemi z poslední relace
  • TIP#3249: Zálohovat počítači či NAS? Rozhodně ano. Ale kam a jak? Včetně velkého přehledu cloudových služeb

Nejčtenější

Přispět na provoz můžete

Přispějte. 500 Kč můžete změnit dle vlastního uvážení. Z částky zaplatíme DPH a pochopitelně daně platbou na účet 331049001/5500, spec. symbol 365. Částku si můžete změnit. Z platby odvádíme DPH a daníme ji.

Zdejší tipy na zajímavé/užitečné věci obsahují affialiate odkazy na Alzu/Aliexpres

... nebo placeným odběrem

Staňte se platícím odběratelem newsletteru. 5 USD/měsíc, 50 USD/rok nebo dle vlastního uvážení od 100 USD/rok. Každou středu a neděli nálož informací.

Kontakt a tak

Kontakt: 365tipu@gmail.com

Veškerý obsah zde uveřejněný je CC-BY-NC-SA

Oznámení