Přeskočit na obsah
@365tipu
  • Domů
    • Práce na dálku
    • Twitter for dummies
    • Jak na Mastodon
    • Facebook a marketing
    • Návod pro Instagram
    • Jak na LinkedIn
    • Bezpečný Internet
    • Bezpečnost pro novináře
    • Soukromí na Facebooku
    • Pomocník webdesignera
    • Jak na WordPress
    • Nepostradatelné software
      • Jak na Windows 11
      • Jak na Windows 10
      • Jak na iPhone/iPad
      • Jak na Mac OS
      • Jak na Apple TV/TV+
      • Jak na Apple Watch
      • Jak na Apple AirTag
      • Microsoft Office
      • Linux
    • Jazykový koutek
    • GTD
    • Filmy a TV seriály
    • Recenze
    • Chytrá domácnost
      • Chytrá domácnost
      • Jak na Google Home
      • Amazon Echo a Alexa
      • Apple HomePod
      • Jak na Raspberry Pi
      • Jak na QNAP NAS
      • Netatmo
    • Jak na Home Assistant
  • Všechny štítky
  • Odběr e-mailem
  • RSS/XML
  • Kontakt
    • Kontakt
    • Twitter
    • Facebook
    • BlueSky
    • Mastodon
      • Threads
    • Zásady Cookies (EU)
2. 9. 2025 podle 365tipů
Software

TIP#3050: Chcete aby AI dokázala pracovat s (například) celou knihou? Dávejte jí strojově čitelná data. Rozhodně ne PDF

Pár posledních týdnů pomáhám s vydáním knížky o AI (od Lukáše Sedláčka) a mimo to, že už ji mám skoro přečtenou (skvělé čtení), tak jsme potřebovali z knihy dostat i různé “výkřiky”. Do PPC, na socnety, na zadní stranu, atd.  A tak nějak „si s knihou povídat“.

Je to knížka o AI, takže proč nevyužívat AI pro to, co by měla umět dobře. Takže si řeknete, že prostě vezmete PDF celé knihy a nahrajete ho do AI (ChatGPT). Což jde v pohodě, má jen pár set stránek, takže se tam “vejde”.

Ale v okamžiku kdy se začnete ptát na konkrétní věci v obsahu, tak zjistíte … že ChatGPT si suverénně vymýšlí. 

Neví kolik to má kapitol, nedokáže správně uvést číslo stránky pokud chcete vědět odkud něco vybrala. A u výběru ani dokáže citovat, kompletně si vymýšlí i celé texty, byť jsou tak nějak “založené” na něčem, co v knize skutečně je.

Pak navíc začne říkat, že něco nejde, co ještě před chvíli šlo. 

Paradoxně to není problém nedostatku tokenů, tedy toho, že by knížka byla moc velká, ale něčeho úplně jiného

Dávejte AI strojově čitelná data

PDF je ten nejméně vhodný formát pro nahrávání do AI. Stejně tak jako je to ten nejméně vhodný formát, pokud něco posíláte novinářům, nebo prostě někam, kde potřebují z toho PDF dostat původní nepoškozený text.

TIP: Což je mimochodem i klíčové ve zcela jiném případě, viz Tiskové zprávy se v PDF nikdy neposílají. Zopakujeme si to. Nikdy

AI prostě neustále narážela na to, že uvnitř PDF je vše ve formě přizpůsobené pro zobrazení a tisk. Zjednodušeně věci tam vlastně nejdou ani správně za sebou, nejsou strukturovaná a rozpoznatelná. 

V tomhle případě navic problémy dělalo i to, že hodně stránek knížky byly zdroje (Lukáš Sedláček neuvěřitelně precizně vše o čem píše zdrojuje) a tohle dělalo kupu dalších problémů.

Nakonec jsem ručně PDF “očesal” aby tam byly opravdu jen stránky s textem knihy. A ještě navíc uložil v “linearizované” (PDF Linearization) podobě. Ta může pomoci tím, že věci v PDF jdou postupně za sebou. NIkoliv bez správného pořadí. Bylo to rychlejší než PDF převést na Markdown (nebo klidně i Word).

POZNÁMKA: Některá PDF je nutné prohnat OCR, aby vůbec bylo možné získat původní text. To je pro AI ještě horší. 

Pak už ChatGPT dělala co měla – správná čísla stránek, do písmenka správné icitace. 

Nedávejte AI PDF soubory

Čistě prakticky je nejlepší předložit AI knihu ve Wordu, ideálně, HTML, čistém textu (klidně i RTF). Všechno jsou to formáty, které jsou daleko lépe strojově čitelné (zpracovatelné). AI navíc PDF čte s pomocí knihoven v Pythonu, takže tam mohou vznikat spousty dalších komplikací. Knihovny jako pdfplumber, PyMuPDF vnášejí vlastní chyby. 

Výhoda Wordu, HTML či RTF je, že umí zachovat kapitoly, nadpisy, odstavce, odkazy. AI pak chápe kontext (např. že něco je poznámka pod čarou, ne hlavní text). V PDF se tohle rozbije. AI navíc nahrané věci tokenizuje a rozseká na kusy – v PDF opět může dojít k tomu, že se bude v rozsekaných blocích ztrácet. 

PRAVIDLO: Cokoliv ChatGPT předkládáte by mělo být ​​strojově čitelné, strukturované (je to mimochodem ideální i pro prompty, hodně to pomůže) a obsahovat metadata. 

Takže například tabulku tam tk< nedávejte v PDF, ale ideálně jako CSV, případně XLS. Skutečně spíš to CSV, protože i XLS je už komplikovanější. 

ChatGPT navíc umí poradit, prostě to s ní nejdřív proberte – co máte za data, můžete je tam i nahrát v podobě co máte, a ať vám řekne jaký by byl ideální formát (a nezapomeňte ji říct co bude zpracovávat). 

Skvělé vysvětlení toho, proč je PDF peklo a absolutně se nehodí k šíření dokumentů co je potřeba použít dál jinak než jen zobrazit nebo vytisknout.

RAG nebo CustomGPT nebo Projekt

Pro složitější věci (knihy, rozsáhlé tabulky, datové sady) se standardně používá RAG (Retrieval Augmented Generation) – místo nahrání obřího souboru se data uloží do databáze, indexují a AI se k nim dotazuje. To ale v klasickém využít ChatGPT nemůžete využít.  Jedině pokud se vydáte do použití CustomGPT a napojení přes API – reálně se to dělá tak, že se vezme GPT přes API a k tomu vektorová databáze a middleware co to spojí. 

V Custom GPT je to  ale také trošku jiné – ale pořád ne úplně plnohodnotné RAG, jak se dělá ve firmách. Jde tam nahrát soubory  a CustomGPT je používá jako znalostní bázi. Funguje to podobně jako jednoduchý RAG. GPT si při dotazu vytáhne relevantní kousky z těch nahraných souborů a vloží je do promptu. Ale stále platí, že PDF prostě nejsou strukturovaná a strojově zpracovatelná data.

Do CustomGPT jde nahrát maximálně 20 souborů, limit 512 MB na souborů a navíc 2 miliony tokenů na soubor u textů/dokumentů, u tabulek cca 50 MB. Pro jednoho uživatele ja tam maximální uložiště 10 GB, pro organizace 100 GB. Jsou tam i omezení počtu nahrávání podle plánu (free vs. placené). 

Ještě je tu ale cesta přes Projekt – tam totiž můžete nahrát soubory na úrovní projektu a chová se to stejně jako CustomGPT. A platí i stejná omezení jako v CustomGPT.  Stejně jako všude dříve, i zde jde nahrávat soubory textové (TXT, DOCX, RTF, MD, HTML), tabulkové (CSV, XLSX), a také PDF Výhoda u Projektu je, že můžete nastavit omezení paměti, čistě na prostor projektu.

CustomGPT je výhodné v tom, že ho mohou využívat i další lidé – získají “chytré” GPT s nahranými soubory a jedou si vlastní chaty. Projekt je váš, případně týmový. A lze tam mít víc chatovacích vláken. 

Halucinace? Stejně mohou být

Pozor ale, AI si ráda „halucinuje“ zdroje i z dobře připraveného textu. Není to jen formátem, ale povahou modelu. Proto je vždy nutné dělat kontrolu. A zvolit odpovídající model, je dost velký rozdil mezi plným nebo „mini“.

Další tipy týkající se ChatGPT

  • TIP#2470: Jak se vyrovnat s omezením počtu znaků v ChatGPT?

    TIP#2470: Jak se vyrovnat s omezením počtu znaků v ChatGPT?

    ChatGPT má jedno zásadní omezení při používání, omezený počet znaků v komunikaci mezi vámi a AI. Pro neplacenou verzi jde o 4096 znaků rozdělených rovnoměrně mezi to co můžete odeslat (vstup) a…

  • TIP#2467: Proč se ChatGPT/Bard a další podobné AI chovají rozdílně, když s nimi mluvíte česky a anglicky? A proč neumí počítat?

    TIP#2467: Proč se ChatGPT/Bard a další podobné AI chovají rozdílně, když s nimi mluvíte česky a anglicky? A proč neumí počítat?

    Poměrně dost důležitá maličkost, kterou si málokdo uvědomuje, respektive málokdo ví. Je rozdíl, jestli se budete s ChatGPT/Bardem bavit v  angličtině nebo v češtině.  A jedna ze zábavných ukázek je, když se…

  • TIP#2465: Python jako nástroj pro rychlé vylepšení fotografií? A jak pomůže ChatGPT

    TIP#2465: Python jako nástroj pro rychlé vylepšení fotografií? A jak pomůže ChatGPT

    Třeba se to někomu bude hodit. V současných vedrech jsem dostal bláznivý nápad se “naučit” zda by pomocí Pythonu nedalo automatizovat vylepšení fotek, které by to přece jen trochu potřebovaly. Takové základní,…

  • TIP#2461: Jak využít ChatGPT pro generování zadání (prompts) pro Stable Diffusion. Pokročilé naučení ChatGPT

    TIP#2461: Jak využít ChatGPT pro generování zadání (prompts) pro Stable Diffusion. Pokročilé naučení ChatGPT

    V Jak využít ChatGPT pro generování zadání (prompts) pro Stable Diffusion, Midjourney a další? jsem slíbil pokračování, takže tady ho máte. Připomenu, že ChatGPT nemá o generativních obrázkových AI ponětí, v době…

  • TIP#2451: Jak využít ChatGPT pro generování zadání (prompts) pro Stable Diffusion, Midjourney a další?

    TIP#2451: Jak využít ChatGPT pro generování zadání (prompts) pro Stable Diffusion, Midjourney a další?

    ChatGPT můžete využít pro vytváření zadání (promptů) pro generativní obrázkové AI jako je Stable Diffusion, Dall-E (Bing Create), Mid Journey a další. Ale má to drobné zádrhele, dané hlavně tím, že ChatGPT…

  • TIP#2447: Rozšíření pro (zejména) Chrome pro ChatGPT? Pár šikovných věcí se najde

    TIP#2447: Rozšíření pro (zejména) Chrome pro ChatGPT? Pár šikovných věcí se najde

    ChatGPT se vcelku dobře používá aniž byste si pořizovali cokoliv dalšího, ale přeci jen některé věci se hodit mohou. Pozor jen, až si budete nějaká rozšíření pořizovat, tak nic co by po vás…

  • TIP#2444: Placená ChatGPT? Co umí a jak s ní zacházet? Proč si ji pořídit?

    TIP#2444: Placená ChatGPT? Co umí a jak s ní zacházet? Proč si ji pořídit?

    ChatGPT můžete používat zdarma. stačí jít na ai.com a po založení si účtu můžete používat konverzační umělou inteligenci s pár omezeními. Bud pomalejší, bude méně spolehlivá (občas “spadne”, občas bude nedostupná). Nemá…

  • TIP#2442: Pluginy v ChatGPT? Tipy na ty nejzajímavější a jak s pluginy pracovat

    TIP#2442: Pluginy v ChatGPT? Tipy na ty nejzajímavější a jak s pluginy pracovat

    V placené ChatGPT (20 USD měsíčně) můžete mít nejenom přístup k Internetu, ale také pluginy, tedy rozšiřující “aplikace” s různorodou funkčnosti.  Související příspěvky TIP#3212: Jak využít ChatGPT pro kontrolu pravopisu? Jde to.…

  • TIP#2396: Jak je to u ChatGPT a dalších podobných s bezpečností a soukromím?

    TIP#2396: Jak je to u ChatGPT a dalších podobných s bezpečností a soukromím?

    ChatGPT je konverzační umělá inteligence a pokládáte ji otázky, sdělujete ji nějaké informace. Znamená to i to, že může dojít k tomu, že ji budete sdělovat soukromé informace, osobní údaje, ale v…

  • TIP#2391: Co je to AGI (Artificial General Intelligence, obecná umělá inteligence)? Jak ji poznáme?

    TIP#2391: Co je to AGI (Artificial General Intelligence, obecná umělá inteligence)? Jak ji poznáme?

    Artificial General Intelligence (AGI, Obecná umělá inteligence) je pojem používaný k popisu teoretické formy umělé inteligence, která by měla schopnosti obdobné lidem, tj.  Související příspěvky TIP#3212: Jak využít ChatGPT pro kontrolu pravopisu?…

  • TIP#2386: Jak využít ChatGPT pro psaní celých či částečných článků (včetně AI verze)

    TIP#2386: Jak využít ChatGPT pro psaní celých či částečných článků (včetně AI verze)

    Nebudu nic zastírat. Poslední víkend v březnu jsem doháněl resty v psaní tipů pro 365tipů po týdenní skluzu zaviněném #moribundus stavem. Zároveň se připravoval na nějaké školení, které se bude týkat toho,…

  • TIP#2364: Jak stáhnout ChatGPT? Jak mohu používat #chatgpt #ai? Kolik to stojí?

    TIP#2364: Jak stáhnout ChatGPT? Jak mohu používat #chatgpt #ai? Kolik to stojí?

    Protože se množí pokusy tvůrců malware a virů o využití ChatGPT, je možná vhodné napsat tip, který jsem vlastně vůbec neměl v plánu psát. Tedy tip co prostě ukáže kde si můžete…

  • TIP#2359: Můžete použít #AI (#ChatGPT) pro psaní článků? Jak zadávat AI co má dělat? Dvojitý tip

    TIP#2359: Můžete použít #AI (#ChatGPT) pro psaní článků? Jak zadávat AI co má dělat? Dvojitý tip

    Prozradím hned, že ano, můžete, byť to bude mít pár specifik a zádrhelů. A budou články, kde výsledek bude dobrý, ale také články kde to dopadne špatně. Předem to nebudete moci vědět,…

  • TIP#2326: Poradí mi AI jaké další tipy mám psát pro 365tipů? Využití #ChatGPT pro návrh témat

    TIP#2326: Poradí mi AI jaké další tipy mám psát pro 365tipů? Využití #ChatGPT pro návrh témat

    Naučte se používat umělou inteligenci pro navrhování témat článků, příspěvků, textů na sociální sítě. ChatGPT (chat.openai.com) to umí dost dobře, včetně zohlednění různorodých aspektů. Navíc umí i pracovat (tak trochu) s klíčovými…

«Předchozí stránka
1 … 4 5 6

Související příspěvky

TIP#3168: Jak na ChatGPT API pro souhrn článků na Internetu. Další velmi dobrý příklad včetně kompletního skriptu (odemčeno)
TIP#3162: Jak na ChatGPT API pro překlad z a do češtiny. Můžete tím snadno nahradit DeepL (odemčeno)
TIP#3061: Necháváte si od ChatGPT (či jiné AI) psát skripty? Pár zásadních tipů i delší přehled

AI ChatGPT Python Software Umělá inteligence

Předchozí článekTIP#3049: Nákupní rádce: Má dnes vůbec smysl kupovat displeje (notebooky) s 1920x1080?Další článek TIP#3051: Proč si lidé na LinkedIn pletou příspěvky s e-mailem a dávají tam nadměrné podpisy? 

Nejnovější příspěvky

  • TIP#3253: Co je to latence a proč to hraje roli (nejen) při hraní her
  • TIP3252: Chladit notebooky podložkou? Co byste měli vědět
  • TIP#3251: Kouzelná meteostanice ATMOS řeší problém, o kterém ani nevíte
  • TIP#3250: Jak zabránit tomu, aby se Mac po restartu znovu otevřel se všemi aplikacemi z poslední relace
  • TIP#3249: Zálohovat počítači či NAS? Rozhodně ano. Ale kam a jak? Včetně velkého přehledu cloudových služeb

Nejčtenější

Přispět na provoz můžete

Přispějte. 500 Kč můžete změnit dle vlastního uvážení. Z částky zaplatíme DPH a pochopitelně daně platbou na účet 331049001/5500, spec. symbol 365. Částku si můžete změnit. Z platby odvádíme DPH a daníme ji.

Zdejší tipy na zajímavé/užitečné věci obsahují affialiate odkazy na Alzu/Aliexpres

... nebo placeným odběrem

Staňte se platícím odběratelem newsletteru. 5 USD/měsíc, 50 USD/rok nebo dle vlastního uvážení od 100 USD/rok. Každou středu a neděli nálož informací.

Kontakt a tak

Kontakt: 365tipu@gmail.com

Veškerý obsah zde uveřejněný je CC-BY-NC-SA

Oznámení