TIP#2806: Využijte novou “uvažující” ChatGPT o1 pro detailnější zadání pro DALL E 3

OpenAI na počátku září uvedla ChatGPT o1 (v preview podobě) se schopností uvažovat. A je docela zajímavé ji zkusit využit pro lepší návrhy zadání (promptu) pro DALL E 3 v klasické GPT 4o.

Pokud například vezmeme titulek tohoto tipu a požádáme DALL E 3 přímo o “prosím vytvoř ilustraci na šířku na téma:” tak vznikne například toto:

Prompt tomu odpovídající je: A futuristic scene where a person is using an advanced AI assistant called ‚ChatGPT o1‘ to refine an image creation task for a powerful art generation tool like DALL-E 3. The person is sitting at a sleek, minimalistic workstation with a holographic interface projecting various image concepts and prompts. The background shows a digital, abstract environment symbolizing creativity and artificial intelligence at work. The AI assistant appears as a semi-transparent figure or hologram, actively engaging with the user to improve their artistic requests.

Ale pokud požádáme ChatGPT-o1 o “Prosím navrhni prompt pro DALL E 3 pro toto téma:” tak získáme zadání: „Zobrazte futuristickou scénu, kde pokročilá umělá inteligence (symbolizující ‚uvažující‘ ChatGPT o1) pečlivě tvoří detailní a komplexní zadání. Z tohoto zadání vychází živý, vysoce kvalitní obraz generovaný DALL·E 3. Scéna by měla symbolizovat, jak vylepšené uvažování vede k lepším vizuálním výstupům.“

To poté můžete v DALL E 3 použít k vytvoření nového obrázku:

Který tak jako tak DALL E 3 mělo podle svého vlastního upraveného zadání: A futuristic scene where an advanced AI, representing the ‚thinking‘ ChatGPT o1, is meticulously crafting a detailed and complex prompt. From this prompt, a vivid, high-quality image is being generated by DALL·E 3. The scene symbolizes how enhanced reasoning leads to better visual outputs. The AI is depicted as an abstract, intelligent presence, possibly a hologram or a glowing figure, with intricate patterns forming around it. The generated image appears as a vibrant, emerging visual, showcasing creativity and precision. The setting is sleek, digital, and futuristic.

Při práci s ChatGPT-o1 si případně i všímejte možnosti rozbalit “Thought for…” a trochu tak nahlédnout na to, jakým způsobem nad zadáním uvažovala.

Něco jiného?

Co třeba “Prosím navrhni DALL E 3 prompt pro toto téma: Stoletá voda ohrožuje Prahu. “ vs. prosté “Prosím o foto na šířku. Téma: Stoletá voda ohrožuje Prahu”.

Návrh od o1: „Zobrazte dramatickou scénu, kde stoletá voda ohrožuje historické centrum Prahy. Řeka Vltava se vylila z břehů a její rozbouřené vody obklopují ikonické památky jako Karlův most, Pražský hrad a Staroměstskou radnici. Obloha je temná a zatažená, s těžkými mraky a deštěm, který přidává na atmosféře napětí. Obyvatelé města jsou vidět v dálce, jak se snaží zachránit své domovy. Scéna by měla zdůraznit kontrast mezi krásou historické architektury a silou přírody.“

Proč něco takového dělat?

Nejpodstatnější vhodný důvod je nejspíš ten, že tvorba promptu pomocí o1 vede k bohatému zadání. To můžete použít rovnou, ale také ho přizpůsobit a předpřipravený prompt vám lépe pomůže pochopit co vlastně můžete chtít.

Zcela správně se ale můžete zeptat, proč to nedělat přímo v ChatGPT 4o. Můžete, ale „uvažující“ podoba nad tím tak trochu „víc přemýšlí“. A zkušenosti navíc i je, že tvoří zadání, které DALL E 3 méně odmítá vytvořit s ohledem na „porušování pravidel“.

Ale můžete si to i nechat vysvětlit dotazem „Proč bych vlastně vůbec měl používat Chat GPT 1 pro tvorbu promptu pro Dall e 3. Není to stejné jako využití klasické ChatGPT 4o?“

Použití „uvažujícího“ ChatGPT o1 pro tvorbu promptů pro DALL·E 3 může výrazně zlepšit kvalitu výsledných obrázků. Tato verze ChatGPT je navržena tak, aby poskytovala detailnější, přesnější a nuancovanější popisy díky svým pokročilým schopnostem uvažování. Bohatší a preciznější prompty pomáhají DALL·E 3 generovat realističtější a věrnější obrázky, které lépe odpovídají vaší představě.

Zatímco klasická verze ChatGPT 4o je schopná vytvořit kvalitní prompty, „uvažující“ ChatGPT o1 nabízí vylepšený výkon při jejich tvorbě. To vede k lepším výsledkům při generování obrázků, protože DALL·E 3 má k dispozici detailnější a propracovanější instrukce, které může následovat.

Dá se teď například požádat o „Tak mi teď navrhni prompt, který bude jasně ilustrovat toto vysvětlení. Ideálně ve formě nějaké ínfografiky.“

Což povede k zadání:

„Vytvořte infografiku, která ilustruje výhody používání ‚uvažujícího‘ ChatGPT o1 oproti klasickému ChatGPT 4o při tvorbě promptů pro DALL·E 3. Infografika by měla obsahovat srovnání vedle sebe:

Vlevo: Proces a výsledek použití klasického ChatGPT 4o. Zobrazte jednodušší prompt a méně detailní obrázek generovaný DALL·E 3.
Vpravo: Proces a výsledek použití ‚uvažujícího‘ ChatGPT o1. Zobrazte detailnější, komplexnější prompt a realističtější obrázek generovaný DALL·E 3.

Použijte grafické prvky jako ikony, šipky a textové popisky k vysvětlení rozdílů. Design by měl být čistý, přehledný a vizuálně přitažlivý, s důrazem na zlepšení kvality díky použití ‚uvažujícího‘ ChatGPT o1.“

Vlastně docela povedené zadání pro grafika, lidského. Pro DALL E 3 je to poněkud příliš složité, ale to co vytvoří by mohlo grafikovi posloužit jako skvělá inspirace.

Případně můžete zkusit kouzlit s klasickým „Prosím zásadně zjednodušit“.

Další tipy týkající se ChatGPT

TIP#3212: Jak využít ChatGPT pro kontrolu pravopisu? Jde to. Ale něco byste měli vědět

Psal jsem o tom už před dvěma roky v Je možné použít ChatGPT/LLM pro kontrolu pravopisu? Jak na kontrolu (zejména českého) pravopisu?. V novém tipu je čas si ukázat prakticky použitelné řešení.…
TIP#3200: Marketing není jedna věc. A právě proto v něm firmy tak často chybují (dlouhé čtení)

Měl jsem dvouhodinový seminář pro Venture Club o marketingu. Nahrál na Plaud, nechal přepsat a poté v ChatGPT doladil prompt pro napsání dlouhého „playbook“ textu a krátkého článku. V tomto článku je…
TIP#3187: Co to v AI znamenají tokeny a kontextové okno? A čím to omezuje? Dlouhé čtení

TLDR? Tokeny jsou jednotka, ve které AI počítá text; kontextové okno je omezený pracovní prostor, do kterého se musí vejít zadání, historie, přílohy i odpověď a když ho zahltíte, AI začne zapomínat,…
TIP#3168: Jak na ChatGPT API pro souhrn článků na Internetu. Další velmi dobrý příklad včetně kompletního skriptu (odemčeno)

Jedna z velmi častých věcí pro zdejší newsletter, ale i pro #tyden. Shrnout článek odněkud do odstavce textu. Není to až tak triviální, jak by se mohlo zdát Související příspěvky TIP#3162: Jak…
TIP#3162: Jak na ChatGPT API pro překlad z a do češtiny. Můžete tím snadno nahradit DeepL (odemčeno)

Zachtělo se mi přestat platit za DeepL a místo toho překládat ty krátké štěky do newsletterů s pomocí ChatGPT. Ale nutná podmínka byla překlad s klávesovou zkratkou. Na což DeepL měla aplikaci,…
TIP#3138: Vše o generování obrázků v ChatGPT (GPT Image). Jak to funguje či nefunguje, jak tvořit prompty

Pozor, OpenAI týden před vánoci pustila do světa GPT Image 1.5. Tento tip vznikl pro verzi 1.0, takže některé věci budou platit, některé už ne. Pouštím ho ven, aby bylo možné odchytat…
TIP#3127: Co je nového v GPT-Image 1.5? Tedy v nové verzi generování fotek a obrázků v ChatGPT

OpenAI před Vánoci uvedla GPT-Image 1.5, tedy novější generátor obrázků “integrovaný” do ChatGPT. Původní verze už byla prakticky nepoužitelná. Pomalá a běžně nevygenerovala vůbec nic. Co je nového? Související příspěvky TIP#3138: Vše…
TIP#3120: ChatGPT umí generovat prompty pro jiné obrázkové či video generátory

Zcela běžně používám ChatGPT pro tvorbu promptů pro Midjourney, ale třeba i scénáře pro video v Sora či Gemini. Použít můžete ale i jiné AI, pokud chcete, umí to také. Související příspěvky…
TIP#3078: Jak text VELKÝMI PÍSMENY převést na správná malá a velká písmena? Jasně že přes ChatGPT

Zejména v tiskových zprávách potkáte zvláštní zlozvyk. Agentury PÍŠÍ TITULKY VELKÝMI PÍSMENY. A v médiích to pak redaktor musí dostat do použitelné podoby. Což není až tak triviální, do cesty se pletou…
TIP#3076: Detekce AI textu. K čemu je dobrá, kdy funguje a kdy ne. Jaké detektory můžete použít

Když se dnes ptáme, jestli konkrétní text napsal člověk nebo umělá inteligence, odpověď zní: odhadnout to často jde, ale spolehlivě to nepoznáte. Nástroje na detekci AI pracují s čísly a grafy, ale…
TIP#3067: RayCast nenačítá proměnné prostředí, jak na ukládání API klíčů? A jak zjistit co Raycast v prostředí má? Co když spouštíte přímo Python?

Když Raycast spouští skripty přes „Create Script Command„, běží v omezeném prostředí shellu. Tento shell: Související příspěvky TIP#3168: Jak na ChatGPT API pro souhrn článků na Internetu. Další velmi dobrý příklad včetně…
TIP#3066: AI vytvořené texty jde poznat podle pomlček, respektive podle en dash. Je to tak?

Nejdřív ochránci čistoty textu křičeli, že používáte “-” místo “–”, tedy spojovníku. Teď křičí, že našli v textu spojovník, a tím pádem je to AI generovaný text. Související příspěvky TIP#3212: Jak využít…
TIP#3061: Necháváte si od ChatGPT (či jiné AI) psát skripty? Pár zásadních tipů i delší přehled

Už dlouho používám ChatGPT pro psaní různorodých skriptů. Před nedávnem jsem přidal do výbavy ChatGPT API a řešil pár dalších skriptů. A opět mi to připomnělo pár věcí, které se hodí. Související…
Jak na ChatGPT API pro souhrn článků na Internetu. Další velmi dobrý příklad včetně kompletního skriptu 💎

Jedna z velmi častých věcí pro zdejší newsletter, ale i pro #tyden. Shrnout článek odněkud do odstavce textu. Není to až tak triviální, jak by se mohlo zdát Související příspěvky TIP#3168: Jak…
TIP#3057: Klienti pro LLM přes API: jak pohodlně chatovat s libovolnou AI

Pokud už máte nějaký ten API přístup k AI, případně máte lokální AI, tak je dost vhodné mít klienta, který ji umožní používat tak jak používáte web/aplikaci pro ChatGPT/Perplexity a další. Související…

Související příspěvky

ChatGPT Dall E 3 Software Umělá inteligence