GPT4V/GPT4Vision je další dílek schopností ChatGPT 4 – přidává možnost nahrát obrázek (vyfotit fotku) a umělá inteligence se pokusí zjistit co v něm je a umožní vám pokračovat v konverzaci – můžete se ptát, rozvíjet, vymýšlet, hledat souvislost, chtít nějaké další věci.
GPT4V je součástí výchozí ChatGPT4 a je nutné mít Plus, tedy placenou verzi – nemůžete mít aktivovaný Browsing with Bing ani Dall E, prostě jen přepnout na Default kliknutím v menu schovávajícím se pod “GPT-4” nahoře. Můžete na mobilu, ale i počítači.
Tím získáte možnost nahrát obrázek (na počítači) nebo nahrát obrázek a vyfotit (na mobilu). Udělejte to a poté můžete rovnou odeslat, případně můžete ještě doplnit rovnou co chcete. Pokud nic nedoplníte, může být odpověď v angličtině.
Co to umí
Rozpoznává objekt i objekty, může jich být i více. Mohou to být i jen určité části objektů.
Umí rozpoznávat texty, umí i češtinu.
Představte si GPT4V jako novou generaci Google Lens (Goggles), která nejen že umí rozpoznávat co na obrázku je (zda lépe ale zatím nevíme), ale dokáže to i více analyzovat a poté v konverzací diskutovat a řešit další návazné věci.
Některé schopností jsou ale dost neuvěřitelné. Opravdu totiž můžete ChagGPT “namířit” na vaši ledničku a zeptat se co v lednici máte a ona vám to velmi dobře popíše, upozorní i na některé zajímavější věci. Následně nabídne (třeba) i to, že vám může navrhnout pár jídel i s recepty.
Dokáže i velmi detailně popsat co na fotce/obrázku je, jaké jsou tam barvy, jestli tam někde jsou i texty kterých jste si možná ani nevšimli (třeba podpis autora)
Je to stále ChatGPT, takže se předpokládá, že se i na to co v obrázku/fotce je budete ptát. Třeba bude-li tam auto, tak se můžete zeptat “jakou barvu má auto”.
Je možné nahrát více než jeden obrázek a ChatGPT je porovná a řekne jaké jsou v nich rozdíly.
Podrobné popisky můžete použít jako vstup pro DALL E 3. O vytvoření promptu můžete i požádat, ale (bude o tom samostatný tip) prompt je velmi krátký a spíše nedostatečný – míněno pro to, abyste nahráli obrázek/fotku a nechali si vygenerovat “totéž” v DALL E 3.
Co dál ještě umí?
- Přečíst a vysvětlit grafy, infografiky
- Z fotky více mincí či bankovek vám řekne kolik mají celkem hodnotu
- Pozná filmy, herce
- Pozná jídlo či pití a umí k němu dodat i recept
- Zvládá i flóru a faunu a předměty, atd
- Umí poznat místa, města, pamětihodnosti, ale jsou tu nějaká “bezpečnostní” omezení a možnosti omezené tím, že to místo musí znát
- Poradí i zlepšení obrázku, můžete diskutovat estetiku
- Poskytnout kontext, pokud je tedy nějaký možné odhalit
- Pro předmět v obrázku umí definovat jeho umístěním v pixelech
- Dokáže poznat rovnice a vůbec další matematické věci
- Umí přečíst tabulku a poskytnout v tabulkové formě
- Předložíte-li UI/web mockup, tak ho také umí analyzovat i zpracovat (níže na mockupu od WireframeSketcher, zda to ale funguje můžete zkusit sami)
Co neumí?
- Odmítá pracovat s obličeji lidí. Odmítá občas i vůbec pracovat s fotkou člověka, ale dá se to obejít tím, že ji řeknete ať vynechá konkrétní osobu a použije abstrakci typu “mladá žena” (například).
- Odmítne i jakkoliv hodnotit vzhled lidí
- Není možné použít pro řešení Captcha
- Prozatím není možné chat sdílet, stejně jako není možné sdílet DALL E 3 chaty
- Obrázky neumí zpracovávat, tedy žádné úpravy, změny, barvy, filtry
Pozor na opravdu komplexní obrázky, čas od času se zpracování zakucká. Ale na druhou stranu dokáže vytahovat řadu detailů.
Další tipy týkající se ChatGPT
-
TIP#2860: Jak na MacOS přidat stín k obrázkům (pokračování řešení pro Windows)
Před mnoha měsíci jsem využil ChatGPT k vytvoření .cmd skriptu pro Windows, který k obrázku přidá stín pomocí imagemagick. Ušetřil mi záplavu času, protože to používám prakticky neustále pro sociální sítě i…
-
TIP#2850: Jak pracovat s ChatGPT rozhraním? Základy
Překvapivě často narážím na to, že lidé nevědí jak ChatGPT funguje a jak pracovat s rozhraním, ať už webovým nebo mobilním (je prakticky shodné). Netuší ani základy, takže těmi začneme. A přidám…
-
TIP#2837: Jak funguje ChatGPT search. Základy i pokročile tipy. A proč to není náhrada klasického vyhledávače
ChatGPT má od konce října 2024 novou funkci ChatGPT search. Pokročilejší schopnost integrující vyhledávací nástroje (stále ale Bing) i další zdroje (včetně médií) pro získání aktuálních informací. Včetně velmi dobrého zdrojování. Prozatím…
-
TIP#2834: Advanced Voice Mode na ChatGPT. V čem je jiný než předchozí podoba a k čemu je to dobré?
Do ChatGPT v Evropě dorazilo Advanced Voice Mode. Doposud ho OpenAI klasicky blokovala, protože se dohadovala s EU o dalších podivnostech a šlo to jedině přes VPN. Od 24. října je ale…
-
TIP#2825: Jak funguje paměť (memory) v ChatGPT? Jak zjistit co se o vás naučila?
Od jisté doby má ChatGPT paměť (Memory). Do ní si ukládá věci, které zjistila při vaši konverzaci. Paměť můžete potlačit (v rámci chatu) a můžete se i podívat, co se o vás…
-
TIP#2817: Jak používat dočasný (temporary) chat v ChatGPT a k čemu slouží
ChatGPT je postavená na tom, že můžete vytvářet další a další chaty a poté se k nim případně i kdykoliv vracet a pokračovat v konverzaci. Osobně jich tam mám určitě přes tisícovku…
-
TIP#2808: Jak využít ChatGPT pro návrh témat pro váš web/blog, která ještě nemáte zpracovaná
ChatGPT funguje docela dobře pro navrhování článků na určité téma. Už jsem to probíral v Poradí mi AI jaké další tipy mám psát pro 365tipů? Využití #ChatGPT pro návrh témat v trochu…
-
TIP#2806: Využijte novou “uvažující” ChatGPT o1 pro detailnější zadání pro DALL E 3
OpenAI na počátku září uvedla ChatGPT o1 (v preview podobě) se schopností uvažovat. A je docela zajímavé ji zkusit využit pro lepší návrhy zadání (promptu) pro DALL E 3 v klasické GPT…
-
TIP#2802: Co je to HAARP? A proč si někteří lidé myslí, že slouží USA k manipulaci počasí?
Je to teď aktuální. dezoláti na sociálních sítích tvrdí, že za současné počasí a povodně mohou USA a jakýsi HAARP. Tak jsem se šel zeptat ChatGPT a výjimečně to nedám na JustIT.cz.…
-
TIP#2761: Co umí (neumí) ChatGPT-4o mini vs. plná ChatGPT-4o
V červenci 2024 Open AI vypustili do světa ChatGPT-4o mini. Je tedy dobré vědět co neumí oproti plné a komplexnější ChatGPT-4o. Následjící tabulky pochází přímo od ChatGPT 4o mini. Související příspěvky TIP2567:…
-
TIP#2710: Co všechno je/není možné dělat v neplacené Chat GPT (GPT-4o)?
OpenAI v dubnu 2024 uvolnilo GPT-4o, pokročilejší verzi GPT4, ale hlavně verzi ve které se otevřela řada schopností, které doposud byly pouze v placené GPT Plus. Související příspěvky TIP#2850: Jak pracovat s…
-
TIP#2624: Další šetření času s Image Magick. Vytvoření stínu okolo/pod obrázkem
Dělal jsem to chvíli v Canva, ale je to trochu opruz. Otevřít Canva, nahrát obrázek, vyvolat menu, editace, efekty, stín, stáhnout obrázek. Pak jsem se šel ChatGPT zeptat, jestli nejde Canva nějak…
-
TIP#2621: ChatGPT? Google Bard/Gemini? Microsoft Bing/Copilot? Co vybrat?
Tohle je těžké. Máme tu v zásadě tři hlavní linie generativních umělých inteligencí. ChatGPT od OpenAI, Gemini (dříve Bard) od Google a Copilot (dříve Bing) od Microsoftu. Ta poslední je navíc postavená…
-
TIP#2619: Jak velké množství souborů třídit do složek podle roku a měsíce? A jak v tom pomůže ChatGPT?
Mám v počítači dvě složky, kde každý měsíc přibude spousta souborů a je velmi vhodné ty starší odsouvat někam do archivu, aby ta složka zůstala použitelná. Dlouho jsem to dělal ručně. Prostě…
-
TIP#2577: Jaké jsou nejvíce rozšířené AI mýty?
Další přírůstek do série “Mýty” se týká AI, věci co je aktuálně hodně v kurzu a také tomu odpovídá řada mýtů s tím spojených. Související příspěvky TIP#2396: Jak je to u ChatGPT…