Vo štvrtok Google predstavil Gemini 1.5 Pro, ktorý spoločnosť opisuje ako „dramaticky zvýšený výkon“ v porovnaní s predchádzajúcim modelom. Trajektória AI spoločnosti – interne vnímaná ako čoraz kritickejšia pre jej budúcnosť – nasleduje po minulotýždňovom odhalení Gemini 1.0 Ultra spolu so zmenou značky chatbota Bard (na Gemini), aby sa zosúladil s výkonnejšími a všestrannejšími možnosťami nového modelu.
V oznamovacom blogovom príspevku sa generálny riaditeľ spoločnosti Google Sundar Pichai a generálny riaditeľ spoločnosti Google DeepMind Demis Hassabis snažia vyvážiť uistenie svojho publika o etickej bezpečnosti AI a zároveň propagovať rýchlo sa rozvíjajúce schopnosti svojich modelov. „Naše tímy pokračujú v posúvaní hraníc našich najnovších modelov s bezpečnosťou v jadre,“ zhrnul Pichai.
Spoločnosť musí zdôrazniť bezpečnosť pre skeptikov AI (vrátane jedného bývalého generálneho riaditeľa Google) a vládnych regulátorov. Musí však tiež zdôrazniť zrýchľujúci sa výkon svojich modelov pre vývojárov AI, potenciálnych zákazníkov a investorov, ktorých sa týkalo, že spoločnosť bola príliš pomalá na to, aby reagovala na úspech OpenAI s ChatGPT.
Pichai a Hassabis tvrdia, že Gemini 1.5 Pro poskytuje porovnateľné výsledky ako Gemini 1.0 Ultra. Gemini 1.5 však funguje na tejto úrovni efektívnejšie, so zníženými výpočtovými požiadavkami. Multimodálne možnosti zahŕňajú spracovanie textu, obrázkov, videí, zvuku alebo kódu. Ako modely AI napredujú, budú aj naďalej ponúkať všestrannejšie možnosti v jednom okne s výzvou (ďalším nedávnym príkladom bolo OpenAI integrujúce generovanie obrázkov DALL-E 3 do ChatGPT).
Gemini 1.5 Pro tiež dokáže spracovať až jeden milión tokenov alebo jednotky dátových modelov AI, ktoré môžu spracovať v jednej žiadosti. Google hovorí, že Gemini 1.5 Pro dokáže spracovať viac ako 700 000 slov, hodinu videa, 11 hodín zvuku a kódové bázy s viac ako 30 000 riadkami kódu. Spoločnosť tvrdí, že je dokonca „úspešne testovaná“ verzia, ktorá podporuje až 10 miliónov tokenov.
Spoločnosť tvrdí, že Gemini 1.5 Pro si zachováva vysokú presnosť v dopytoch s väčším počtom tokenov, keď má na naučenie viac nových údajov. Hovorí sa, že model zaujal v hodnotení Needle In a Haystack. V tomto teste vývojári vložia malú informáciu do dlhého textového bloku, aby zistili, či ju model AI dokáže vybrať. Google uviedol, že Gemini 1.5 Pro dokáže nájsť vložený text 99 percent času v dátových blokoch dlhých až jeden milión tokenov.
Google hovorí, že Gemini 1.5 Pro môže uvažovať o rôznych detailoch zo 402-stranových prepisov misie Apollo 11 na Mesiac. Okrem toho dokáže analyzovať zápletky a udalosti z nahraného 44-minútového nemého filmu s Busterom Keatonom v hlavnej úlohe. „Keďže dlhé kontextové okno 1.5 Pro je prvé svojho druhu medzi rozsiahlymi modelmi, neustále vyvíjame nové hodnotenia a benchmarky na testovanie jeho nových schopností,“ napísal Hassabis.
Google uvádza na trh Gemini 1.5 Pro s kapacitou 128 000 tokenov, čo je rovnaký počet, pri ktorom dosahujú maximum modely GPT-4 OpenAI (verejne oznámené). Hassabis hovorí, že Google nakoniec predstaví nové cenové úrovne, ktoré podporujú až jeden milión tokenových dopytov.
Gemini 1.5 Pro je tiež zbehlý v učení sa novým zručnostiam z informácií v dlhých výzvach – bez ďalšieho dolaďovania („učenie sa v kontexte“). V teste nazvanom Machine Translation from One Book sa model naučil gramatickú príručku pre Kalamang, jazyk s menej ako 200 hovorcami na celom svete, na ktorý sa predtým neškolil. Spoločnosť tvrdí, že Gemini 1.5 Pro sa naučili fungovať na podobnej úrovni ako človek, ktorý sa naučil rovnaký obsah pri preklade angličtiny do Kalamangu.
V časti oznámenia, ktoré upúta pozornosť vývojárov, Google hovorí, že Gemini 1.5 Pro môže vykonávať úlohy riešenia problémov v dlhších blokoch kódu. „Keď dostanete výzvu s viac ako 100 000 riadkami kódu, môže to lepšie zdôvodniť príklady, navrhnúť užitočné úpravy a poskytnúť vysvetlenia, ako fungujú rôzne časti kódu,“ napísal Hassabis.
Čo sa týka etiky a bezpečnosti, Google hovorí, že využíva „rovnaký prístup k zodpovednému nasadeniu“ ako pri modeloch Gemini 1.0. To zahŕňa vývoj a aplikáciu techník red-teamingu, kde skupina etických vývojárov v podstate slúži ako diablov advokát a testuje „rozsah potenciálnych škôd“. Okrem toho spoločnosť tvrdí, že dôkladne skúma oblasti, ako je bezpečnosť obsahu a poškodenie reprezentácie. Spoločnosť tvrdí, že pokračuje vo vývoji nových etických a bezpečnostných testov pre svoje nástroje AI.
Google spúšťa Gemini 1.5 v skoršom prístupe pre vývojárov a podnikových zákazníkov. Spoločnosť plánuje, že ju nakoniec sprístupní širšie. Gemini 1.0 je v súčasnosti k dispozícii pre spotrebiteľov spolu s variantom Pro, ktorý stojí 20 dolárov mesačne.
Obrázok: www.engadget.com
Average Rating