La scorsa settimana si è tenuto Google I/O 2024, l’annuale conferenza di Google dedicata agli sviluppatori per presentare le principali novità in programma su più fronti.
Quest’anno, la serata è stata dominata dall’intelligenza artificiale generativa, vera protagonista di diversi keynote, nell’intento di ribadire il predominio – reale o presunto – del gigante di Mountain View in questo campo. Se infatti molti sostengono che, ad oggi, i motori di ricerca AI non possono surclassare Google, monopolista della ricerca in tutte le sue sfumature, è anche vero che il lancio di Gemini a fine 2023 non aveva entusiasmato, seminando anzi diversi dubbi sulla sua affidabilità.
Dubbi che Sundar Pichai, CEO di Google, ha tenuto a dissipare, focalizzandosi molto sugli sforzi degli sviluppatori e gli upgrade proprio del modello di AI Gemini, come riporta Techcrunch.
Evoluzione di Gemini
Gemini Nano, il grande modello linguistico per dispositivi mobili di Google, si potenzia. Ora si chiamerà Gemini Nano con Multimodalità, come ha annunciato proprio Sundar Pichai e sarà in grado di “trasformare qualsiasi input in qualsiasi output”. Ciò significa che potrà estrarre informazioni da testi, foto, audio, web o video social, oltre a video in diretta dalla fotocamera del telefono, e sintetizzare quell’input per riassumere ciò che contiene o per rispondere alle possibili domande al riguardo. In un filmato dimostrativo mostrato da Google una persona usa Gemini Nano per scansionare con la fotocamera dello smartphone i libri su uno scaffale e registrare i titoli in un database.
Inoltre, Gemini 1.5 Pro, il più sostanzioso sistema di AI basato sul cloud di Google, è disponibile ora per gli sviluppatori a livello globale.
Miglioramenti nella ricerca fotografica
Google ha introdotto nuovi strumenti di ricerca visiva in Google Foto. La funzione Ask Photos consente agli utenti di chiedere a Gemini di cercare tra le proprie foto con risultati più dettagliati, come individuare un’auto in base alla targa.
In un post blog di Google, l’ingegnere capo del progetto Ask Photos – disponibile da quest’estate – rassicura sul fatto che la funzione non raccoglie dati a scopo pubblicitario o per addestrare gli altri modelli Gemini oltre a quelli utilizzati in Google Foto. Una precisazione doverosa, visto l’utilizzo dilagante di dati non autorizzati, a fronte di una privacy sempre meno garantita.
Integrazione dell’AI in Workspace
L’intelligenza artificiale è stata integrata nella suite di strumenti per l’ufficio di Google, Workspace, come illustrato in un post blog ufficiale. Gemini sarà quindi accessibile tramite un pulsante nelle app come Gmail, Google Drive e Docs, facilitando attività come la scrittura di email e la sintesi di documenti.
Google ha anche presentato nuovi strumenti a supporto degli studenti, inclusi chatbot per l’assistenza ai compiti e l’aggiornamento di Circle to Search, che consentirà di fare ricerche su un elemento di una pagina con un semplice gesto del dito. Presto sarà possibile utilizzarla per spiegare per esempio come risolvere un problema di matematica.
Integrato nelle app come Docs e Gmail è anche AI Teammate, alimentato da Gemini. Affine ad un compagno di lavoro a supporto della produttività, può aiutare a coordinare meglio le comunicazioni tra colleghi, tenere traccia dei file di progetto, compilare elenchi di cose da fare ed eseguire incarichi. Infine, una demo di Gems ha mostrato come la nuova funzione imposti routine automatizzate per le cose da far fare regolarmente a Gemini.
Nuovi modelli di Gemini
Google ha lanciato due nuovi modelli del suo Gemini AI, focalizzati su differenti tipi di compiti. Gemini 1.5 Flash è quello più veloce e a minor latenza, ottimizzato per compiti in cui la rapidità è l’elemento pregnante.
Project Astra, invece, è un chatbot visivo avanzato, che consente agli utenti di porre domande sfruttando le fotocamere dei dispositivi. In particolare, permette di chiedere informazioni a Gemini su oggetti inquadrati dalla fotocamera o dare compiti creativi o pratici a Gemini (come trovare oggetti smarriti). Inoltre può funzionare con occhiali smart per interagire con l’intelligenza artificiale a mani libere e vedere le informazioni direttamente sulle lenti.
Project Astra rappresenta un rilevante passo avanti nell’intelligenza artificiale mobile e apre nuove possibilità per l’interazione con la tecnologia.
Creatività basata sull’IA
Alla conferenza di Google si è affrontato anche il tema delle app creative dell’AI, con demo dedicate a una suite di strumenti in fase di sperimentazione. In particolare, i riflettori erano puntati su VideoFX, un modello video generativo. Il sistema crea video a 1080p sulla base di richieste testuali, garantendo una maggiore flessibilità nel processo di produzione rispetto al passato.
Ma Google ha anche migliorato ImageFX, un generatore di immagini ad alta risoluzione che ora potenzia la capacità di analisi delle richieste e la generazione di testo.
Innovazioni nella ricerca
Google, nato come motore di ricerca, non poteva certo trascurare Google Search nei keynote della scorsa settimana. E non lo ha fatto: ha introdotto nuove funzionalità che sfruttano l’intelligenza artificiale per fornire risposte complete direttamente ai quesiti degli utenti, aiutandoli anche nella pianificazione di attività ed eventi.
Google ha presentato le AI overviews, delle sintesi generate dall’AI che raccolgono informazioni da più fonti per rispondere a una domanda digitata da un utente nel motore di ricerca. I nuovi riepiloghi appaiono in cima ai risultati, in modo che non sia più necessario cliccare su un sito per trovare ciò che si cerca. La novità nasconde però delle zone d’ombra: la preoccupazione dilagante è che una funzione in grado di rispondere alle domande senza che l’utente debba cliccare su un link possa rendere la vita – e il posizionamento – dei portali nei risultati di ricerca di Google piuttosto difficile.
Un’altra funzione, nominata Multi-Step Reasoning, consente di approfondire un argomento su diversi livelli. Google ha portato come esempio la pianificazione di un viaggio: con le nuove capacità Google Maps può aiutare gli utenti a trovare hotel e definire gli itinerari, suggerendo ristoranti e contribuendo alla pianificazione dei pasti, presentando poi le informazioni in modo organizzato. Una funzionalità che voi addetti al settore dovreste assolutamente tenere d’occhio.
Sicurezza e privacy
La conferenza annuale di Google ha abbracciato anche il tema della privacy, tra le questioni più delicate e centrali nell’utilizzo dell’AI. In particolare, ha lanciato una funzione di rilevamento delle truffe per Android, in grado di ascoltare le chiamate e di individuare le espressioni che potrebbero essere usate da un truffatore. Se il sistema ritiene che state per essere raggirati, interrompe la chiamata e vi suggerisce di riagganciare con un messaggio sullo schermo. Lo strumento si attiva direttamente sul dispositivo e le telefonate non vengono inviate al cloud per essere analizzate, nelle parole di Google.
Infine SynthID è pensato per identificare i contenuti multimediali realizzati dall’AI. Il fine del tool è quello di rintracciare la disinformazione, i deepfake o lo spam finalizzato al phishing grazie all’inserimento di una filigrana invisibile ma rilevabile da un software che analizza un’immagine a livello di pixel. Tale funzione scansionerà i contenuti sull’app Gemini, sul web e nei video generati da Veo.
In conclusione, pare che Google miri davvero al monopolio dell’intelligenza artificiale generativa e le innumerevoli funzioni presentate lo dimostrano.
Voi cosa ne pensate? Vi affidereste ai nuovi strumenti firmati Google o siete scettici? Parliamone nei commenti.