GPT-4, l'ultima versione del popolare chatbot basato su intelligenza artificiale, può superare i test delle scuole superiori e gli esami di giurisprudenza con ottimi punteggi. Presenta inoltre nuove capacità di elaborazione, non possibili nella versione precedente.
Questi punteggi sono stati condivisi in data 14 marzo dal creatore di ChatGPT, OpenAI. La nuova versione più anche convertire input di immagini, audio e video in testo, nonché gestire "istruzioni molto più articolate" in modo più creativo e affidabile.
"Ha superato un esame di abilitazione simulato con un punteggio comparabile a quello dei migliori partecipanti al test, il top 10%. Al contrario, il punteggio di GPT-3.5 era intorno al 10% inferiore," ha aggiunto OpenAI. Le cifre mostrano che GPT-4 ha ottenuto un punteggio di 163 (migliore dell'88% dei partecipanti) nell'esame LSAT, ovvero il test che gli studenti universitari devono superare negli Stati Uniti per essere ammessi alla facoltà di giurisprudenza.

In altre parole, con questi punteggi GPT4 potrebbe essere ammesso in una delle 20 migliori scuole di giurisprudenza negli Stati Uniti. Con un punteggio leggermente maggiore, questa AI potrebbe entrare in scuole prestigiose come Harvard, Stanford, Princeton o Yale.
GPT-4 ha anche ottenuto un punteggio di 298 su 400 nell'Uniform Bar Exam (UBE): un test svolto da studenti di giurisprudenza neolaureati, che consente loro di esercitare la professione di avvocato negli Stati Uniti. La vecchia versione di ChatGPT ha faticato in questo test, con un punteggio di appena 213 su 400.

Per quanto riguarda gli esami SAT Evidence-Based Reading & Writing e SAT Math – sostenuti dagli studenti delle scuole superiori statunitensi per misurare la loro preparazione al college – GPT-4 ha ottenuto punteggi superiori al 93% e all'89% dei partecipanti.
Ottimi risultati anche nei test scientifici: GPT-4 ha ottenuto punteggi superiori alla media nei test AP Biology (85-100%), Chemistry (71-88%) e Physics 2 (66-84%).

Deludente invece il punteggio di GPT-4 in AP Calculus, con prestazioni superiori soltanto al 59% dei partecipanti. Un'altra area in cui GPT-4 ha avuto difficoltà sono stati gli esami di letteratura inglese, con punteggi in alcuni casi peggiori rispetto al 92% dei partecipanti.
OpenAI ha affermato che GPT-4 e GPT-3.5 hanno sostenuto questi test sulla base degli esami pratici 2022-2023. Inoltre, le AI non hanno condotto "alcun training specifico" per questo caso d'uso:
"Non abbiamo effettuato alcun training specifico per questi esami. Una piccola parte dei problemi durante gli esami è stata riscontrata dal modello durante il training, ma riteniamo che i risultati siano rappresentativi."
La community non ha reagito positivamente alla notizia. Nick Almond, il fondatore di FactoryDAO, ritiene che GPT-4 "spaventerà le persone" e "farà collassare" il sistema educativo globale:
"Per molti anni, mi sono occupato di teoria della valutazione. Continuavo a ripetere che questo giorno sarebbe arrivato, molti ritenevano fossi pazzo al tempo.
L'avvento di GPT-4 significa che sarà necessario esaminare ed ispezionare ogni singola valutazione."
Assessment theory was a big chunk of my life for several years. I was banging on about this day coming many years ago. I literally sounded like the resident crank at the time.
— drnick ️² (@DrNickA) March 14, 2023
But… really this means that anything but invigilated assessment is over from this point on.
Conor Grogan, ex-direttore di Coinbase, scrive di aver inserito uno smart contract di Ethereum in GPT-4. Il chatbot ha immediatamente indicato diverse "vulnerabilità di sicurezza" e ha delineato come il codice potrebbe essere sfruttato da malintenzionati:
"Ho caricato un contratto Ethereum in GPT-4.
In un istante, ha evidenziato una serie di vulnerabilità di sicurezza e ha indicato le aree potenzialmente sfruttabili da malintenzionati. Dopodiché, ha verificato una specifica modalità d'exploit del contratto."
I dumped a live Ethereum contract into GPT-4.
— Conor (@jconorgrogan) March 14, 2023
In an instant, it highlighted a number of security vulnerabilities and pointed out surface areas where the contract could be exploited. It then verified a specific way I could exploit the contract pic.twitter.com/its5puakUW
Rowan Cheung, fondatore della newsletter AI The Rundown, ha condiviso un video di GPT che scrive il codice di un sito web sulla base di un disegno:
"Ho appena visto GPT-4 trasformare uno schizzo disegnato a mano in un sito web funzionale. Pazzesco."
I just watched GPT-4 turn a hand-drawn sketch into a functional website.
— Rowan Cheung (@rowancheung) March 14, 2023
This is insane. pic.twitter.com/P5nSjrk7Wn