GPT-4, l'ultima versione del popolare chatbot basato su intelligenza artificiale, può superare i test delle scuole superiori e gli esami di giurisprudenza con ottimi punteggi. Presenta inoltre nuove capacità di elaborazione, non possibili nella versione precedente.

Questi punteggi sono stati condivisi in data 14 marzo dal creatore di ChatGPT, OpenAI. La nuova versione più anche convertire input di immagini, audio e video in testo, nonché gestire "istruzioni molto più articolate" in modo più creativo e affidabile.

"Ha superato un esame di abilitazione simulato con un punteggio comparabile a quello dei migliori partecipanti al test, il top 10%. Al contrario, il punteggio di GPT-3.5 era intorno al 10% inferiore," ha aggiunto OpenAI. Le cifre mostrano che GPT-4 ha ottenuto un punteggio di 163 (migliore dell'88% dei partecipanti) nell'esame LSAT, ovvero il test che gli studenti universitari devono superare negli Stati Uniti per essere ammessi alla facoltà di giurisprudenza. 

Risultati su una vasta gamma di esami statunitensi, GPT-4 vs. GPT-3.5. Fonte: OpenAI

In altre parole, con questi punteggi GPT4 potrebbe essere ammesso in una delle 20 migliori scuole di giurisprudenza negli Stati Uniti. Con un punteggio leggermente maggiore, questa AI potrebbe entrare in scuole prestigiose come Harvard, Stanford, Princeton o Yale.

GPT-4 ha anche ottenuto un punteggio di 298 su 400 nell'Uniform Bar Exam (UBE): un test svolto da studenti di giurisprudenza neolaureati, che consente loro di esercitare la professione di avvocato negli Stati Uniti. La vecchia versione di ChatGPT ha faticato in questo test, con un punteggio di appena 213 su 400.

Punteggi UBE necessari per poter esercitare la professione di avvocato negli Stati Uniti. Fonte: National Conference of Bar Examiners

Per quanto riguarda gli esami SAT Evidence-Based Reading & Writing e SAT Math – sostenuti dagli studenti delle scuole superiori statunitensi per misurare la loro preparazione al college – GPT-4 ha ottenuto punteggi superiori al 93% e all'89% dei partecipanti.

Ottimi risultati anche nei test scientifici: GPT-4 ha ottenuto punteggi superiori alla media nei test AP Biology (85-100%), Chemistry (71-88%) e Physics 2 (66-84%).

Risultati di GPT-4 e GPT-3.5 su una serie di esami negli Stati Uniti. Fonte: OpenAI

Deludente invece il punteggio di GPT-4 in AP Calculus, con prestazioni superiori soltanto al 59% dei partecipanti. Un'altra area in cui GPT-4 ha avuto difficoltà sono stati gli esami di letteratura inglese, con punteggi in alcuni casi peggiori rispetto al 92% dei partecipanti.

OpenAI ha affermato che GPT-4 e GPT-3.5 hanno sostenuto questi test sulla base degli esami pratici 2022-2023. Inoltre, le AI non hanno condotto "alcun training specifico" per questo caso d'uso:

"Non abbiamo effettuato alcun training specifico per questi esami. Una piccola parte dei problemi durante gli esami è stata riscontrata dal modello durante il training, ma riteniamo che i risultati siano rappresentativi."

La community non ha reagito positivamente alla notizia. Nick Almond, il fondatore di FactoryDAO, ritiene che GPT-4 "spaventerà le persone" e "farà collassare" il sistema educativo globale:

"Per molti anni, mi sono occupato di teoria della valutazione. Continuavo a ripetere che questo giorno sarebbe arrivato, molti ritenevano fossi pazzo al tempo.

L'avvento di GPT-4 significa che sarà necessario esaminare ed ispezionare ogni singola valutazione."

Conor Grogan, ex-direttore di Coinbase, scrive di aver inserito uno smart contract di Ethereum in GPT-4. Il chatbot ha immediatamente indicato diverse "vulnerabilità di sicurezza" e ha delineato come il codice potrebbe essere sfruttato da malintenzionati:

"Ho caricato un contratto Ethereum in GPT-4.

In un istante, ha evidenziato una serie di vulnerabilità di sicurezza e ha indicato le aree potenzialmente sfruttabili da malintenzionati. Dopodiché, ha verificato una specifica modalità d'exploit del contratto."

Rowan Cheung, fondatore della newsletter AI The Rundown, ha condiviso un video di GPT che scrive il codice di un sito web sulla base di un disegno:

"Ho appena visto GPT-4 trasformare uno schizzo disegnato a mano in un sito web funzionale. Pazzesco."