Le unità di asset digitali di Pantera Capital e Franklin Templeton hanno aderito alla prima generazione di Arena, un nuovo ambiente di test del laboratorio di IA open source Sentient, progettato per valutare le prestazioni degli agenti di IA nei flussi di lavoro aziendali.

In un annuncio condiviso venerdì con Cointelegraph, Sentient ha posizionato Arena come una piattaforma di benchmarking in stile produttivo piuttosto che un test di modelli statici. Invece di valutare gli agenti solo sulla base di set di dati fissi, li sottopone a compiti standardizzati modellati sulle condizioni aziendali, inclusi documenti lunghi, informazioni incomplete e fonti contrastanti.

“In questa fase iniziale, la partecipazione si riferisce al supporto al programma Arena e al gruppo di sviluppatori”, ha dichiarato a Cointelegraph Oleg Golev, responsabile di prodotto presso Sentient Labs.

Ha affermato che i partner stanno contribuendo a definire come dovrebbe essere il “ragionamento pronto per la produzione” per compiti che richiedono un uso intensivo di documenti, come l'analisi, la conformità e le operazioni. Le aziende non stanno annunciando impegni di capitale legati all'iniziativa.

Il lancio arriva in un momento in cui le imprese accelerano l'implementazione di agenti di IA nei flussi di lavoro di ricerca e operativi, anche se i quadri di governance sono in ritardo.

Stando al Celonis 2026 Process Optimization Report, pubblicato il 4 febbraio, l'85% dei dirigenti aziendali senior intervistati mira a diventare “imprese agentiche” entro tre anni, mentre solo il 19% attualmente utilizza sistemi multi-agente.

Rapporto su ottimizzazione processi 2026. Fonte: Celonis

Valutazione in stile produttivo, non punteggio statico

Golev definisce Arena una piattaforma condivisa in cui gli sviluppatori sottopongono gli agenti AI a compiti standardizzati e confrontano i risultati in condizioni di test coerenti.

La piattaforma tiene traccia delle categorie di errore, quali allucinazioni, prove mancanti, citazioni errate e lacune nel ragionamento, consentendo agli sviluppatori di diagnosticare i problemi ricorrenti.

Arena intende pubblicare metriche comparative delle prestazioni attraverso una classifica pubblica e rilasciare analisi post mortem che riassumono le modalità di errore più comuni e le relative soluzioni.

I partner infrastrutturali, tra cui OpenRouter e Fireworks, forniscono l'elaborazione inferenziale per il gruppo iniziale, mentre altri partner supportano gli strumenti e i workshop.

Livello di governance in ambito della crescente autonomia IA

L'iniziativa emerge mentre le società finanziarie e di criptovalute sperimentano la possibilità di conferire maggiore autonomia economica ai sistemi di IA.

Mercoledì, MoonPay ha lanciato un'infrastruttura che consente agli agenti di IA di creare portafogli ed eseguire transazioni con stablecoin.

Giovedì, i dirigenti di Stripe hanno avvertito che le blockchain potrebbero necessitare di significativi miglioramenti in termini di scalabilità se il commercio basato sull'IA dovesse espandersi.