În cazul în care o rețea neuronală poate îndeplini o anumită sarcină, aceasta poate, de asemenea, să evalueze calitatea performanței sale și să ofere critici constructive. În cadrul testului de rezolvare a problemelor în mai multe etape Alfworld, aplicarea noutății a crescut eficiența GPT-4 de la 73% la 97% . În testul „HotPotQA” de analiză a datelor din Wikipedia, performanța a crescut de la 34% la 53%. Scorul mediu arată o creștere cu 30% a eficienței rețelei neuronale cu sistem de automonitorizare.
Reclamă
Din nefericire, GPT-4 face în continuare erori fundamentale, deoarece acest sistem este practic incapabil să își dea seama de eroare. Componenta suplimentară Reflexion reduce numărul de concluzii false, dar, deoarece atât executantul, cât și verificatorul sunt același sistem, această arhitectură nu își poate recunoaște propriile greșeli decât dacă acestea îi sunt semnalate din exterior. Acest lucru face ca acest instrument să fie util și convenabil doar dacă este supravegheat de cei care au cunoștințele necesare.