A kérdés nem teljesen újkeletű. A képgenerátoroknál is felmerült korábban, hogy szerzői engedély nélkül begyűjtött képeken tanították be a szoftvert. A szöveggenerátoroknál is lehet tudni, hogy az internetről aratott nagy mennyiségű szövegkorpusz volt a tanító adatbázis alapja. Emiatt indult is már per, három író állítja, hogy a tanítási adatbázisban a könyveik is megtalálhatók, erre azonban nem adtak engedélyt.
Az FTC azonban teljes transzparenciát szeretne. A Washington Post által megszerzett dokumentum szerint a nagy nyelvi modell működtetésének minden apróságára rákérdez a hatóság. A fókusz pedig az ügyféladatok kezelésén és a valótlan válaszok kiszűrésén van. Ez utóbbi problémát okozhat az OpenAI-nak, mert a modell hajlamos a hallucinációra, azaz a jól hangzó, de nem igaz állítások megfogalmazására.
(Fotó: Jernej Furman // CC-BY)
Az FTC-t érdekli ezen felül az OpenAI adatgyűjtési gyakorlata, hogy ezt az adatot hogyan használják fel a modell tanítására és az is, hogy közben milyen kockázatbecslési és biztonsági gyakorlatok vannak érvényben. Külön kitér arra a dokumentum, hogy a hatóság vizsgálni tervezi, mint tesz a cég a "hamis vagy félrevezető" válaszok ellen.
(Fotó: Jernej Furman // CC-BY)
Vállalati internet: Tarr.hu