GitHub: Ne-am răzgândit, vom folosi datele tale, după toate
Microsoft's GitHub intenționează, începând cu luna viitoare, să folosească datele de interacțiune ale clienților – "în special inputuri, outputuri, fragmente de cod și context asociat" – pentru a antrena modelele sale AI. Conform anunțului, politica actualizată se aplică utilizatorilor Copilot Free, Pro și Pro+, începând cu 24 aprilie, potrivit theregister.com.
👉 Excepții și opțiunea de retragere pentru anumite categorii de utilizatori
Utilizatorii Copilot Business și Copilot Enterprise sunt scutiți datorită termenilor contractuali, iar studenții și profesorii care accesează Copilot vor beneficia de aceleași excepții. Cei afectați au opțiunea de a se retrage conform "practicilor stabilite în industrie" – ceea ce înseamnă în conformitate cu normele din Statele Unite, spre deosebire de normele europene, unde opțiunea de consimțământ este deseori necesară. Pentru a se retrage, utilizatorii GitHub ar trebui să viziteze /settings/copilot/features și să dezactiveze "Permiteți GitHub să folosească datele mele pentru antrenarea modelului AI" sub secțiunea Privacy.
Mario Rodriguez, directorul de produs al GitHub, ar prefera ca utilizatorii să nu se retragă. "Prin participarea ta, vei ajuta modelele noastre să înțeleagă mai bine fluxurile de lucru în dezvoltare, să ofere sugestii de modele de cod mai precise și mai sigure și să îmbunătățească capacitatea lor de a te ajuta să identifici posibilele erori înainte de a ajunge în producție", a scris el într-o postare pe blog. Pentru a-și justifica comportamentul avid, GitHub menționează în întrebările frecvente că Anthropic, JetBrains și compania mamă Microsoft au politici similare de utilizare a datelor cu opțiunea de retragere.
👉 Impactul schimbării asupra datelor și reacțiile comunității GitHub
Raționamentul pentru această schimbare, conform lui Rodriguez, este că datele de interacțiune îmbunătățesc performanța modelelor AI ale companiei. Adăugarea de date de interacțiune de la angajații Microsoft a dus la îmbunătățiri semnificative, susține el, cum ar fi o rată de acceptare crescută pentru sugestiile modelului AI. Schimbarea politicii modifică oarecum semnificația repo-urilor private GitHub, care sunt în mod nominal "accesibile doar pentru tine, persoanele cu care alegi să împărtășești accesul și, pentru repo-urile organizației, anumiți membri ai organizației."
Acestea ar putea fi descrise mai precis ca "repo-uri private GitHub*", cu un asterisc pentru a denota limitele definiției lui GitHub pentru cuvântul "privat." Așa cum explică întrebările frecvente: "Dacă un utilizator Copilot are setările configurate pentru a permite antrenarea modelului pe datele de interacțiune, fragmentele de cod din repo-urile private pot fi colectate și utilizate pentru antrenarea modelului în timp ce utilizatorul este activ implicat cu Copilot în acel repo."
Bârfa recentă din comunitatea GitHub nu include mult entuziasm pentru plan. Judecând după voturile emoji, utilizatorii au oferit 59 de voturi cu degetul în jos și doar trei rachete, ceea ce spune multe despre entuziasmul existent. Cât despre cele 39 de postări care comentau schimbarea la momentul redactării acestui articol, nimeni în afară de Martin Woodward, VP al relațiilor cu dezvoltatorii din GitHub, nu a susținut cu adevărat ideea. Indignarea utilizatorilor ar putea fi ceva mai atenuată dacă utilizatorii GitHub ar recunoaște că Codex al OpenAI – utilizat în GitHub Copilot – este "un model de limbaj GPT ajustat pe cod disponibil public de pe GitHub." Această formulare arată că calul AI, plin de date, a ieșit deja din grajd, vorbind. Închizând ușile acum, nu va schimba faptul că industria AI este construită pe date colectate fără a solicita un indicator puternic de consimțământ entuziast.