ChatGPT readuce in discutie prejudecatile legate de AI

Posted on: 02/03/2023 By:exclusive-networks

Cand cineva are prejudecati, lucrurile par clare, nu mai este loc de nicio indoiala sau intrebare. Dar, atunci cand vine vorba de Inteligenta Artificiala, mult mai logic ar fi sa ne intrebam cum este introdus AI si in ce mod afecteaza dezvoltarea IT-ului?

Se exagereaza mai mult decat oricand in jurul AI, este unul din subiectele cele mai controversate si, parca, toata lumea vrea sa gaseasca „aplicatia ucigasa” pentru piata lor.

Dar la baza, ingrijorarile exprimate ar putea avea un motiv intemeiat?

Scurta introducere in modelele de invatare AI

Pentru a intelege de unde pornesc prejudecatile legate de AI, trebuie sa intelegem modul in care sunt antrenate modelele AI.

In functie de interlocutor si de pretiozitatea acestuia, vom obtine raspunsuri diferite despre metodele de invatare existente. Si intr-adevar, metodele, algoritmii si modelele folosite astazi sunt extinse si, in multe cazuri, depasesc capacitatea de intelegere chiar a celor care cunosc tangential domeniul. Dar este important sa intelegem cum sunt antrenate modelele, deoarece, in cele din urma, doar asa poate aparea prejudecata. Practic, exista trei moduri de baza de a antrena modele AI:

Invatare supravegheata. Datele de intrare sunt etichetate. Sistemul stie care ar trebui sa fie rezultatul pe baza setului de date si a etichetelor folosite pentru a se antrena si este capabil sa foloseasca aceste cunostinte pentru a prezice alte valori. In aceasta categorie, exista doua tipuri majore de algoritmi utilizati. Unul se bazeaza pe clasificare, in care datele sunt grupate in categorii in functie de atribute precum culoarea, dimensiunea si forma. Recunoasterea imaginilor se incadreaza de obicei in aceasta categorie, dar alte utilizari comune sunt detectarea spam-ului si filtrarea e-mailurilor. Al doilea foloseste regresia matematica pentru a descoperi modele care se bazeaza pe o relatie liniara intre intrare si iesire. In aceasta metoda, rezultatele sunt clasificate in afara modelului, cum ar fi masuratorile vremii reale. Tendintele pietei si cele meteorologice folosesc adesea aceasta metoda.

Invatare nesupravegheata. Dupa cum implica termenul „nesupravegheat”, nu exista nicio indrumare oferita sistemului cu privire la natura datelor. Nu exista etichetari. Se asteapta ca sistemul sa descopere modele si relatii singur si sa prezica un rezultat. Algoritmii de invatare nesupravegheati se bazeaza pe doua tehnici diferite: grupare si asociere. Prin clustering, sistemului i se solicita sa grupeze datele pe baza asemanarilor, astfel incat datele dintr-un grup sa aiba putine asemanari sau deloc cu alte grupuri. Comportamentul de cumparare al clientilor este o utilizare comuna a gruparii. La asociere, sistemului i se cere sa gaseasca relatii intre date, cum ar fi dependentele dintre ele. Aceasta abordare este in intregime una de corelare, nu de cauzalitate. Sistemele nesupravegheate descopera pur si simplu „lucruri care merg impreuna cu alte lucruri”, nu „lucruri care fac ca alte lucruri sa se intample”. Asocierea este adesea folosita pentru web mining.

Consolidarea invatarii. Invatarea prin consolidare este un compromis intre antrenamentul supravegheat si cel nesupravegheat care urmareste sa reduca la minim dezavantajele fiecareia. Cu invatarea prin consolidare, sistemelor li se ofera date neetichetate pe care le exploreaza. Apoi primeste fie recompense pozitive, fie negative pentru rezultate, de la care sistemul „invata” pentru a-si perfectiona deciziile. Acesta este modelul cel mai apropiat de modul in care oamenii invata, asa cum se vede in utilizarea testelor si in procesul educational. Jocurile video, robotica si text mining sunt utilizari comune ale invatarii prin consolidare.

Cum apar prejudecatile legate de AI?

Raspunsul, probabil v-ati dat deja seama, se bazeaza pe faptul ca oamenii sunt adesea implicati in procesul de formare.

Cel mai simplu mod de a parasi invatarea supravegheata este sa alterati datele, cum ar fi prin etichetarea gresita a acestora. De exemplu, daca clasific animalele, etichetarea gresita a unui „caine” drept „pisica” poate duce la o identificare gresita la o scara mare. Un risc legat de etichetarea intentionat gresita, cu scopul de a corupe rezultatul. Unele etichete gresite sunt doar produsul judecatii umane eronate, cum ar fi decizia daca o pantera este o pisica sau daca statuia unei pisici conteaza ca o pisica. Cu invatarea prin consolidare, recompensarea pozitiva a raspunsului „gresit” sau a miscarii intr-un joc ar putea avea ca rezultat un sistem care da in mod intentionat raspunsuri gresite sau pierde intotdeauna.

Acum, evident, acest lucru are implicatii pentru conversatie (AI generativa), cum ar fi ChatGPT, care a fost, conform site-ului lor, ajustat folosind „invatare supravegheata, precum si invatare prin consolidare”, care „foloseau formatori umani pentru a imbunatati performanta modelului”. Realitatea este ca ChatGPT este adesea complet gresit in raspunsurile sale. Feedback-ul este necesar pentru a instrui in continuare sistemul, astfel incat sa poata genera raspunsul corect mai des.

Acum, iar de aici devine interesant interesant – si am putea face o dezbatere fascinanta despre modurile in care am putea manipula acele sisteme si consecintele – prejudcatile se extind la telemetrie, datele operationale pe care toti doresc sa le foloseasca pentru a impulsiona automatizarea sistemelor si serviciilor care furnizeaza si securizeaza serviciile digitale.

AI, bias si telemetrie

In majoritatea cazurilor legate de analiza telemetriei, modelele sunt antrenate folosind date care au fost etichetate. Prejudecatile pot fi introduse in acel sistem prin (a) etichetarea gresita a datelor sau (b) neavand suficienta diversitate de date intr-o anumita categorie sau (c) metoda utilizata pentru a introduce date noi. Motivul pentru care etichetarea gresita a datelor este problematica ar trebui sa fie evident, deoarece poate duce, in cantitati suficient de mari, la identificarea gresita. Problema cu diversitatea datelor este ca datele care se incadreaza in afara unui set de antrenament atat de restrans vor fi inevitabil clasificate gresit.

Un exemplu clasic in acest sens a fost un model AI antrenat sa recunoasca tancurile fata de alte tipuri de transport. Se pare ca toate tancurile au fost fotografiate la lumina zilei, dar alte vehicule nu. Drept urmare, AI a facut o treaba grozava la tanc versus nu tanc, dar a corelat de fapt ziua cu noaptea. Lipsa diversitatii in setul de intrare a cauzat o corelatie partinitoare.

Chiar daca o AI operationala se bazeaza pe invatare prin consolidare, lipsa diversitatii datelor este problematica, deoarece sistemul nu are toate „variabilele” necesare pentru a determina „urmatoarea miscare”.

Motivul pentru care un AI ar putea sa nu aiba un set divers de date sau toate variabilele de care are nevoie este, ati ghicit, alegerea selectiva a datelor. Mai exact, prejudecata de date introdusa de monitorizarea selectiva, in care doar *o parte* telemetrie este ingerata pentru analiza. De exemplu, impactul performantei DNS asupra experientei utilizatorului este bine inteles. Dar daca un model este antrenat sa analizeze performanta aplicatiei fara telemetrie din DNS, poate pretinde ca performanta este in regula, chiar daca exista o problema cu DNS, deoarece nu are idee ca DNS este in vreun fel legat de performanta aplicatiei end-to-end. Daca „urmatoarea miscare” este de a alerta pe cineva cu privire la o degradare a performantei, sistemul va esua din cauza selectarii partinitoare datelor.

Cercetarea anuala realizata de echipa F5 a descoperit ca peste jumatate din toate organizatiile mentioneaza „datele lipsa” drept provocarea majora in a descoperi informatiile de care au nevoie.

Astfel, chiar daca organizatiile ar intentiona folosirea AI pentru a lua decizii operationale, ar fi destul de complicat. Fara un set divers de date pe care sa se antreneze un astfel de sistem, potentialul de partinire aproape inevitabil.

O a treia modalitate de distorsiune poate fi generata de metodele utilizate pentru a introduce date in model. Cel mai comun exemplu operational in acest sens este utilizarea rezultatelor testelor sintetice pentru a determina performanta medie a unei aplicatii si apoi utilizarea modelului rezultat pentru a analiza traficul real. In functie de amploarea locatiilor, a dispozitivelor, a congestionarii retelei etc. care formeaza setul de date din testele sintetice, performanta perfect acceptabila pentru utilizatorii reali poate fi identificata ca esec sau vice-versa.

Riscuri pentru transformarea digitala

Riscul major ar putea fi erodarea increderii in tehnologie pentru a actiona ca un multiplicator de forta si pentru a permite eficienta atat de necesara organizatiilor pentru a functiona ca o afacere digitala. Daca AI continua sa dea raspunsuri „gresite” sau sa sugereze solutii „gresite”, atunci nimeni nu va avea incredere in el.

O atentie deosebita acordata surselor si tipurilor de date, impreuna cu o strategie cuprinzatoare de date si observabilitate, va contribui in mare masura catre eliminarea partinirii si producerea de rezultate mai precise si de incredere.

Articol preluat de pe blogul F5.

Red Hat Global Tech Trends 2024: Securitatea ramane o prioritate in timp ce prioritatile de finantare ale managementului IT se schimba

Posted on: 11/04/2024
By: exclusive-networks

Cel mai recent raport al Red Hat privind tendintele tehnologice globale pentru 2024, Red Hat Global Tech Trends 2024, prezinta informatii cheie obtinute din cel de-al zecelea sondaj anual efectuat de Red Hat. Cu raspunsuri din partea a peste 700 de lideri IT din intreaga lume, raportul analizeaza aspectele cruciale ale transformarii digitale, prioritatile de finantare si adoptarea cloud.

Fortinet lanseaza o noua versiune a sistemului sau de operare: FortiOS 7.6

Posted on: 11/04/2024
By: exclusive-networks

Fortinet a dezvaluit imbunatatiri semnificative ale sistemului sau de operare de securitate in timp real, FortiOS, alaturi de imbunatatiri ale platformei sale Security Fabric. Cea mai recenta versiune, FortiOS 7.6, introduce mai multe caracteristici inovatoare menite sa ofere companiilor puterea de a-si consolida apararea retelei si de a eficientiza operatiunile.

Cookie	Duration	Description
_GRECAPTCHA	5 months 27 days	This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks.
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-advertisement	1 month	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duration	Description
bcookie	2 years	LinkedIn sets this cookie from LinkedIn share buttons and ad tags to recognize browser ID.
bscookie	2 years	LinkedIn sets this cookie to store performed actions on the website.
ELOQUA	1 year 1 month	The domain of this cookie is owned byOracle Eloqua. This cookie is used for email services. It also helps for marketing automation solution for B2B marketers to track customers through all phases of buying cycle.
lang	session	LinkedIn sets this cookie to remember a user's language setting.
lidc	1 day	LinkedIn sets the lidc cookie to facilitate data center selection.
UserMatchHistory	1 month	LinkedIn sets this cookie for LinkedIn Ads ID syncing.

Cookie	Duration	Description
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_154241828_1	1 minute	Set by Google to distinguish users.
_gat_gtag_UA_154241828_3	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.
ELQSTATUS	1 year 1 month	This cookie is set by Eloqua. This cookie is used by PwC to track individual visitors and their use of site. This is set on the first visit of the visitor to the site and updated on subsequent visits.

Cookie	Duration	Description
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Duration	Description
__Secure-YEC	1 year 1 month	No description
_ce.cch	session	No description
_ce.gtld	session	No description
_ce.s	1 year	No description
AnalyticsSyncHistory	1 month	No description
cebs	session	No description
cebsp	session	No description
li_gc	2 years	No description