„Heartex“ surinko 25 mln. USD už savo į dirbtinį intelektą orientuotą atvirojo kodo duomenų ženklinimo platformą „TechCrunch“

„Heartex“, startuolis, kuris save vadina „atvirojo kodo“ duomenų ženklinimo platforma, šiandien paskelbė, kad A serijos finansavimo etape, kuriam vadovavo Redpoint Ventures, gavo 25 mln. Taip pat dalyvavo „Unusual Ventures“, „Bow Capital“ ir „Swift Ventures“, todėl bendras „Heartex“ kapitalas padidintas iki 30 mln.

Vienas iš įkūrėjų ir generalinis direktorius Michaelas Malyukas teigė, kad nauji pinigai bus skirti „Heartex“ produktui tobulinti ir iki metų pabaigos padidinti įmonės darbuotojų skaičių nuo 28 iki 68.

„Iš inžinerijos ir mašininio mokymosi patirties, [Heartex’s founding team] žinojo, kokią vertę mašininis mokymasis ir AI gali suteikti organizacijai“, – el. paštu „TechCrunch“ sakė Malyukas. „Tuo metu visi dirbome skirtingose ​​įmonėse ir skirtingose ​​pramonės šakose, tačiau dėl prastos kokybės mokymo duomenų kovojome dėl modelio tikslumo. Sutarėme, kad vienintelis perspektyvus sprendimas – vidinės komandos, turinčios srities patirties, būtų atsakingos už mokymo duomenų anotavimą ir kuravimą. Kas gali duoti geriausių rezultatų, jei ne jūsų ekspertai?

Programinės įrangos kūrėjai Malyukas, Maksimas Tkačenka ir Nikolajus Liubimovas 2019 m. įkūrė „Heartex“. Liubimovas buvo „Huawei“ vyresnysis inžinierius, prieš persikeldamas į „Yandex“, kur dirbo kalbos technologijų ir dialogo sistemų fono kūrėju.

„Heartex“ prietaisų skydelis.

Ryšiai su „Yandex“, įmone, kartais vadinama „Rusijos Google“, gali kai kuriuos sunerimti, ypač atsižvelgiant į Europos Sąjungos kaltinimus, kad „Yandex“ naujienų padalinys vaidino svarbų vaidmenį skleidžiant Kremliaus propagandą. „Heartex“ turi biurą San Franciske, Kalifornijoje, tačiau keli bendrovės inžinieriai yra įsikūrę buvusioje Gruzijos Sovietų Respublikoje.

Paklaustas, „Heartex“ sako, kad nerenka jokių klientų duomenų, o tikrinimui pateikia savo ženklinimo platformos pagrindą. „Sukūrėme duomenų architektūrą, kuri saugo duomenis privatų kliento saugykloje, atskirdami duomenų plokštumą ir valdymo plokštumą“, – pridūrė Malyukas. „Kalbant apie komandą ir jų vietas, mes esame labai tarptautinė komanda, kurioje nėra dabartinių narių Rusijoje.

Neatsižvelgdama į savo geopolitinius ryšius, „Heartex“ siekia įveikti tai, ką Malyukas laiko pagrindine kliūtimi įmonėje: išgauti vertę iš duomenų panaudojant AI. Didėja įmonių, siekiančių tapti „duomenims orientuotomis“, banga – „Gartner“ neseniai pranešė, kad per pastaruosius kelerius metus dirbtinio intelekto naudojimas įmonėse išaugo net 270 proc. Tačiau daugelis organizacijų stengiasi visapusiškai panaudoti AI.

„Pasiekusios mažėjančią grąžą iš specifinių algoritmų kūrimo įmonės investuoja į duomenų ženklinimo tobulinimą kaip savo strateginių, į duomenis orientuotų iniciatyvų dalį“, – sakė Malyukas. „Tai yra pažanga nuo ankstesnės kūrimo praktikos, kuri beveik išimtinai orientuota į algoritmų kūrimą ir derinimą.

Jei, kaip teigia Malyukas, duomenų ženklinimui skiriamas didesnis dėmesys iš įmonių, kurios siekia dirbtinio intelekto, taip yra todėl, kad ženklinimas yra pagrindinė AI kūrimo proceso dalis. Daugelis AI sistemų „išmoksta“ suprasti vaizdus, ​​vaizdo įrašus, tekstą ir garsą iš pavyzdžių, kuriuos pažymėjo žmonių komentatorių komandos. Etiketės leidžia sistemoms ekstrapoliuoti ryšius tarp pavyzdžių (pvz., sąsaja tarp užrašo „virtuvės kriauklė“: ir virtuvės kriauklės nuotraukos) su duomenimis, kurių sistemos dar nematė (pvz., virtuvės kriauklių, kurios nebuvo įtraukti į duomenis, naudojamus modeliui „mokyti“).

Bėda ta, kad ne visos etiketės yra vienodos. Duomenims, pvz., teisinėms sutartims, medicininiams vaizdams ir mokslinei literatūrai, ženklinti reikia srities žinių, kurių turi ne kiekvienas komentatorius. Ir – būdami žmonės – anotatoriai daro klaidų. MIT atlikdami populiarių AI duomenų rinkinių analizę, mokslininkai rado klaidingai pažymėtus duomenis, pvz., vienos šunų veislės supainiojimą su kita ir Ariana Grande aukštą natą, priskirtą švilpukams.

Malyukas netvirtina, kad Heartex visiškai išsprendžia šias problemas. Tačiau interviu jis paaiškino, kad platforma skirta įvairiems AI naudojimo atvejams ženklinti darbo eigas, turinčias funkcijas, kurios liečia duomenų kokybės valdymą, ataskaitų teikimą ir analizę. Pavyzdžiui, duomenų inžinieriai, naudojantys „Heartex“, gali matyti anotatorių ir duomenų tikrintojų vardus ir el. pašto adresus, kurie yra susieti su etiketėmis, kurias jie įtraukė arba tikrino. Tai padeda stebėti etiketės kokybę ir, idealiu atveju, išspręsti problemas, kol jos nepaveiks treniruočių duomenų.

„C-suite kampas yra gana paprastas. Viskas apie tai, kaip pagerinti gamybinio AI modelio tikslumą, kad būtų pasiektas projekto verslo tikslas“, – sakė Malyukas. „Pastebime, kad dauguma C-Suite vadovų, atsakingų už AI, mašinų mokymąsi ir (arba) duomenų mokslą, savo patirtimi patvirtino, kad strategiškesnėmis investicijomis į žmones, procesus, technologijas ir duomenis AI gali suteikti nepaprastos vertės verslui daugybe įvairių naudojimo atvejų. Taip pat matome, kad sėkmė turi sniego gniūžtės efektą. Anksti pasisekusios komandos gali greičiau sukurti papildomus didelės vertės modelius, remdamosi ne tik ankstyvu mokymusi, bet ir papildomais duomenimis, gautais naudojant gamybos modelius.

Duomenų ženklinimo įrankių arenoje „Heartex“ konkuruoja su pradedančiomis įmonėmis, įskaitant AIMMO, Labelbox, Scale AI ir Snorkel AI, taip pat „Google“ ir „Amazon“ (kurios siūlo duomenų ženklinimo produktus atitinkamai per „Google Cloud“ ir „SageMaker“). Tačiau Malyukas mano, kad „Heartex“ dėmesys programinei įrangai, o ne paslaugoms, išskiria ją iš kitų. Skirtingai nuo daugelio konkurentų, startuolis neparduoda ženklinimo paslaugų per savo platformą.

„Kadangi sukūrėme tikrai horizontalų sprendimą, mūsų klientai yra iš įvairių pramonės šakų. Klientai yra maži startuoliai, taip pat keletas „Fortune 100“ įmonių. [Our platform] visame pasaulyje priėmė daugiau nei 100 000 duomenų mokslininkų“, – sakė Malyukas, tačiau atsisakė atskleisti pajamų skaičių. “[Our customers] steigia vidines duomenų anotavimo komandas ir perka [our product] Kadangi jų gamybiniai AI modeliai neveikia gerai ir pripažįsta, kad prasta mokymo duomenų kokybė yra pagrindinė priežastis.

Leave a Comment