KompiuteriaiInformacinės technologijos

Šiuolaikinis kompiuterio vaizdas. Kompiuterinio regėjimo užduotys ir technologijos. Kompiuterio vizijos programavimas "Python" programoje

Kaip išmokyti kompiuterį suprasti, kas vaizduojama nuotraukoje ar nuotraukoje? Tai atrodo lengva mums, bet kompiuteriui tai tik matrica, susidedanti iš nulių ir tų, iš kurių reikia išgauti svarbią informaciją.

Kas yra kompiuterio vizija? Tai yra kompiuterio sugebėjimas "pamatyti"

Žvilgsnis yra svarbus informacijos šaltinis asmeniui, jo pagalba, remiantis įvairiais duomenimis, mes gauname nuo 70 iki 90% visos informacijos. Ir, žinoma, jei norime sukurti išmanią mašiną, turime įdiegti tuos pačius įgūdžius kompiuteryje.

Kompiuterinio regėjimo užduotis gali būti suformuluota gana neaiški. Kas yra "pamatyti"? Tai suprasti, kur yra, tiesiog žiūri. Tai yra skirtumas tarp kompiuterio regėjimo ir žmogaus regėjimo. Vizija mums yra žinių apie pasaulį šaltinis, taip pat metrinės informacijos šaltinis, ty gebėjimas suprasti atstumus ir matmenis.

Semantinio vaizdo šerdis

Žvelgiant į vaizdą, mes galime jį apibūdinti įvairiais būdais, kad būtų galima išgauti semantinę informaciją.

Pavyzdžiui, žiūrėdami į šią nuotrauką galime pasakyti, kad tai yra už kambario ribų. Kas yra šis miestas, gatvės eismas. Čia yra automobilių. Pagal pastato konfigūraciją ir hieroglifus galime spėti, kad tai yra Pietryčių Azija. Pagal Mao Zedong portretą mes suprantame, kad tai yra Pekinas, o jei kas nors jau matė vaizdo transliavimą ar pats apsilankė ten, jis sugeba atspėti, kad tai garsus Tiananmeno aikštė.

Ką galime pasakyti apie nuotrauką, atsižvelgiant į tai? Galime pasirinkti objektus ant vaizdo, tarkim, ten yra žmonių, arčiau čia tvora. Čia yra skėčiai, čia yra pastatas, čia yra plakatai. Tai labai svarbių objektų, kuriuos šiuo metu ieškome, klasių pavyzdžiai.

Mes taip pat galime išgauti kai kuriuos objektų atributus ar atributus. Pavyzdžiui, čia mes galime nustatyti, kad tai nėra paprastų kinų, ty Mao Zedong, portretas.

Automobiliu galite nustatyti, kad tai yra judantis objektas, ir tai sunku, tai yra, jis judėjime nefiksuojasi. Apie vėliavą galite pasakyti, kad tai yra objektai, jie taip pat perkelia, bet jie nėra griežti, visam laikui deformuoti. Be to, scenoje yra vėjas, jį gali lemti besivystanti vėliava ir netgi jūs galite nustatyti vėjo kryptį, pavyzdžiui, jis pūsti iš kairės į dešinę.

Kompiuterinio regėjimo atstumų ir ilgių vertė

Labai svarbu yra metrinė informacija apie mokslą apie kompiuterio viziją. Tai visi galimi atstumai. Pavyzdžiui, roveriui tai ypač svarbu, nes komandos iš Žemės paleidžiama maždaug per 20 minučių, o atsakymas yra tas pats. Todėl ryšys ten ir atgal - 40 minučių. Ir jei mes parengsime Žemės veiksmų komandų planą, turime atsižvelgti į tai.

Laimei, kompiuterio regėjimo technologijos yra integruotos į vaizdo žaidimus. Pagal vaizdo įrašą galite kurti erdvinius objektų, žmonių ir naudotojų nuotraukų modelius, kad galėtumėte atstatyti trijų miestų modelius. Ir tada eik juos.

Kompiuterio regėjimas - tai gana plati sritis. Tai glaudžiai susipynusi su kitais mokslais. Iš dalies kompiuterio regėjimas Užfiksuoja vaizdo apdorojimo sritį ir kartais nustato kompiuterio vizijos sritį, istoriškai.

Analizė, modelio atpažinimas - būdas sukurti aukštesnį protą

Mes analizuosime šias sąvokas atskirai.

Vaizdų apdorojimas yra algoritmų sritis, kuriose įvestis ir išvestis yra vaizdas, ir mes jau ką nors darome su juo.

Vaizdų analizė yra kompiuterinio regėjimo laukas, kuriame daugiausia dėmesio skiriama darbui su dvimačiu įvaizdžiu ir daro išvadas iš to.

Vaizdo atpažinimas yra abstraktoji matematinė disciplina, kuri atpažįsta duomenis vektorių pavidalu. Tai reiškia, kad įvestis yra vektorius, ir mes turime kažką daryti su juo. Iš kur šis vektorius mums ne taip svarbu žinoti.

Kompiuterio vizija - tai iš pradžių buvo dvimatės vaizdų struktūros atkūrimas. Dabar ši sritis tapo platesnė ir paprastai ją galima vertinti kaip sprendimus dėl fizinių objektų, pagrįstų įvaizdžiu. Tai yra dirbtinio intelekto užduotis .

Lygiagrečiai su kompiuterine vizija visiškai kitoje srityje, geodezijoje, sukurta fotogrametrija - tai matmenų atstumas tarp objektų dvimatis vaizdų.

Robotai gali "pamatyti"

Ir paskutinis dalykas yra mašinos regėjimas. Kompiuterio vizija reiškia robotus. Tai yra kai kurių gamybos problemų sprendimas. Mes galime pasakyti, kad kompiuterio vizija yra vienas didelis mokslas. Tai iš dalies jungia kai kuriuos kitus mokslus. Ir kai kompiuterio regėjimas gauna konkrečią programą, ji tampa kompiuterio vizija.

Kompiuterinio regėjimo laukas turi daug praktinių pritaikymų. Tai susiję su gamybos automatizavimu. Įmonėje tampa vis efektyvesnė pakeisti mechaninį darbą mašinomis. Mašina nėra pavargusi, nemiega, turi nereguliuojamą darbo grafiką, yra pasirengusi dirbti 365 dienas per metus. Taigi, naudojant mašininį darbą, galime gauti garantuotą rezultatą per tam tikrą laiką, ir tai yra gana įdomu. Visi kompiuterio regos sistemų uždaviniai yra vizualiai pritaikomi. Ir nieko geriau nei matyti rezultatą iškart iš paveikslėlio, tik skaičiavimo stadijoje.

Iš dirbtinio intelekto pasaulio slenksčio

Plius plotas - tai yra sudėtinga! Svarbi smegenų dalis yra atsakinga už viziją, ir manoma, kad jei mokysite kompiuterį "pamatyti", ty visiškai išnaudoti kompiuterio vaizdą, tai yra viena iš visiškų dirbtinio intelekto užduočių. Jei galime išspręsti problemą žmogaus lygiu, greičiausiai, tuo pačiu metu mes išspręstume AI problemą. Kuris yra labai geras! Arba ne labai gerai, jei pažvelgsite į "Terminatorius 2".

Kodėl regėjimas yra sunkus? Kadangi tų pačių objektų vaizdas gali labai skirtis priklausomai nuo išorinių veiksnių. Priklausomai nuo stebėjimo taškų, objektai atrodo kitaip.

Pavyzdžiui, vienas ir tas pats paveikslėlis, nufotografuotas skirtingais kampais. O kas įdomiausia, figūra gali turėti vieną akį, dvi akis ar pusantros kartos. Ir priklausomai nuo konteksto (jei tai yra vyras nuotraukoje marškinėliai su dažytomis akimis), akis gali būti daugiau nei du.

Kompiuteris dar nesupranta, bet jau "mato"

Kitas sudėtingumo veiksnys yra apšvietimas. Tas pats scenos su skirtingu apšvietimu atrodys kitaip. Objektų dydis gali skirtis. Ir objektai bet klasių. Na, kaip tu gali pasakyti apie žmogų, kad jo aukštis yra 2 metrai? Jokiu būdu. Asmens aukštis gali būti 2,3 m ir 80 cm. Kaip ir kitų tipų objektai, jie vis tiek yra tos pačios klasės objektai.

Ypač gyvenantys objektai patiria daugybę deformacijų. Žmonių plaukai, sportininkai, gyvūnai. Pažvelkite į bėgimo žirgų nuotraukas, neįmanoma nustatyti, kas atsitiks su jų krova ir uodega. Vaizdų objektų sutapimas? Jei tokį vaizdą perkelsite kompiuteryje, netgi pačiam galingiausiu kompiuteriu bus sunku rasti tinkamą sprendimą.

Kitas būdas yra paslėpti. Kai kurie objektai, gyvūnai yra užmaskuojami aplinkoje ir pakankamai meistriškai. Ir dėmės yra tos pačios ir spalvos. Bet vis dėlto mes juos matome, nors ne visada toli.

Kita problema yra judėjimas. Judantys objektai atlieka neįsivaizduojamą deformaciją.

Daugelis objektų yra labai skirtingi. Pavyzdžiui, čia yra dvi nuotraukos po objektais, tokiais kaip "fotelis".

Ir apie tai galite sėdėti. Bet išmokyti mašiną, kad tokie skirtingi dalykai, forma, spalva, medžiaga yra visi "kėdės" objektai - labai sunku. Tai yra užduotis. Integruoti kompiuterio vizijos metodus yra išmokyti mašiną suprasti, analizuoti ir atspėti.

Kompiuterinio regėjimo integravimas į įvairias platformas

Masės metu kompiuterio regėjimas pradėjo prasiskverbti dar 2001 m., Kai buvo sukurti pirmieji veido detektoriai. Ar šie du autoriai: Viola, Jones. Tai buvo pirmasis greitas ir pakankamai patikimas algoritmas, parodantis mašinos mokymosi metodų galią.

Dabar kompiuterio regėjimas turi gana naują praktinį pritaikymą - asmeniškai atpažįstant veidą.

Tačiau neįmanoma atpažinti žmogaus, kaip parodyta filmuose - savavališkai, su skirtingomis apšvietimo sąlygomis. Tačiau norint išspręsti šią problemą, vienas iš tų ar skirtingų žmonių su skirtingu apšvietimu ar skirtingomis pozicijomis, panašus į paso nuotraukas, gali būti labai patikimas.

Reikalavimai paso nuotraukoms iš esmės yra dėl veido atpažinimo algoritmų ypatybių.

Pvz., Jei turite biometrinį pasą, kai kuriuose šiuolaikiniuose oro uostuose galite naudoti automatinę pasų kontrolės sistemą.

Neišspręs kompiuterinės vizijos problema yra galimybė atpažinti savavališką tekstą

Galbūt kažkas naudojo teksto atpažinimo sistemą. Vienas iš jų yra "Fine Reader", labai populiari sistema "Runet". Yra daugybė formų, kur reikia užpildyti duomenis, jie puikiai nuskaitomi, sistema labai gerai atpažįsta informaciją. Bet su savavališku tekstu ant vaizdo, viskas yra daug blogiau. Ši užduotis lieka neišspręsta.

Kompiuterinio regėjimo, judesio fiksavimo žaidimai

Atskira didelė sritis - tai trijų matmenų modelių ir judesių užfiksavimo (kuris gana sėkmingai įgyvendinamas kompiuteriniais žaidimais) kūrimas. Pirmoji programa, naudojanti kompiuterio viziją, yra sistema, kuri sąveikauja su kompiuteriu, naudojant gestus. Kai jis buvo sukurtas, buvo daug, kad buvo atviras.

Pati pats algoritmas yra gana paprastas, tačiau jį reikia sukonfigūruoti, todėl reikėjo sukurti dirbtinius žmonių vaizdus, kad gautų milijoną nuotraukų. Superkompiuteris su jų pagalba paėmė algoritmo parametrus, pagal kuriuos jis dabar geriausiai veikia.

Taip milijonai vaizdų ir superkompiuterio laiko savaitė leido sukurti algoritmą, kuris sunaudoja 12 proc. Vieno procesoriaus galingumo ir leidžia jums suvokti žmogaus pozą realiuoju laiku. Tai "Microsoft Kinect" sistema (2010).

Vaizdų paieška pagal turinį leidžia įkelti nuotrauką į sistemą, o pagal rezultatus ji bus rodoma visose to paties turinio nuotraukose ir paimta iš to paties kampo.

Kompiuterio vizijos pavyzdžiai: kartu su juo sudaromi erdviniai ir dvimačiai žemėlapiai. Automobilinių navigatorių žemėlapiai reguliariai atnaujinami pagal DVR duomenis.

Yra bazė su milijardais nuotraukų su geometrais. Įkėlus fotografiją į šią duomenų bazę, galite nustatyti, kur ji buvo padaryta ir net iš kokios perspektyvos. Natūralu, kad vieta yra gana populiari, kad vienu metu buvo turistų ir padarė serijos nuotraukas srityje.

Robotai yra visur

Robotų technika dabar yra visur, be viso to. Dabar yra automobilių, kuriuose yra specialios kameros, kurios atpažįsta pėsčiuosius ir kelio ženklus, kad vairuotojai galėtų perduoti komandas (tai yra tam tikra prasme kompiuterio regėjimo programa, kuri padeda automobilio entuziastui). Yra ir visiškai automatiniai robotų automobiliai, tačiau jie negali remtis vien tik fotoaparato sistema, nenaudodami daug papildomos informacijos.

Šiuolaikinė kamera yra kameros obskuros analogas

Pakalbėkime apie skaitmeninį vaizdą. Šiuolaikiniai skaitmeniniai fotoaparatai pagaminti naudojant "camera obscura" principą. Tik vietoj skylės, per kurią prasiskverbia šviesos spinduliai ir kuriamos objekto kontūrai fotoaparato galinėje sienoje, mes turime specialią optinę sistemą, vadinamą lęšiu. Jo užduotis yra surinkti didelį šviesos šviesą ir paversti ją taip, kad visi spinduliai pereitų per vieną virtualų tašką, kad būtų galima gauti projekciją ir formuoti vaizdą ant filmo ar matricos.

Šiuolaikiniai skaitmeniniai fotoaparatai (matrica) susideda iš atskirų elementų - pikselių. Kiekvienas pikselis leidžia jums matuoti šviesos energiją, kuri iš viso patenka į šį pikselį, ir išveda vieną numerį. Todėl skaitmeniniuose fotoaparatuose vietoj vaizdo sugrupuojame šviesos ryškumo matmenų rinkinį, kuris patenka į atskirą pikselę - kompiuterio laukus. Todėl, kai vaizdas išsiplėtė, mes nematome lygių linijų ir aiškių kontūrų, bet pikselių tinklelį, kuris yra spalvotas skirtingais tonais - pikseliais.

Žemiau galite pamatyti pirmąjį skaitmeninį vaizdą pasaulyje.

Bet kas trūksta šiame paveikslėlyje? Spalva. Ir kokia spalva?

Psichologinis spalvų suvokimas

Spalva yra tai, ką matome. Objekto spalva, tas pats objektas žmogui ir katui bus kitoks. Kadangi mes (žmonėse) ir gyvūnai turi optinę sistemą - regėjimą, ji yra kitokia. Todėl spalva yra mūsų vizijos psichologinė savybė, atsiradusi dėl objektų ir šviesos stebėjimo. Ir ne fizinė objekto ir šviesos savybė. Spalva yra šviesos komponentų, scenos ir vizualinės sistemos sąveikos rezultatas.

Kompiuterio vizijos programavimas naudojant "Python" bibliotekas

Jei nuspręsite rimtai išmoksti kompiuterinę viziją, turėtumėte nedelsiant pasiruošti daugybei sunkumų, šis mokslas nėra pats paprasčiausias ir slepia keblumus. Tačiau "Jano Erico Solemo autorius" "Python kompiuterio vizijos programavimas" yra knyga, kurioje viskas pateikiama pačia paprasčiausia kalba. Čia jūs susipažinsite su įvairiais objektais 3D atpažinimo metodais, išmokti dirbti su stereo vaizdais, virtualia realybe ir daugybe kitų kompiuterio vizualiųjų programų. Python knygoje yra pakankamai pavyzdžių. Tačiau tokie paaiškinimai yra pateikti taip, kad būtų kalbama apskritai, kad nebūtų pernelyg sunku pernelyg daug mokslinės ir sunkios informacijos. Darbas tinka studentams, tiesiog mėgėjams ir entuziastams. Galite atsisiųsti šią knygą ir kitus apie kompiuterio viziją (pdf formatu) internete.

Šiuo metu yra atvira kompiuterio vizijos algoritmų biblioteka, taip pat vaizdų apdorojimas ir skaitmeniniai OpenCV algoritmai. Ji yra įdiegta daugumoje modernių programavimo kalbų, ji turi atvirąjį kodą. Jei kalbame apie kompiuterio viziją, Python jį naudoja kaip programavimo kalbą, tada ji taip pat palaiko šią biblioteką, be to, ji nuolat tobulėja ir turi didelę bendruomenę.

Kompanija "Microsoft" teikia savo Api-paslaugas, kurios gali mokyti neuroninius tinklus dirbti su asmeninių vaizdų pagalba. Taip pat galima naudoti kompiuterinį regėjimą, naudojant "Python" kaip programavimo kalbą .

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 lt.delachieve.com. Theme powered by WordPress.