Hejmara serîlêdan û girîngiya pêwendiyên deng bi lez mezin dibe
ji teknolojiya

Hejmara serîlêdan û girîngiya pêwendiyên deng bi lez mezin dibe

Malbatek Amerîkî li Portland, Oregon vê dawiyê fêr bû ku arîkarê deng Alexa sohbetên wan ên taybet tomar kiriye û ji hevalek xwe re şandiye. Xwediyê malê, ku ji hêla medyayê ve jê re Danielle tê gotin, ji rojnamevanan re got ku ew ê "carek din vê cîhazê girê nede ji ber ku nayê pêbawer kirin."

Alexa, ku ji hêla dengbêjên Echo (1) û amûrên din ve li bi deh mîlyon malên Dewletên Yekbûyî têne peyda kirin, piştî bihîstina navê xwe an "peyva bangê" ya ku ji hêla bikarhêner ve hatî axaftin, dest bi tomarkirinê dike. Ev tê wê wateyê ku heke peyva "Alexa" di reklamek TV-yê de be jî, dibe ku cîhaz dest bi tomarkirinê bike. Tiştê ku di vê rewşê de qewimî ye, dibêje belavkerê hardware Amazon.

Pargîdaniyê di daxuyaniyekê de got: "Pişta axaftinê ji hêla arîkarê deng ve wekî fermanek şandina peyamek hate şîrove kirin." "Di yek xalê de, Alexa bi dengekî bilind pirsî, 'kî?' Berdewamkirina danûstendina malbatê ya li ser darê hişk divê ji hêla makîneyê ve wekî tiştek di navnîşa pêwendiya xerîdar de were dîtin. Bi kêmanî ew e ku Amazon difikire. Ji ber vê yekê, werger digihîje rêzek qezayan.

Lêbelê, fikar dimîne. Ji ber ku ji ber hin sedeman, li xaniyek ku em hîn jî xwe rehet hîs dikin, divê em cûreyek "moda deng" bidin nasîn, li tiştên ku em dibêjin, TV çi diweşîne û, bê guman, ev axaftvanê nû li ser sînga çi ye, temaşe bikin. kêşan dibêje. me.

lê belê, Tevî teknolojiya bêkêmasî û fikarên di derbarê nepenîtiyê de, digel mezinbûna populerbûna cîhazên mîna Amazon Echo, mirov dest pê dikin ku bi ramana danûstandina bi komputeran re bi karanîna dengê xwe bikar bînin..

Wekî ku Werner Vogels, CTO ya Amazon, di dema rûniştina xwe ya AWS re:Invent di dawiya 2017 de destnîşan kir, teknolojî heya nuha awayê ku em dikarin bi komputeran re têkilî daynin sînordar kiriye. Em bi karanîna klavyeyê peyvên sereke di Google-ê de dinivîsin, ji ber ku ev hîn jî awayê herî berbelav û hêsan e ku meriv agahdarî li makîneyek têxe.

Vogels got. –

çar mezin

Dema ku motora lêgerîna Google-ê li ser têlefonê bikar tîne, dibe ku me demek berê berê li wir nîşanek mîkrofonek bi vexwendina axaftinê dît. Ev Google niha (2), ya ku hûn dikarin pirsek lêgerînek dîktator bikin, bi dengek peyamek têkevin, hwd. Di van salên dawî de, Google, Apple û Amazon pir çêtir bûne teknolojiyên naskirina deng. Alîkarên deng ên mîna Alexa, Siri, û ​​Google Assistant ne tenê dengê we tomar dikin, lê di heman demê de fêm dikin ku hûn ji wan re çi dibêjin û bersiva pirsan didin.

Google Now ji bo hemî bikarhênerên Android-ê belaş heye. Serlêdan dikare, mînakî, alarmek saz bike, pêşbîniya hewayê û rêyên li ser nexşeyên Google-ê kontrol bike. Google Now Conversational Extension State Alîkarê Google () - arîkariya virtual ji bikarhênerê amûrê re. Ew bi piranî li ser cîhazên malê yên mobîl û jîr tê peyda kirin. Berevajî Google Now, ew dikare di pêwendiya du-alî de tevbigere. Alîkar di Gulana 2016-an de wekî beşek ji sepana mesajên Allo ya Google-ê, û her weha axaftvana dengê Google Home (3) dest pê kir.

3. Malpera Google

IOS di heman demê de arîkarê xwe yê virtual jî heye, Siri, ango bernameyek ku di nav pergalên xebitandinê yên Apple de - iOS, watchOS, tvOS homepod û macOS-ê de cih digire. Siri bi iOS 5 û iPhone 4s di Cotmeha 2011-an de di konferansa Let's Talk iPhone de dest pê kir.

Nermalava li ser pêwendiyek danûstendinê ye: ew axaftina xwezayî ya bikarhêner nas dike (bi iOS 11 jî gengaz e ku meriv bi destan fermanan têxe), bersiva pirsan dide û karan temam dike. Spas ji bo danasîna fêrbûna makîneyê, arîkarek bi demê re tercîhên şexsî analîz dike bikarhêner ku encam û pêşniyarên bêtir têkildar peyda bike. Siri pêwendiyek Înternetê ya domdar hewce dike - çavkaniyên sereke yên agahdariyê li vir Bing û Wolfram Alpha ne. iOS 10 ji bo pêvekên sêyemîn piştgirî dide.

Yekî din ji çar mezin Cortana. Ew arîkarek kesane ya hişmend e ku ji hêla Microsoft ve hatî afirandin. Ew li ser platformên Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android û iOS tê piştgirî kirin. Cortana yekem car di konferansa Pêşdebir a Microsoft Build de di Nîsana 2014-an de li San Francisco hate nas kirin. Navê bernameyê ji navê karakterek ji rêze lîstikên Halo tê. Cortana bi Îngilîzî, Îtalî, Spanî, Frensî, Almanî, Çînî û Japonî heye.

Bikarhênerên bernameya berê behs kirin Alexa Di heman demê de divê ew sînorkirinên zimanî jî bifikirin - arîkarê dîjîtal tenê bi Englishngilîzî, Almanî, Frensî û Japonî diaxive.

Alîkarê virtual yê Amazonê yekem car di Amazon Echo û Amazon Echo Dot axêverên biaqil ên ku ji hêla Amazon Lab126 ve hatine pêşve xistin de hate bikar anîn. Ew danûstendina deng, leyiztina muzîkê, afirandina navnîşên karan, danîna alarman, weşandina podcastan, lîstina pirtûkên dengî, û agahdariya rast-demê li ser hewa, seyrûsefer, werzîş, û agahdariya nûçeyên din ên wekî nûçeyan peyda dike (4). Alexa dikare gelek amûrên hişmend kontrol bike da ku pergalek otomasyona malê biafirîne. Di heman demê de ew dikare were bikar anîn da ku ji Amazon kirînên hêsan çêbike.

4. Çima bikarhêner Echo bikar tînin (li gorî lêkolînê)

Bikarhêner dikarin kapasîteyên Alexa-ê bi sazkirina "kêrhatinên" Alexa zêde bikin, taybetmendiyên din ên ku ji hêla aliyên sêyemîn ve bi gelemperî wekî sepanan têne binav kirin, wekî serîlêdanên hewa û bihîstwerî yên di mîhengên din de têne pêşve xistin. Piraniya cîhazên Alexa dihêlin ku hûn arîkarê virtual bi karanîna şîfreyek şiyarbûnê, ku jê re şîfreyek hişyariyê tê gotin, çalak bikin.

Amazon îro bi eşkere li bazara axaftvanên biaqil serdest e (5). IBM, ku di Adara 2018-an de karûbarê nû destnîşan kir, hewl dide ku bikeve nav çar top, Alîkarê Watson, ji bo pargîdaniyên ku dixwazin pergalên arîkar ên virtual yên bi deng-kontrolkirî bixwe biafirînin hatine çêkirin. Avantaja çareseriya IBM çi ye? Li gorî nûnerên pargîdaniyê, berî her tiştî, li ser derfetên pir mezintir ji bo kesanekirin û parastina nepenîtiyê.

Ya yekem, Arîkarê Watson xwedan marqeyek ferz nîne. Pargîdan dikarin li ser vê platformê çareseriyên xwe biafirînin û wan bi marqeya xwe nîşan bidin.

Ya duyemîn, ew dikarin pergalên xwe yên piştgiriyê bi karanîna daneyên daneyên xwe perwerde bikin, ku IBM dibêje ji teknolojiyên din ên VUI (navbera bikarhênerê deng) hêsantir zêdekirina taybetmendî û fermanan li wê pergalê hêsantir dike.

Ya sêyemîn, Watson Assistant di derbarê çalakiya bikarhêner de agahdarî nade IBM - pêşdebirên çareseriyên li ser platformê dikarin daneyên hêja tenê ji xwe re bihêlin. Di vê navberê de, her kesê ku amûrên ku Alexa bikar tîne, mînakî, divê bifikire ku daneyên wan ên hêja dê di dawiyê de bi Amazon re biqede.

Alîkarê Watson jixwe gelek pêkanîn hene. Ev sîstem, wek nimûne, ji aliyê şirketa Harman ve hat bikaranîn, ku ji bo erebeya konsepta Maserati arîkarek deng çêkir (6). Li Balafirgeha Munihê, arîkarek IBM-ê robotê Pepper hêz dike ku ji mêvanan re bibe alîkar ku li dora xwe bigerin. Mînaka sêyem Chameleon Technologies e, ku teknolojiya deng di metreyek malê de tê bikar anîn.

6. Alîkarê Watson di otomobîla konsepta Maserati de

Hêjayî gotinê ye ku teknolojiya bingehîn li vir jî ne nû ye. Watson Assistant kapasîteyên şîfrekirinê yên ji bo hilberên heyî yên IBM, Watson Conversation û Watson Virtual Agent, û her weha API-yên ji bo analîzkirina ziman û sohbetê vedihewîne.

Amazon ne tenê di teknolojiya dengê aqilmend de pêşeng e, lê ew di heman demê de wê vediguherîne karsaziyek rasterast. Lêbelê, hin pargîdan pir berê bi entegrasyona Echo re ceribandine. Sisense, pargîdaniyek di pîşesaziya BI û amûrên analîtîk de, di Tîrmeha 2016-an de entegrasyona Echo destnîşan kir. Di encamê de, destpêk Roxy biryar da ku ji bo pîşesaziya mêvanperweriyê nermalava xweya deng-kontrolkirî û nermalava xwe biafirîne. Di destpêka vê salê de, Synqq serîlêdanek notan destnîşan kir ku deng û pêvajoya zimanê xwezayî bikar tîne da ku not û navnîşên salnameyê zêde bike bêyî ku wan li ser klavyeyê binivîsîne.

Hemî van karsaziyên piçûk xwedî armancên bilind in. Lêbelê ya ku ew pir fêr bûn ev e ku ne her bikarhênerek naxwaze daneyên xwe radestî Amazon, Google, Apple an Microsoft-ê bike, ku di avakirina platformên ragihandina deng de lîstikvanên herî girîng in.

Amerîkî dixwazin bikirin

Di sala 2016 de, lêgerîna deng ji sedî 20% ji hemî lêgerînên mobîl ên Google-ê pêk tê. Kesên ku rojane vê teknolojiyê bikar tînin rehetî û piralîbûna wê wekî feydeyên wê yên herî mezin bi nav dikin. (mînak, şiyana karanîna motorek lêgerînê dema ajotina otomobîlê).

Analîstên Visiongain nirxa niha ya bazara arîkarê dîjîtal a jîr 1,138 milyar dolar texmîn dikin.Mekanîzmayên weha her ku diçe zêdetir dibin. Li gorî Gartner, heya dawiya 2018 30% ji têkiliyên me bi teknolojiyê re wê bi danûstandinên bi pergalên deng re be.

Şîrketa lêkolînê ya Brîtanî IHS Markit texmîn dike ku bazara arîkarê dîjîtal a AI (îstîxbarata hunerî) dê heya dawiya vê salê bigihîje 4 mîlyar amûr û dibe ku ev hejmar heya sala 2020-an bibe 7 milyar.

Li gorî raporên eMarketer û VoiceLabs, 2017 mîlyon Amerîkî di sala 35,6 de herî kêm mehê carekê kontrola deng bikar anîn. Ev yek li gorî sala borî ji sedî 130 zêdebûnek nîşan dide. Tê payîn ku bazara arîkarê dîjîtal tenê di sala 2018-an de di '23-an de mezin bibe. Ev tê vê wateyê ku hûn ê berê wan bikar bînin 60,5 mîlyon Amerîkî, ku dê ji bo hilberînerên wan di pereyê konkret de encam bide. RBC Capital Markets texmîn dike ku pêwendiya Alexa dê heya sala 2020-an bigihîje 10 mîlyar dolar dahata Amazon.

Bişo, bipêje, paqij bike!

Têkiliyên deng her ku diçe zêde dikevin nav bazara elektrîkê ya malê û xerîdar. Ev jixwe di pêşangeha sala borî ya IFA 2017 de hate dîtin. Pargîdaniya Amerîkî Neato Robotics, mînakî, valahiya robotek ku bi yek ji çend platformên xaniyên jîr ve girêdide, di nav de pergala Amazon Echo, pêşkêş kir. Bi axaftina bi axaftvanê xweya jîr Echo re, hûn dikarin makîneyê rê bidin ku tevahiya xaniyê we di demên taybetî yên roj an şevê de paqij bike.

Berhemên din ên bi deng-kontrolkirî yên ku têne pêşandan ji TVyên biaqil ên ku di bin marqeya Toshiba de ji hêla Vestel a Tirkî ve têne firotin heya betaniyên germkirî yên ji Almaniya Beurer-ê ne. Gelek ji van amûrên elektronîkî jî dikarin ji dûr ve bi karanîna smartfonan werin çalak kirin.

Lêbelê, li gorî nûnerên Bosch, pir zû ye ku meriv bêje ka kîjan vebijarka arîkarê malê dê serdest bibe. Koma teknolojiyê ya Alman di IFA 2017 de makîneyên şuştinê (7), sobe û makîneyên qehweyê yên ku bi Echo ve girêdidin nîşan da. Bosch jî dixwaze ku cîhazên wê di pêşerojê de bi platformên dengê Google û Apple re hevaheng bin.

7. Makîneya şuştina Bosch ku bi Amazon Echo ve girêdide

Pargîdaniyên wekî Fujitsu, Sony û Panasonic çareseriyên xwe yên arîkarê deng ên bi hêza AI-ê pêşve diçin. Sharp vê teknolojiyê li sobe û robotên piçûk ên ku derdikevin bazarê zêde dike. Nippon Telegraph & Telephone hilberînerên hardware û pêlîstokan dixebitîne da ku pergalek îstîxbarata sûnî ya bi deng-kontrolkirî adapte bike.

Konsepta kevn. Di dawiyê de dema wê hat?

Bi rastî, têgeha Navbera Bikarhêner a Deng (VUI) bi dehsalan li dora xwe ye. Kesê ku gelek sal berê li Star Trek an 2001: A Space Odyssey temaşe kir, belkî li bendê bû ku, dora sala 2000-an de, em hemî bi dengê xwe komputeran kontrol bikin. Digel vê yekê, ne tenê nivîskarên honaka zanistî bûn ku potansiyela vî rengî pêwendiyê dîtin. Di 1986-an de, lêkolînerên Nielsen ji pisporên IT-ê pirsîn ka ew çi difikirîn ku dê heya sala 2000-an di navgînên bikarhêner de guhertina herî mezin be. Wan pir caran destnîşan kir ku pêşkeftina pêwendiyên deng.

Sedemên hêvîkirina çareseriyek wiha hene. Ragihandina devkî, jixwe, awayê herî xwezayî ye ku mirov bi hişmendî ramanan veguhezîne, ji ber vê yekê karanîna wê ji bo danûstendina mirov-makîneyê ji bo nuha wekî çareseriya çêtirîn xuya dike.

Yek ji yekem VUI-yên gazî kirin shoebox, di destpêka salên 60-an de ji hêla IBM ve hatî çêkirin. Ew pêşengê pergalên nasîna dengê îroyîn bû. Lêbelê, pêşkeftina amûrên VUI ji hêla sînorên hêza hesabkirinê ve sînorkirî bû. Parzûnkirin û şirovekirina axaftina mirovan di wextê rast de gelek hewldan hewce dike, û zêdetirî pêncî sal derbas bû ku bigihîje xala ku bi rastî gengaz bû.

Amûrên bi navgînên deng di nîvê salên 90-an de di hilberîna girseyî de dest pê kirin, lê populerbûn bi dest nexistin. Telefona yekem a bi kapasîteya kontrolkirina deng (diler) bû Philips Spark, di sala 1996 de derketiye. Lêbelê, ev cîhaza nûjen û karanîna hêsan ji tixûbên teknolojîk ne azad bû.

Têlefonên din ên ku bi formên navbeynkariya deng (ji hêla pargîdaniyên wekî RIM, Samsung an Motorola ve hatine çêkirin) bi rêkûpêk li sûkê xuya dibûn, ku rê dide bikarhêneran ku dengek jimareyek telefon bikin an jî peyamên nivîsê bişînin. Lêbelê, hemî wan hewce dikir ku emrên taybetî ji bîr bikin û wan bi rengek zordar, çêkirî, ku li gorî kapasîteyên amûrên wê demê hatine adaptekirin, bilêv bikin. Vê yekê hejmareke mezin ji xeletiyan çêkir, ku, di encamê de, bû sedema nerazîbûna bikarhêner.

Lêbelê, em naha dikevin serdemek nû ya hesabkirinê, ku tê de pêşkeftinên di fêrbûna makîneyê û îstîxbarata çêkirî de potansiyela danûstendinê wekî rêyek nû ya danûstandina bi teknolojiyê re vedike (8). Hejmara amûrên ku pêwendiya deng piştgirî dikin bûye faktorek girîng ku bandorek mezin li ser pêşkeftina VUI kiriye. Îro, hema hema 1/3 ji nifûsa cîhanê jixwe xwedan smartfonên ku dikarin ji bo vî rengî tevgerê werin bikar anîn hene. Wusa dixuye ku pir bikarhêner di dawiyê de amade ne ku pêvekên dengê xwe biguncînin.

8. Dîroka nûjen a pêşveçûna pêwendiya deng

Lêbelê, berî ku em karibin bi komputerek azad biaxivin, wekî ku karakterên di A Space Odyssey kir, divê em çend pirsgirêkan derbas bikin. Makîne hîn jî ne pir baş in ku bi nuwazeyên zimanî re mijûl dibin. Bêyî gelek kes hîn jî nerehet in ku emrên deng didin motora lêgerînê.

Statîstîk destnîşan dikin ku arîkarên deng di serî de li malê an di nav hevalên nêzîk de têne bikar anîn. Yek ji bersivdaran qebûl nekir ku lêgerîna deng li cihên giştî bikar tîne. Lêbelê, ev asteng dê bi belavbûna vê teknolojiyê re winda bibe.

Pirsa teknîkî dijwar

Pirsgirêka ku pergalên (ASR) rû bi rû ne ev e ku daneyên kêrhatî ji nîşanek axaftinê derxînin û wê bi peyvek taybetî ya ku ji kesek re wateyek taybetî heye re têkildar bikin. Dengên ku her carê têne gotin cuda ne.

Guhertina sînyala axaftinê Taybetmendiya wê ya xwezayî ye, bi saya wê em, wek nimûne, devok an întonasyonê nas dikin. Her hêmanek pergala naskirina axaftinê xwedî karek taybetî ye. Li ser bingeha sînyala pêvajoyî û pîvanên wê, modelek akustîk tê afirandin, ku bi modela zimên ve girêdayî ye. Pergala naskirinê dikare li ser bingeha hejmarek piçûk an mezin a nimûneyan bixebite, ku mezinahiya ferhenga ku pê re dixebite diyar dike. Ew dikarin bibin ferhengên biçûk di warê pergalên ku peyv an fermanên takekesî nas dikin, her weha databases mezin ku hevwateya komek ziman dihewîne û modela zimên (gramer) li ber çavan digire.

Pirsgirêkên ku pêwendiya dengan rû didin di serî de ne axaftinê rast fêm bike, ku tê de, wek nimûne, bi tevahî rêzikên rêzimanî gelek caran têne derxistin, xeletiyên zimanî û dengnasî, xeletî, kêmasî, kêmasiyên axaftinê, hevmonîm, dubarekirinên ne rewa û hwd hene. Divê ev hemî pergalên ACP bi lez û bez bixebitin. Bi kêmanî ev bendewarî ye.

Çavkaniyek dijwariyê jî ji îşaretên dengî yên din ên ku têne nas kirin tê ku dikevin hundurê pergala nasandinê, ango. her cure mudaxele û deng. Di rewşa herî hêsan de hûn hewceyê wan in fîltre kirin. Ev peywir rûtîn û hêsan xuya dike - her tiştî, îşaretên cihêreng têne fîlter kirin û her endezyarek elektronîkî dizane ku di rewşek weha de çi bike. Lêbelê, ger ku encama naskirina axaftinê li gorî hêviyên me be, divê ev pir bi baldarî û bi baldarî were kirin.

Parzûna ku niha tê bikar anîn dihêle ku, digel nîşana axaftinê, dengê derveyî ku ji hêla mîkrofonê ve hatî hildan û taybetmendiyên hundurîn ên nîşana axaftinê bixwe jî were rakirin, ku naskirina wê dijwar dike. Lêbelê, pirsgirêkek teknîkî ya pir tevlihevtir derdikeve holê dema ku destwerdana nîşana axaftinê ya analîzkirî ... îşaretek din a axaftinê ye, ango, mînakî, nîqaşên bi deng li derdorê. Ev pirs di edebiyatê de wekî ku tê gotin. Jixwe ev pêdivî bi karanîna rêbazên tevlihev, yên ku jê re tê gotin, hewce dike. deconvolution (vekirin) sînyala.

Pirsgirêkên bi naskirina axaftinê bi dawî nabin. Hêjayî zanînê ye ku axaftin gelek celeb agahdariyan hildigire. Dengê mirov cins, temen, karakterên cihê yên xwedan an jî rewşa tenduristiya wî pêşniyar dike. Şaxek mezin a endezyariya biyolojîkî heye ku ji bo teşhîskirina nexweşiyên cihêreng li ser bingeha diyardeyên akustîk ên ku di îşareta axaftinê de têne dîtin ve hatî veqetandin.

Di heman demê de serîlêdan hene ku armanca sereke ya analîza akustîk a îşaretek axaftinê ew e ku meriv axaftvan nas bike an piştrast bike ku ew ew e ku ew dibêje ew e (deng li şûna mifteyê, şîfre an koda YNKê). Ev dibe ku girîng be, nemaze ji bo teknolojiyên avahiya hişmend.

Yekemîn pêkhateya pergala naskirina axaftinê ye mîlyon. Lêbelê, sînyala ku ji hêla mîkrofonê ve hatî hildan bi gelemperî karanîna hindik dimîne. Lêkolîn nîşan dide ku şekl û qursa pêla deng li gorî kes, leza axaftinê, û hinekî jî rewşa navberê pir diguhere - di heman demê de ku ew bi rêjeyek piçûk naveroka fermanên axaftinê nîşan dide.

Ji ber vê yekê, sînyala divê bi rêkûpêk were pêvajo kirin. Akustîka nûjen, fonetîk û zanista kompîturê bi hev re komek amûrek dewlemend peyda dikin ku dikarin ji bo pêvajokirin, analîzkirin, naskirin û famkirina nîşanên axaftinê werin bikar anîn. Spektruma dînamîkî ya sînyalê, bi navê spektrogramên dînamîk. Bidestxistina wan pir hêsan e, û axaftin, ku di forma spektrogramek dînamîkî de tê pêşkêş kirin, bi karanîna teknîkên mîna yên ku di naskirina wêneyê de têne bikar anîn de bi rehetî têne nas kirin.

Hêmanên hêsan ên axaftinê (mînak, ferman) dikarin bi hemanheviya sade ya tevahî spektrograman werin nas kirin. Mînakî, ferhengek têlefona desta ya ku bi deng-aktîfkirî ye, tenê çend deh û çend sed peyv û hevokan dihewîne, bi gelemperî ji berê ve têne danîn da ku ew bi hêsanî û bi bandor bêne nas kirin. Ev ji bo karên kontrolê yên hêsan bes e, lê ew bi tundî serîlêdana giştî sînordar dike. Pergalên ku li gorî nexşeyê hatine çêkirin, bi gelemperî, tenê axaftvanên taybetî yên ku deng bi taybetî têne perwerde kirin piştgirî dikin. Ji ber vê yekê heke kesek nû hebe ku bixwaze dengê xwe bikar bîne da ku pergalê kontrol bike, ew ê bi îhtîmalek mezin neyê pejirandin.

Encama vê operasyonê tê gotin spektrogram 2-W, ango spektrumek du-alî ye. Di vê blokê de dersek din heye ku hêja ye ku bala xwe bidinê - dabeşkirin. Bi gelemperî, em li ser perçekirina îşaretek axaftinê ya domdar li beşên ku dikarin bi rengek kesane werin nas kirin diaxivin. Tenê ev teşhîsên takekesî naskirina tevahiyê pêk tînin. Ev pêvajo hewce ye ji ber ku ne gengaz e ku meriv axaftina dirêj û tevlihev bi yek gavê nas bike. Berê bi tevayî cild hatine nivîsandin ka kîjan beş divê di îşareteke axaftinê de bêne cuda kirin, ji ber vê yekê em ê niha biryarê nedin ka beşên ku werin cihêkirin fonem (hevberên dengan), tîp, an belkî alofon bin.

Pêvajoya naskirina otomatîkî her gav hin taybetmendiyên tiştan vedibêje. Ji bo sînyala axaftinê bi sedan setên cuda yên parametreyê hatine ceribandin di çarçoveyên naskirî de têne dabeş kirin û hebûn fonksiyonên hilbijartîku ev çarçove di pêvajoya naskirinê de têne temsîl kirin, em dikarin pêk bînin (ji bo her çarçoveyek cuda) bisinifkirinî, yanî danasîna nasnameyek ji çarçoweya ku dê di pêşerojê de wê temsîl bike.

Dîsa paşîn berhevkirina çarçoveyan di peyvên cuda de - pir caran li ser bingeha bi navê modela modelên Markov ên nepenî (IMM-). Piştre montajeke peyvan tê hevokên temam.

Naha em dikarin ji bo bîskekê vegerin ser pergala Alexa. Mînaka wî pêvajoyek pir-qonaxê ya makîneya "fêmkirina" kesek nîşan dide - bi rastî: fermana ku ew dide an pirsa ku jê hatî pirsîn.

Fêmkirina peyvan, têgihîştina wateyê, û têgihîştina niyeta bikarhêner bi tevahî tiştên cûda ne.

Ji ber vê yekê, gava paşîn xebata modula NLP (), peywira wê ye naskirina niyeta bikarhêner, yanî wateya ferman/pirsa di çarçoveya ku tê de hatiye axaftin. Ger mebest were naskirin, divê hûn tayînkirina bi navê jêhatîbûn û jêhatîbûnê, ango fonksiyonek taybetî ya ku ji hêla arîkarê hişmend ve tê piştgirî kirin. Di mijara pirsek li ser hewayê de, çavkaniyên daneyên hewayê têne gazî kirin, ku di axaftinê de têne hilberandin (TTS - mekanîzma). Wekî encamek, bikarhêner bersiva pirsa pirsî dibihîze.

Deng? Hunerên grafîk? An jî dibe ku herdu?

Pir pergalên danûstendina nûjen ên naskirî li ser navbeynkarek ku jê re tê gotin bingeh in user interface grafîkî (navbera grafîkî). Mixabin, pêwendiyek grafîkî ne awayê herî eşkere ye ku meriv bi hilberek dîjîtal re têkilî daynin. Ev hewce dike ku bikarhêner pêşî fêr bibin ka meriv çawa pêvekê bikar tîne û bi her danûstendina paşîn re vê agahiyê bi bîr bîne. Di gelek rewşan de, deng pir rehettir e ji ber ku danûstandina bi VUI re bi qasî axaftina bi cîhazê re hêsan e. Têkiliyek ku bikarhêneran neçar nake ku emrên taybetî an rêbazên danûstendinê bi bîr bînin û bi bîr bînin, dibe sedema kêm pirsgirêkan.

Bê guman, berfirehkirina VUI nayê vê wateyê ku dev ji navberên kevneşopî berde - lêbelê, navberên hybrid ên ku çend awayên danûstendinê berhev dikin dê peyda bibin.

Têkiliya deng ji bo hemî karan di çarçoveyek mobîl de ne maqûl e. Bi wê re, em ê dema ajotina gerîdeyê bangî hevalek bikin, û tewra jê re SMSek jî bişînin, lê dibe ku kontrolkirina veguheztinên herî paşîn pir dijwar be - ji ber hêjmara agahdariya ku ji pergalê re () ve hatî veguheztin û ji hêla pergalê (pergalê) ve hatî hilberandin. . Wekî ku Rachel Hinman di pirtûka xwe ya Mobile Frontier de pêşniyar dike, karanîna VUI di dema pêkanîna peywiran de ku hêjmara agahdariya ketin û derketinê hindik e, herî bi bandor e.

Smartphone ku bi Înternetê ve girêdayî ye rehet e lê di heman demê de nerehet e (9). Her cara ku bikarhênerek bixwaze tiştek bikire an karûbarek nû bikar bîne, divê ew serîlêdanek din dakêşîne û hesabek nû çêbike. Li vir qadek ji bo bikar anîn û pêşdebirina navberên deng hatiye afirandin. Li şûna ku bikarhêner neçar bike ku gelek serîlêdanên cihêreng saz bikin an ji bo her karûbarek hesabên cihê biafirînin, VUI dê barê van peywirên giran biguhezîne ser arîkarek dengek çalakkirî ya AI, pispor dibêjin. Dê ji bo wî rehet be ku çalakiyên dijwar pêk bîne. Em ê tenê fermanan bidin wî.

9. Navbera deng bi karanîna smartphone

Niha, ji telefon û komputera we zêdetir bi Înternetê ve girêdayî ne. Termostatên biaqil, ronî, çaydan û gelek amûrên din ên yekbûyî yên IoT jî bi torê ve girêdayî ne (10). Ji ber vê yekê, li dora me cîhazên girêdayî wireless hene ku jiyana me tije dikin, lê ne hemî wan bi xwezayî di navgînek bikarhênerek grafîkî de cih digirin. Bikaranîna VUI dê ji we re bibe alîkar ku hûn wan bi hêsanî di hawîrdora me de yek bikin.

10. Têkiliya Deng bi Înternetê ya Tiştan

Afirandina navgînek bikarhêner-based deng dê di demek nêzîk de ji sêwiranan re bibe jêhatîbûnek sereke. Ev dijwariyek rastîn e - hewcedariya bicîhkirina pergalên deng dê we neçar bike ku hûn bêtir bala xwe bidin sêwirana proaktîf, ango, hewl bidin ku niyeta bingehîn a bikarhêner fam bikin, di her qonaxa danûstendinê de hewcedarî û hêviyên wan pêşbîn bikin.

Deng ji bo têketina daneyan rêyek bi bandor e - ew dihêle bikarhêneran bi lez û bez fermanan li ser mercên xwe bidin pergalê. Ji aliyek din ve, ekran rêyek bikêrhatî ji bo xuyangkirina agahdariyan peyda dike: ew rê dide pergalên ku bi hevdemî hejmareke mezin a agahdariyê nîşan bidin, barkirina li ser bîranîna bikarhêneran kêm dike. Mantiqî ye ku berhevkirina wan di yek pergalê de teşwîqek xuya dike.

Axaftvanên jîr ên mîna Amazon Echo û Google Home bi tevahî dîmendera dîtbarî pêşkêş nakin. Bi başkirina girîngiya rastbûna naskirina deng li ser dûrên nerm, ew xebata bêdestpêk çalak dikin, ku di encamê de nermbûn û karbidestiya wan zêde dike - tewra ji bo bikarhênerên ku berê xwedan smartfonên deng-çalakkirî jî dixwazin. Lêbelê, nebûna ekranek sînorek mezin e.

Tenê beep dikare were bikar anîn da ku bikarhêneran li ser fermanên gengaz agahdar bike, û xwendina encam bi dengek bi deng ji bilî karên herî hêsan bêzar dibe. Di dema çêkirina xwarinê de danîna demjimêrek bi fermana dengî pir xweş e, lê ku hûn bipirsin ka çiqas dem maye ne hewce ye. Wergirtina pêşbîniya hewayê ya birêkûpêk ji bikarhêner re dibe ceribandinek bîranînê, yê ku neçar e ku tevahiya hefteyekê bi guhdarîkirin û fêhmkirina rêzek rastiyan derbas bike ne ku wan bi çavekî ji ekranê berhev bike.

Sêwiranan berê xwe pêş xistine çareseriya hybrid, Echo Show (11), ku dîmenderek pêşandanê li axaftvana bingehîn a jîr Echo zêde kir. Ev bi girîngî fonksiyona amûrê berfireh dike. Lêbelê, Echo Show hîna jî pir hindik e ku fonksiyonên bingehîn ên ku ji mêj ve li ser têlefon û tabletan peyda bûne pêk bîne. Ew nikare (hê jî), mînakî, li ser malperê bigere, nirxandinan nîşan bide, an naveroka selika kirîna Amazonê nîşan bide.

Nîşandana dîtbar bi xwezayê rêyek bibandortir e ku meriv ji dengan pir agahdarî peyda dike. Sêwirana yekem-deng dikare pêwendiya deng pir baştir bike, lê di demek dirêj de, nekaranîna keyfî pêşekên dîtbarî ji bo danûstendinê dê mîna tekoşîna bi yek destek li pişta we ve girêdayî be. Ji ber tevliheviya xuyang a navbeynkariya deng û dîmenê aqilmend a dawî-bi-dawî, pêdivî ye ku pêşdebiran bi ciddî nêzîkatiyek hybrid ji navbeynkaran re bifikirin.

Zêdekirina karîgerî û leza pergalên hilberandin û naskirina axaftinê mimkun kiriye ku ew di sepan û warên weha de bikar bînin, wek mînak:

• leşkerî (fermanên dengî di balafir an helîkopteran de, wek nimûne, F16 VISTA),

• Veguheztina nivîsê ya otomatîk (axaftin bi nivîsê),

• pergalên agahdariya înteraktîf (Prime-Speech, portalên deng),

• cîhazên mobîl (telefon, smartfon, tablet),

• robotîk (Cleverbot - pergalên ASR bi îstîxbarata sûnî re hevgirtî),

• otomotîv (kontrola bêdestûr a pêkhateyên gerîdeyê, mînakî Blue & Me),

• sepanên malê (sîstema malên jîr).

Sax bimînin!

Otomobîl, alav, germkirin/sarkirin û pergalên ewlehiya malê, û gelek amûrên malê dest bi karanîna navrûyên deng dikin, ku pir caran ji hêla AI-ê ve têne hêz kirin. Di vê qonaxê de, daneyên ku ji mîlyonan danûstendinên bi makîneyan têne wergirtin têne şandin ewrên komputerê. Diyar e ku bazarvan bi wan re eleqedar in. Û ne tenê wan.

Raporek vê dawiyê ji pisporên ewlehiyê yên Symantec pêşniyar dike ku bikarhênerên fermana deng divê taybetmendiyên ewlehiyê yên wekî kilîdên derî kontrol nekin, bila pergalên ewlehiya malê nehêlin. Heman tişt ji bo hilanîna şîfreyan an agahdariya nehênî jî derbas dibe. Ewlehiya îstîxbarata sûnî û hilberên jîr hîn bi têra xwe nehatiye lêkolîn kirin.

Gava ku cîhazên li seranserê malê li her peyvê guhdarî dikin, xetera hackkirin û nerastkirina pergalê dibe xemek pir girîng. Ger êrîşkar bigihîje tora herêmî an navnîşanên e-nameyê yên têkildar, mîhengên cîhaza jîr dikare were guheztin an vegere mîhengên kargehê, ku bibe sedema windakirina agahdariya hêja û jêbirina dîroka bikarhêner.

Bi gotinek din, pisporên ewlehiyê ditirsin ku îstîxbarata çêkirî ya bi deng-kontrolkirî û bi VUI-yê ve tê kontrol kirin hîn ne ew qasî jîr e ku me ji xetereyên potansiyel biparêze û devê me girtî bimîne dema ku xerîb tiştek dipirse.

Add a comment