來源: 智東西
40 多年前,諾貝爾獎(jiǎng)得主 Herbert Simon 在認(rèn)知心理學(xué)方面強(qiáng)調(diào),解決問題論要結(jié)合情感的影響。情感的識(shí)別和表達(dá)對(duì)于信息的交流和理解是必需的,也是人類最大的心理需求之一。人類的認(rèn)知、行為等幾乎都要受到情感的驅(qū)動(dòng),并影響著人際互動(dòng)以及群體活動(dòng)。在人與人的交往中, 情感的交流還常被用來完成人的意圖的傳遞。 因此,在智能人機(jī)交互的研究中,擁有對(duì)情感的識(shí)別、分析、理解、表達(dá)的能力也應(yīng)成為智能機(jī)器必不可少的一種功能。
讓計(jì)算機(jī)具有情感能力的觀點(diǎn)并不新鮮,它與“機(jī)器人” 一詞幾乎同時(shí)出現(xiàn)。1985 年,人工智能的奠基人之一 Minsky 就明確指出: “問題不在于智能機(jī)器能否有情感,而在于沒有情感的機(jī)器能否實(shí)現(xiàn)智能” 。但當(dāng)時(shí),賦予計(jì)算機(jī)或機(jī)器人以人類式的情感,主要還是科幻小說中的素材,在學(xué)術(shù)界罕有人關(guān)注。1995 年情感計(jì)算的概念由 Picard 首次提出,并于 1997 年正式出版《Affective Computing(情感計(jì)算)》。在書中,她指出“情感計(jì)算就是針對(duì)人類的外在表現(xiàn),能夠進(jìn)行測(cè)量和分析并能對(duì)情感施加影響的計(jì)算” ,開辟了計(jì)算機(jī)科學(xué)的新領(lǐng)域,其思想是使計(jì)算機(jī)擁有情感,能夠像人一樣識(shí)別和表達(dá)情感,從而使人機(jī)交互更自然。
簡(jiǎn)單來說,情感計(jì)算研究就是試圖創(chuàng)建一種能感知、識(shí)別和理解人的情感,并能針對(duì)人的情感做出智能、靈敏、友好反應(yīng)的計(jì)算系統(tǒng)。顯然,情感計(jì)算是個(gè)復(fù)雜的過程,不僅受時(shí)間、地點(diǎn)、環(huán)境、人物對(duì)象和經(jīng)歷的影響,而且要考慮表情、語言、動(dòng)作或身體的接觸。
在人機(jī)交互中,計(jì)算機(jī)需要捕捉關(guān)鍵信息,覺察人的情感變化,形成預(yù)期,進(jìn)行調(diào)整, 做出反應(yīng)。例如通過對(duì)不同類型的用戶建模(如操作方式、表情特點(diǎn)、態(tài)度喜好、認(rèn)知風(fēng)格、知識(shí)背景等),以識(shí)別用戶的情感狀態(tài),利用有效的線索選擇合適的用戶模型,并以適合當(dāng)前用戶的方式呈現(xiàn)信息。 在對(duì)當(dāng)前的操作做出及時(shí)反饋的同時(shí),還要對(duì)情感變化背后的意圖形成新的預(yù)期,并激活相應(yīng)的數(shù)據(jù)庫,及時(shí)主動(dòng)地提供用戶需要的新信息。 舉例來說,麻省理工學(xué)院媒體實(shí)驗(yàn)室的情感計(jì)算小組研制的情感計(jì)算系統(tǒng)通過記錄人面部表情的攝像機(jī)和連接在人身體上的生物傳感器來收集數(shù)據(jù),然后由一個(gè)“情感助理”來調(diào)節(jié)程序以識(shí)別人的情感。假設(shè)你對(duì)電視講座的一段內(nèi)容表現(xiàn)出困惑,情感助理會(huì)重放該片段或者給予解釋。而目前國(guó)內(nèi)情感計(jì)算的研究重點(diǎn)在于通過各種傳感器獲取有人的情感所引起的生理及行為特征信號(hào),確定情感類別的關(guān)鍵特征,建立“情感模型”,從而創(chuàng)建個(gè)人情感計(jì)算系統(tǒng)。
情感計(jì)算是一個(gè)高度綜合化的研究和技術(shù)領(lǐng)域。通過計(jì)算科學(xué)與心理科學(xué)、認(rèn)知科學(xué)的結(jié)合,研究人與人交互、人與計(jì)算機(jī)交互過程中的情感特點(diǎn),設(shè)計(jì)具有情感反饋的人與計(jì)算機(jī)的交互環(huán)境,將有可能實(shí)現(xiàn)人與計(jì)算機(jī)的情感交互。情感計(jì)算研究將不斷加深對(duì)人的情感狀態(tài)和機(jī)制的理解,并提高人與計(jì)算機(jī)界面的和諧性,即提高計(jì)算機(jī)感知情境,理解人的情感意圖,做出適當(dāng)反應(yīng)的能力,其主要研究?jī)?nèi)容如下圖所示:
情感計(jì)算是一個(gè)多學(xué)科交叉的嶄新的研究領(lǐng)域,它涵蓋了傳感器技術(shù)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、心理學(xué)、行為學(xué)、生理學(xué)、哲學(xué)、社會(huì)學(xué)等方面。情感計(jì)算的最終目標(biāo)是賦予計(jì)算機(jī)類似于人的情感能力。要達(dá)到這個(gè)目標(biāo),許多技術(shù)問題有待解決。這些技術(shù)問題的突破對(duì)各學(xué)科的發(fā)展都產(chǎn)生巨大的推動(dòng)作用。以下分別從情感計(jì)算的傳統(tǒng)研究方法和新興研究方法對(duì)技術(shù)發(fā)展進(jìn)行探討。
傳統(tǒng)的情感計(jì)算方法是按照不同的情感表現(xiàn)形式分類的,分別是:文本情感分析、語音情感分析、視覺情感分析。
20世紀(jì)90年代末,國(guó)外的文本情感分析已經(jīng)開始。早期, Riloff和Shepherd在文本數(shù)據(jù)的基礎(chǔ)上進(jìn)行了構(gòu)建語義詞典的相關(guān)研究。 McKeown發(fā)現(xiàn)連詞對(duì)大規(guī)模的文本數(shù)據(jù)集中形容詞的語義表達(dá)的制約作用,進(jìn)而對(duì)英文的形容詞與連詞做情感傾向研究。自此之后,越來越多的研究開始考慮特征詞與情感詞的關(guān)聯(lián)關(guān)系。 Turney等使用點(diǎn)互信息的方法擴(kuò)展了正負(fù)面情感詞典,在分析文本情感時(shí)使用了極性語義算法,處理通用的語料數(shù)據(jù)時(shí)準(zhǔn)確率達(dá)到了74%。在近些年的研究中, Narayanan等結(jié)合各種特征及其相關(guān)聯(lián)信息,提出了基于分句、整句、結(jié)果句的分類方案,獲得了很好的效果。 Pang等以積極情感和消極情感為維度,對(duì)電影評(píng)論進(jìn)行了情感分類。他分別采用了支持向量機(jī)、最大熵、樸素貝葉斯算法進(jìn)行分類實(shí)驗(yàn),發(fā)現(xiàn)支持向量機(jī)的精確度達(dá)到了80%。隨著研究的不斷深入,學(xué)者在對(duì)情感分析算法進(jìn)行改進(jìn)的同時(shí),也將其應(yīng)用到不同的行業(yè)中進(jìn)行了實(shí)踐。
文本情感計(jì)算的過程可以由 3 部分組成:文本信息采集、情感特征提取和情感信息分類。文本信息采集模塊通過文本抓取工具(如網(wǎng)頁爬蟲工具)獲得情感評(píng)論文本,并傳遞到下一個(gè)情感特征提取模塊,然后對(duì)文本中自然語言文本轉(zhuǎn)化成計(jì)算機(jī)能夠識(shí)別和處理的形式,并通過情感信息分類模塊得到計(jì)算結(jié)果。文本情感計(jì)算側(cè)重研究情感狀態(tài)與文本信息之間的對(duì)應(yīng)關(guān)系,提供人類情感狀態(tài)的線索。具體地,需要找到計(jì)算機(jī)能提取出來的特征,并采用能用于情感分類的模型。因此,關(guān)于文本情感計(jì)算過程的討論,主要集中在文本情感特征標(biāo)注(信息采集) 、情感特征提取和情感信息分類這三個(gè)方面 。
1、文本情感特征標(biāo)注:情感特征標(biāo)注是對(duì)情感語義特征進(jìn)行標(biāo)注,通常是將詞或者語義塊作為特征項(xiàng)。情感特征標(biāo)注首先對(duì)情感語義特征的屬性進(jìn)行設(shè)計(jì),如褒義詞、貶義詞、加強(qiáng)語氣、一般語氣、悲傷、高興等等;然后通過機(jī)器自動(dòng)標(biāo)注或者人工標(biāo)注的方法對(duì)情感語義特征進(jìn)行標(biāo)注, 形成情感特征集合。情感詞典是典型的情感特征集合,也是情感計(jì)算的基礎(chǔ)。在大多數(shù)研究中,有關(guān)情感計(jì)算的研究通常是將情感詞典直接引入自定義詞典中。
運(yùn)用情感詞典計(jì)算出文本情感值是一種簡(jiǎn)單迅速的方法,但準(zhǔn)確率有待提高。在實(shí)際的情感計(jì)算中,會(huì)因?yàn)榫唧w的語言應(yīng)用環(huán)境而有所不同。例如, “輕薄” 一詞通常認(rèn)為是否定詞,但是在電腦、手機(jī)卻被視為肯定詞匯。同時(shí),文本中常會(huì)出現(xiàn)否定前置、雙重否定以及文本口語化和表情使用等,這些都將會(huì)對(duì)文本情感特征的提取和判斷產(chǎn)生較大的影響。因此在進(jìn)行文本情感提取時(shí),需要對(duì)文本及其對(duì)應(yīng)的上下文關(guān)系、 環(huán)境關(guān)系等進(jìn)行分析。
2、情感特征提取 :文本包含的情感信息是錯(cuò)綜復(fù)雜的,在賦予計(jì)算機(jī)以識(shí)別文本情感能力的研究中,從文本信號(hào)中抽取特征模式至關(guān)重要。在對(duì)文本預(yù)處理后,初始提取情感語義特征項(xiàng)。特征提取的基本思想是根據(jù)得到的文本數(shù)據(jù), 決定哪些特征能夠給出最好的情感辨識(shí)。通常算法是對(duì)已有的情緒特征詞打分,接著以得分高低為序,超過一定閾值的特征組成特征子集。特征詞集的質(zhì)量直接影響最后結(jié)果,為了提高計(jì)算的準(zhǔn)確性,文本的特征提取算法研究將繼續(xù)受到關(guān)注。長(zhǎng)遠(yuǎn)看來,自動(dòng)生成文本特征技術(shù)將進(jìn)一步提高,特征提取的研究重點(diǎn)也更多地從對(duì)詞頻的特征分析轉(zhuǎn)移到文本結(jié)構(gòu)和情感詞上。
3、情感信息分類 :文本情感分類技術(shù)中,主要采用兩種技術(shù)路線:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。在 20世紀(jì) 80 年代,基于規(guī)則的方法占據(jù)主流位置,通過語言學(xué)家的語言經(jīng)驗(yàn)和知識(shí)獲取句法規(guī)則,以此作為文本分類依據(jù)。但是,獲取規(guī)則的過程復(fù)雜且成本巨大,也對(duì)系統(tǒng)的性能有負(fù)面影響,且很難找到有效的途徑來提高開發(fā)規(guī)則的效率。 20 世紀(jì) 90 年代之后,人們更傾向于使用統(tǒng)計(jì)的方法,通過訓(xùn)練樣本進(jìn)行特征選擇和參數(shù)訓(xùn)練,根據(jù)選擇的特征對(duì)待分類的輸入樣本進(jìn)行形式化,然后輸入到分類器進(jìn)行類別判定,最終得到輸入樣本的類別。
最早的真正意義上的語音情感識(shí)別相關(guān)研究出現(xiàn)在 20 世紀(jì) 80 年代中期,它們開創(chuàng)了使用聲學(xué)統(tǒng)計(jì)特征進(jìn)行情感分類的先河。緊接著,隨著 1985 年 Minsky 教授“讓計(jì)算機(jī)具有情感能力” 觀點(diǎn)的提出,以及人工智能領(lǐng)域的研究者們對(duì)情感智能重要性認(rèn)識(shí)的日益加深,越來越多的科研機(jī)構(gòu)開始了語音情感識(shí)別研究的探索。在 20 世紀(jì) 80 年代末至 90 年代初期,麻省理工學(xué)院多媒體實(shí)驗(yàn)室構(gòu)造了一個(gè)“情感編輯器” 對(duì)外界各種情感信號(hào)進(jìn)行采集,綜合使用人體的生理信號(hào)、面部表情信號(hào)、語音信號(hào)來初步識(shí)別各種情感,并讓機(jī)器對(duì)各種情感做出適當(dāng)?shù)暮?jiǎn)單反應(yīng); 1999 年, Moriyama 提出語音和情感之間的線性關(guān)聯(lián)模型,并據(jù)此在電子商務(wù)系統(tǒng)中建造出能夠識(shí)別用戶情感的圖像采集系統(tǒng)語音界面,實(shí)現(xiàn)了語音情感在電子商務(wù)中的初步應(yīng)用。
整體而言,語音情感識(shí)別研究在該時(shí)期仍舊處于初級(jí)階段, 主要側(cè)重于情感的聲學(xué)特征分析這一方面,作為研究對(duì)象的情感語音樣本也多表現(xiàn)為規(guī)模小、自然度低、語義簡(jiǎn)單等特點(diǎn),雖然有相當(dāng)數(shù)量的有價(jià)值的研究成果相繼發(fā)表,但是并沒有形成一套被廣泛認(rèn)可的、系統(tǒng)的理論和研究方法。進(jìn)入 21 世紀(jì)以來,隨著計(jì)算機(jī)多媒體信息處理技術(shù)等研究領(lǐng)域的出現(xiàn)以及人工智能領(lǐng)域的快速發(fā)展,語音情感識(shí)別研究被賦予了更多的迫切要求,發(fā)展步伐逐步加快。 2000 年,在愛爾蘭召開的 ISCA Workshop on Speech and Emotion 國(guó)際會(huì)議首次把致力于情感和語音研究的學(xué)者聚集在一起。近 10 余年來,語音情感識(shí)別研究工作在情感描述模型的引入、情感語音庫的構(gòu)建、情感特征分析等領(lǐng)域的各個(gè)方面都得到了發(fā)展。 下面將從語音情感數(shù)據(jù)庫的采集、語音情感標(biāo)注以及情感聲學(xué)特征分析方面介紹語音情感計(jì)算。
1、語音情感數(shù)據(jù)庫的采集 :語音情感識(shí)別研究的開展離不開情感語音數(shù)據(jù)庫的支撐。情感語音庫的質(zhì)量高低,直接決定了由它訓(xùn)練得到的情感識(shí)別系統(tǒng)的性能好壞。評(píng)價(jià)一個(gè)語音情感數(shù)據(jù)庫好壞的一個(gè)重要標(biāo)準(zhǔn)是數(shù)據(jù)庫中語音情感是否具備真實(shí)的表露性和自發(fā)性。目前,依據(jù)語音情感激發(fā)類型的不同,語音情感數(shù)據(jù)庫可分為表演型、誘發(fā)型和自發(fā)型三種。
具體來說,表演型情感數(shù)據(jù)庫通過專業(yè)演員的表演,把不同情感表達(dá)出來。在語音情感識(shí)別研究初期,這一采集標(biāo)準(zhǔn)被認(rèn)為是研究語音情感識(shí)別比較可靠的數(shù)據(jù)來源,因?yàn)閷I(yè)演員在表達(dá)情感時(shí),可以通過專業(yè)表達(dá)獲得人所共知的情感特征。比如,憤怒情感的語音一般會(huì)具有很大的幅值和強(qiáng)度,而悲傷情感的語音則反之。由于這一類型的數(shù)據(jù)庫具有表演的性質(zhì),情感的表達(dá)會(huì)比真實(shí)情感夸大一點(diǎn),因此情感不具有自發(fā)的特點(diǎn)。依據(jù)該類型數(shù)據(jù)庫來學(xué)習(xí)的語音情感識(shí)別算法,不一定能有效應(yīng)用于真實(shí)生活場(chǎng)景中。第二種稱之為誘發(fā)型情感數(shù)據(jù)庫。被試者處于某一特定的環(huán)境,如實(shí)驗(yàn)室中,通過觀看電影或進(jìn)行計(jì)算機(jī)游戲等方式,誘發(fā)被試者的某種情感。目前大部分的情感數(shù)據(jù)庫都是基于誘發(fā)的方式建立的。誘發(fā)型情感數(shù)據(jù)庫產(chǎn)生的情感方式相較于表演型情感數(shù)據(jù)庫,其情感特征更具有真實(shí)性。最后一種類型屬于完全自發(fā)的語音情感數(shù)據(jù)庫,其語料采集于電話會(huì)議、電影或者電話的視頻片段,或者廣播中的新聞片段等等。由于這種類型的語音情感數(shù)據(jù)最具有完全的真實(shí)性和自發(fā)性,應(yīng)該說最適合用于實(shí)用的語音情感識(shí)別。但是,由于這些語音數(shù)據(jù)涉及道德和版權(quán)因素,妨礙了它在實(shí)際語音情感識(shí)別中的應(yīng)用。
2、語音情感數(shù)據(jù)庫的標(biāo)注 :對(duì)于采集好的語音情感庫,為了進(jìn)行語音情感識(shí)別算法研究,還需要對(duì)情感語料進(jìn)行標(biāo)注。標(biāo)注方法有兩種類型:
離散型情感標(biāo)注法指的是標(biāo)注為如生氣、高興、悲傷、害怕、驚奇、討厭和中性等,這種標(biāo)注的依據(jù)是心理學(xué)的基本情感理論。基本情感論認(rèn)為,人復(fù)雜的情感是由若干種有限的基本情感構(gòu)成的,就像我們自古就有“喜、怒、哀、樂,恐、悲、 驚” 七情的說法。 不同的心理學(xué)家對(duì)基本情感有不同的定義,由此可見,在心理學(xué)領(lǐng)域?qū)厩楦蓄悇e的定義還沒有一個(gè)統(tǒng)一的結(jié)論,因此不同的語音情感數(shù)據(jù)庫包含的情感類別也不盡相同。這不利于在不同的語音情感數(shù)據(jù)庫上,對(duì)同一語音情感識(shí)別算法的性能進(jìn)行評(píng)價(jià)。此外,眾所周知,實(shí)際生活中情感的類別遠(yuǎn)遠(yuǎn)不止有限幾類。基于離散型情感標(biāo)注法的語音情感識(shí)別容易滿足多數(shù)場(chǎng)合的需要,但無法處理人類情感表達(dá)具有連續(xù)性和動(dòng)態(tài)變化性的情況。在實(shí)際生活中,普遍存在著情感變化的語音,比如前半句包含了某一種情感,而后半句卻包含了另外一種情感,甚至可能相反。 例如,某人說話時(shí)剛開始很高興,突然受到外界刺激,一下子就生氣了。對(duì)于這種在情感表達(dá)上具有連續(xù)和動(dòng)態(tài)變化的語音,采用離散型情感標(biāo)注法來進(jìn)行語音情感識(shí)別就不合適了。因?yàn)榇藭r(shí)語音的情感,己不再完全屬于某一種具體的情感。
維度情感空間論基于離散型情感標(biāo)注法的缺陷,心理學(xué)家們又提出了維度情感空間論,即對(duì)情感的變化用連續(xù)的數(shù)值進(jìn)行表示。不同研究者所定義的情感維度空間數(shù)目有所不同,如二維、三維甚至四維模型。針對(duì)語音情感,最廣為接受和得到較多應(yīng)用的為二維連續(xù)情感空間模型,即“激活維-效價(jià)維” (Arousal-Valence) 的維度模型。 “激活維” 反映的是說話者生理上的激勵(lì)程度或者采取某種行動(dòng)所作的準(zhǔn)備,是主動(dòng)的還是被動(dòng)的; “效價(jià)維” 反映的是說話者對(duì)某一事物正面的或負(fù)面的評(píng)價(jià)。隨著多模態(tài)情感識(shí)別算法的研究,為了更細(xì)致的地描述情感的變化,研究者在“激活維-效價(jià)維” (Arousal-Valence) 二維連續(xù)情感空間模型的基礎(chǔ)上,引入“控制維” , 即在“激活維-效價(jià)維-控制維(Arousal-Valence/Pleasure-Power/Dominance) ”三維連續(xù)情感空間模型上對(duì)語音情感進(jìn)行標(biāo)注和情感計(jì)算。需要強(qiáng)調(diào)的是,離散型和連續(xù)型情感標(biāo)注之間,它們并不是孤立的,而是可以通過一定映射進(jìn)行相互轉(zhuǎn)換。
情感聲學(xué)特征分析 :情感聲學(xué)特征分析主要包括聲學(xué)特征提取和聲學(xué)特征選擇、聲學(xué)特征降維。采用何種有效的語音情感特征參數(shù)用于情感識(shí)別,是語音情感識(shí)別研究最關(guān)鍵的問題之一,因?yàn)樗玫那楦刑卣鲄?shù)的優(yōu)劣直接決定情感最終識(shí)別結(jié)果的好壞 。
聲學(xué)特征提取。 目前經(jīng)常提取的語音情感聲學(xué)特征參數(shù)主要有三種:韻律特征、音質(zhì)特征以及譜特征。 在早期的語音情感識(shí)別研究文獻(xiàn)中,針對(duì)情感識(shí)別所首選的聲學(xué)特征參數(shù)是韻律特征,如基音頻率、振幅、發(fā)音持續(xù)時(shí)間、語速等。這些韻律特征能夠體現(xiàn)說話人的部分情感信息,較大程度上能區(qū)分不同的情感。因此,韻律特征已成為當(dāng)前語音情感識(shí)別中使用最廣泛并且必不可少的一種聲學(xué)特征參數(shù)除了韻律特征,另外一種常用的聲學(xué)特征參數(shù)是與發(fā)音方式相關(guān)的音質(zhì)特征參數(shù)。三維情感空間模型中的“激發(fā)維”上比較接近的情感類型,如生氣和高興,僅使用韻律特征來識(shí)別是不夠的。
音質(zhì)特征包括共振峰、頻譜能量分布、 諧波噪聲比等,不僅能夠很好地表達(dá)三維中的“效價(jià)維”信息,而且也能夠部分反映三維中的“控制維”信息。因此,為了更好地識(shí)別情感,同時(shí)提取韻律特征和音質(zhì)特征兩方面的參數(shù)用于情感識(shí)別,已成為語音情感識(shí)別領(lǐng)域聲學(xué)特征提取的一個(gè)主要方向。譜特征參數(shù)是一種能夠反映語音信號(hào)的短時(shí)功率譜特性的聲學(xué)特征參數(shù), Mel 頻率倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficients,MFCC)是最具代表性的譜特征參數(shù),被廣泛應(yīng)用于語音情感識(shí)別。由于譜特征參數(shù)及其導(dǎo)數(shù),僅反映語音信號(hào)的短時(shí)特性,忽略了對(duì)情感識(shí)別有用的語音信號(hào)的全局動(dòng)態(tài)信息。近年來,為了克服譜特征參數(shù)的這種不足之處,研究者提出了一些改進(jìn)的譜特征參數(shù),如類層次的譜特征、調(diào)制的譜特征和基于共振峰位置的加權(quán)譜特征等。
聲學(xué)特征選擇。 為了盡量保留對(duì)情感識(shí)別有意義的信息,研究者通常都提取了較多的與情感表達(dá)相關(guān)的不同類型的特征參數(shù),如韻律特征、音質(zhì)特征、譜特征等。 任意類型特征都有各自的側(cè)重點(diǎn)和適用范圍, 不同的特征之間也具有一定的互補(bǔ)性、相關(guān)性。此外,這些大量提取的特征參數(shù)直接構(gòu)成了一個(gè)高維空間的特征向量。這種高維性質(zhì)的特征空間,不僅包含冗余的特征信息,導(dǎo)致用于情感識(shí)別的分類器訓(xùn)練和測(cè)試需要付出高昂的計(jì)算代價(jià),而且情感識(shí)別的性能也不盡如人意。因此,非常有必要對(duì)聲學(xué)特征參數(shù)進(jìn)行特征選擇或特征降維處理,以便獲取最佳的特征子集,降低分類系統(tǒng)的復(fù)雜性和提高情感識(shí)別的性能。
特征選擇是指從一組給定的特征集中,按照某一準(zhǔn)則選擇出一組具有良好區(qū)分特性的特征子集。特征選擇方法主要有兩種類型:封裝式(Wrapper)和過濾式(Filter)。Wrapper 算法是將后續(xù)采用的分類算法的結(jié)果作為特征子集評(píng)價(jià)準(zhǔn)則的一部分,根據(jù)算法生成規(guī)則的分類精度選擇特征子集。 Filter 算法是將特征選擇作為一個(gè)預(yù)處理過程,直接利用數(shù)據(jù)的內(nèi)在特性對(duì)選取的特征子集進(jìn)行評(píng)價(jià),獨(dú)立于分類算法。
聲學(xué)特征降維。 特征降維是指通過映射或變換方式將高維特征空間映射到低維特征空間,已達(dá)到降維的目的。特征降維算法分為線性和非線性兩種。最具代表性的兩種線性降維算法,如主成分分析 PCA(Principal Component Analysis)和線性判別分析 LDA(Linear DiscriminantAnalysis),已經(jīng)被廣泛用于對(duì)語音情感特征參數(shù)的線性降維處理。也就是, PCA 和 LDA 方法被用來對(duì)提取的高維情感聲學(xué)特征數(shù)據(jù)進(jìn)行嵌入到一個(gè)低維特征子空間,然后在這降維后的低維子空間實(shí)現(xiàn)情感識(shí)別,提高情感識(shí)別性能。
近年來,新發(fā)展起來的基于人類認(rèn)知機(jī)理的流形學(xué)習(xí)方法比傳統(tǒng)的線性 PCA 和 LDA 方法更能體現(xiàn)事物的本質(zhì),更適合于處理呈非線性流形結(jié)構(gòu)的語音情感特征數(shù)據(jù)。但這些原始的流形學(xué)習(xí)方法直接應(yīng)用于語音情感識(shí)別中的特征降維,所取得的性能并不令人滿意。主要原因是他們都屬于非監(jiān)督式學(xué)習(xí)方法,沒有考慮對(duì)分類有幫助的已經(jīng)樣本數(shù)據(jù)的類別信息。盡管流形學(xué)習(xí)方法能夠較好地處理非線性流形結(jié)構(gòu)的語音特征數(shù)據(jù),但是流形學(xué)習(xí)方法的性能容易受到其參數(shù)如鄰域數(shù)的影響,而如何確定其最佳的鄰域數(shù),至今還缺乏理論指導(dǎo),一般都是根據(jù)樣本數(shù)據(jù)的多次試驗(yàn)結(jié)果來粗略地確定。因此,對(duì)于流形學(xué)習(xí)方法的使用,如何確定其最佳參數(shù),還有待深入研究。
表情作為人類情感表達(dá)的主要方式,其中蘊(yùn)含了大量有關(guān)內(nèi)心情感變化的信息,通過面部表情可以推斷內(nèi)心微妙的情感狀態(tài)。但是讓計(jì)算機(jī)讀懂人類面部表情并非簡(jiǎn)單的事情。 人臉表情識(shí)別是人類視覺最杰出的能力之一。 而計(jì)算機(jī)進(jìn)行自動(dòng)人臉表情識(shí)別所利用的主要也是視覺數(shù)據(jù)。 無論在識(shí)別準(zhǔn)確性、 速度、 可靠性還是穩(wěn)健性方面, 人類自身的人臉表情識(shí)別能力都遠(yuǎn)遠(yuǎn)高于基于計(jì)算機(jī)的自動(dòng)人臉表情識(shí)別。 因此,自動(dòng)人臉表情識(shí)別研究的進(jìn)展一方面依賴計(jì)算機(jī)視覺、 模式識(shí)別、人工智能等學(xué)科的發(fā)展, 另一方面還依賴對(duì)人類本身識(shí)別系統(tǒng)的認(rèn)識(shí)程度,特別是對(duì)人的視覺系統(tǒng)的認(rèn)識(shí)程度。
早在 20 世紀(jì) 70 年代,關(guān)于人臉表情識(shí)別的研究就已經(jīng)展開,但是早期主要集中在心理學(xué)和生物學(xué)方面。隨著計(jì)算機(jī)技術(shù)的發(fā)展,人臉表情識(shí)別技術(shù)逐漸發(fā)展起來,至上世紀(jì) 90 年代,該領(lǐng)域的研究已經(jīng)非?;钴S。大量文獻(xiàn)顯示表情識(shí)別與情感分析已從原來的二維圖像走向了三維數(shù)據(jù)研究,從靜態(tài)圖像識(shí)別研究專項(xiàng)實(shí)時(shí)視頻跟蹤。 下面將從視覺情感信號(hào)獲取、情感信號(hào)識(shí)別以及情感理解與表達(dá)方面介紹視覺情感計(jì)算。
視覺情感信號(hào)獲取 :表情參數(shù)的獲取, 多以二維靜態(tài)或序列圖像為對(duì)象, 對(duì)微笑的表情變化難以判斷, 導(dǎo)致情感表達(dá)的表現(xiàn)力難以提高, 同時(shí)無法體現(xiàn)人的個(gè)性化特征,這也是表情識(shí)別中的一大難點(diǎn)。 以目前的技術(shù), 在不同的光照條件和不同頭部姿態(tài)下, 也不能取得滿意的參數(shù)提取效果。由于三維圖像比二維圖像包含更多的信息量, 可以提供魯棒性更強(qiáng), 與光照條件和人的頭部姿態(tài)無關(guān)的信息, 用于人臉表情識(shí)別的特征提取工作更容易進(jìn)行。因此, 目前最新的研究大多利用多元圖像數(shù)據(jù)來進(jìn)行細(xì)微表情參數(shù)的捕獲。 該方法綜合利用三維深度圖像和二維彩色圖像, 通過對(duì)特征區(qū)深度特征和紋理彩色特征的分析和融合, 提取細(xì)微表情特征, 并建立人臉的三維模型, 以及細(xì)微表情變化的描述機(jī)制。
視覺情感信號(hào)識(shí)別:視覺情感信號(hào)的識(shí)別和分析主要分為面部表情的識(shí)別和手勢(shì)識(shí)別兩類:
對(duì)于面部表情的識(shí)別, 要求計(jì)算機(jī)具有類似于第三方觀察者一樣的情感識(shí)別能力。由于面部表情是最容易控制的一種,所以識(shí)別出來的并不一定是真正的情感,但是,也正由于它是可視的,所以它非常重要,并能通過觀察它來了解一個(gè)人試圖表達(dá)的東西。到目前為止, 面部表情識(shí)別模型都是將情感視為離散的, 即將面部表情分成為數(shù)不多的類別, 例如“高興” 、 “悲傷” 、 “憤怒” 等。 1971 年, Ekman 和 Friesen 研究了 6 種基本表情(高興、悲傷、驚訝、恐懼、憤怒和厭惡), 并系統(tǒng)地建立了上千幅不同的人臉表情圖像庫。六種基本表情的具體面部表現(xiàn)如下表 所示。 1978 年, 他們研究了情感類別之間的內(nèi)在關(guān)系, 開發(fā)了面部動(dòng)作編碼系統(tǒng)(FACS)。系統(tǒng)描述了基本情感以及對(duì)應(yīng)的產(chǎn)生這種情感的肌肉移動(dòng)的動(dòng)作單元。他們根據(jù)人臉的解剖學(xué)特點(diǎn),將其劃分成大約 46 個(gè)既相互獨(dú)立又相互聯(lián)系的運(yùn)動(dòng)單元(AU) ,并分析了這些運(yùn)動(dòng)單元的運(yùn)動(dòng)特征及其所控制的主要區(qū)域以及與之相關(guān)的表情,給出了大量的照片說明。面部識(shí)別器一般要花五分鐘來處理一種面部表情, 準(zhǔn)確率達(dá)到 98%。
馬里蘭大學(xué)的 Yeser Yacoob 和 Larry Davis 提出了另一種面部表情識(shí)別模型,它也是基于動(dòng)作能量模版,但是將模版、子模版(例如嘴部區(qū)域)和一些規(guī)則結(jié)合起來表達(dá)情感。例如,憤怒的表情在從眼睛區(qū)域提取的子模版中,特別是眉毛內(nèi)斂、下垂,在嘴巴區(qū)域子模版中,特別是嘴巴緊閉, 兩個(gè)子模板結(jié)合起來, 就很好表達(dá)了憤怒這一情感。后續(xù)的研究總體上結(jié)合生物識(shí)別方法及計(jì)算機(jī)視覺進(jìn)行, 依據(jù)人臉特定的生物特征,將各種表情同臉部運(yùn)動(dòng)細(xì)節(jié)(幾何網(wǎng)格的變化) 聯(lián)系起來, 收集樣本, 提取特征,構(gòu)建分類器。 但是目前公開的用于表情識(shí)別研究的人臉圖像數(shù)據(jù)庫多是采集志愿者刻意表現(xiàn)出的各種表情的圖像, 與真實(shí)情形有出入。
對(duì)于手勢(shì)識(shí)別來說, 一個(gè)完整的手勢(shì)識(shí)別系統(tǒng)包括三個(gè)部分和三個(gè)過程。 三個(gè)部分分別是:采集部分、 分類部分和識(shí)別部分; 三個(gè)過程分別是: 分割過程、 跟蹤過程和識(shí)別過程。 采集部分包括了攝像頭、 采集卡和內(nèi)存部分。 在多目的手勢(shì)識(shí)別中, 攝像頭以一定的關(guān)系分布在用戶前方。 在單目的情況下, 攝像頭所在的平面應(yīng)該和用戶的手部運(yùn)動(dòng)所在的平面基本水平。分類部分包括了要處理的分類器和結(jié)果反饋回來的接收比較器。 用來對(duì)之前的識(shí)別結(jié)果進(jìn)行校正。識(shí)別部分包括了語法對(duì)應(yīng)單位和相應(yīng)的跟蹤機(jī)制, 通過分類得到的手部形狀通過這里一一對(duì)應(yīng)確定的語義和控制命令。 分割過程包括了對(duì)得到的實(shí)時(shí)視頻圖像進(jìn)行逐幀的手部分割, 首先得到需要關(guān)注的區(qū)域, 其次在對(duì)得到的區(qū)域進(jìn)行細(xì)致分割, 直到得到所需要的手指和手掌的形狀。跟蹤過程包括對(duì)手部的不斷定位和跟蹤,并估計(jì)下一幀手的位置。 識(shí)別過程通過對(duì)之前的知識(shí)確定手勢(shì)的意義, 并做出相應(yīng)的反應(yīng), 例如顯示出對(duì)應(yīng)的手勢(shì)或者做出相應(yīng)的動(dòng)作, 并對(duì)不能識(shí)別的手勢(shì)進(jìn)行處理, 或者報(bào)警或者記錄下特征后在交互情況下得到用戶的指導(dǎo)。 手勢(shì)識(shí)別的基本框架如下圖所示:
隨著時(shí)代的發(fā)展,網(wǎng)絡(luò)賦予情感計(jì)算新的、更大的數(shù)據(jù)平臺(tái),打開了情感計(jì)算的新局面。網(wǎng)絡(luò)系統(tǒng)由于溝通了人類的現(xiàn)實(shí)世界和虛擬世界,可以持續(xù)不斷地對(duì)數(shù)量龐大的樣本進(jìn)行情感跟蹤,每天這些映射到網(wǎng)絡(luò)上的情緒不計(jì)其數(shù),利用好這些數(shù)據(jù)反過來就可以驗(yàn)證心理學(xué)結(jié)論,甚至反哺心理學(xué)。由于大數(shù)據(jù)的分布范圍極其廣泛,樣本數(shù)量非常龐大,采用單一的大數(shù)據(jù)處理方法往往得不到有效的情感要素,統(tǒng)計(jì)效果較差。但是,如果將大數(shù)據(jù)和心理學(xué)結(jié)合起來,局面就會(huì)大不一樣:心理學(xué)中,不同情感可以采用維度標(biāo)定,如冷暖或軟硬,同時(shí)各種心理效應(yīng)影響人類對(duì)事物的情感判斷,如連覺效應(yīng)、視覺顯著性、視覺平衡等,在大數(shù)據(jù)中引入心理學(xué)效應(yīng)和維度,對(duì)有效數(shù)據(jù)進(jìn)行心理學(xué)情感標(biāo)準(zhǔn)劃分,使得數(shù)據(jù)具有情感維度,這樣就會(huì)讓計(jì)算機(jī)模擬人類情感的準(zhǔn)確性大大提升。網(wǎng)絡(luò)海量數(shù)據(jù)的情感主要有以下幾個(gè)社會(huì)屬性:
情感隨群體的變化:在社交網(wǎng)絡(luò),如論壇、網(wǎng)絡(luò)社區(qū)等群體聚集的平臺(tái)上流露出群體的情感,通過這些情感展現(xiàn)可以達(dá)到影響其他個(gè)人的行為。
情感隨圖片的變化:在社交媒體出現(xiàn)大量的圖片,這些圖片的顏色、光度、圖片內(nèi)容等各不相同。圖片的特征直接影響到了觀看者的情感。
情感隨朋友的變化:在社交平臺(tái)上,朋友發(fā)表的微博、微信狀態(tài)等容易展現(xiàn)個(gè)人的情感。朋友間的關(guān)系比陌生人間的關(guān)系更加深入,所以朋友的情感更容易引起情感變化,在海量數(shù)據(jù)中,個(gè)人情感容易優(yōu)先受朋友情感的影響。
情感隨社會(huì)角色的變化:在社交網(wǎng)絡(luò)中,個(gè)人在不同的群體所處的角色也不一樣,個(gè)人情感流露時(shí)也會(huì)跟著所處的角色不一樣而展現(xiàn)不同的情感。
情感隨時(shí)間的演變:人的情緒是變化無常的,所處的環(huán)境不一樣,則表現(xiàn)出來的情感也將不一樣。即使是同一件事,不同的情景下展現(xiàn)的情感也會(huì)不一樣。另外,事件的發(fā)展是個(gè)動(dòng)態(tài)的過程,隨著事件的演變,人的情感也會(huì)跟著變化。
雖然人臉、姿態(tài)和語音等均能獨(dú)立地表示一定的情感,但人的相互交流卻總是通過信息的綜合表現(xiàn)來進(jìn)行。所以, 只有實(shí)現(xiàn)多通道的人機(jī)界面,才是人與計(jì)算機(jī)最為自然的交互方式,它集自然語言、語音、手語、人臉、唇讀、頭勢(shì)、體勢(shì)等多種交流通道為一體,并對(duì)這些通道信息進(jìn)行編碼、壓縮、集成和融合,集中處理圖像、音頻、視頻、文本等多媒體信息。多模態(tài)計(jì)算是目前情感計(jì)算發(fā)展的主流方向。每個(gè)模塊所傳達(dá)的人類情感的信息量大小和維度不同。在人機(jī)交互中,不同的維度還存在缺失和不完善的問題。因此,人機(jī)交互中情感分析應(yīng)盡可能從多個(gè)維度入手,將單一不完善的情感通道補(bǔ)上,最后通過多結(jié)果擬合來判斷情感傾向。
在多模態(tài)情感計(jì)算研究中,一個(gè)很重要的分支就是情感機(jī)器人和情感虛擬人的研究。美國(guó)麻省理工學(xué)院、日本東京科技大學(xué)、美國(guó)卡內(nèi)基·梅隆大學(xué)均在此領(lǐng)域做出了較好的演示系統(tǒng)。目前中科院自動(dòng)化所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室已將情感處理融入到了他們已有的語音和人臉的多模態(tài)交互平臺(tái)中,使其結(jié)合情感語音合成、人臉建模、視位模型等一系列前沿技術(shù),構(gòu)筑了栩栩如生的情感虛擬頭像,并積極轉(zhuǎn)向嵌入式平臺(tái)和游戲平臺(tái)等實(shí)際應(yīng)用。
目前, 情感識(shí)別和理解的方法上運(yùn)用了模式識(shí)別、人工智能、語音和圖像技術(shù)的大量研究成果。例如:在情感語音聲學(xué)分析的基礎(chǔ)上,運(yùn)用線性統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了基于語音的情感識(shí)別原型;通過對(duì)面部運(yùn)動(dòng)區(qū)域進(jìn)行編碼,采用 HMM 等不同模型,建立了面部情感特征的識(shí)別方法;通過對(duì)人姿態(tài)和運(yùn)動(dòng)的分析,探索肢體運(yùn)動(dòng)的情感類別等等。不過,受到情感信息捕獲技術(shù)的影響, 以及缺乏大規(guī)模的情感數(shù)據(jù)資源,有關(guān)多特征融合的情感理解模型研究還有待深入。隨著未來的技術(shù)進(jìn)展,還將提出更有效的機(jī)器學(xué)習(xí)機(jī)制。
學(xué)者分布地圖對(duì)于進(jìn)行學(xué)者調(diào)查、分析各地區(qū)競(jìng)爭(zhēng)力現(xiàn)況尤為重要, 下圖為情感計(jì)算領(lǐng)域全球頂尖學(xué)者分布狀況。 其中, 顏色越趨近于紅色, 表示學(xué)者越集中;顏色越趨近于綠色,表示學(xué)者越稀少。 從地區(qū)角度來看,北美洲、歐洲是情感計(jì)算領(lǐng)域?qū)W者分布最為集中的地區(qū),亞洲東部地區(qū)次之, 南美洲和非洲學(xué)者極為匱乏。從國(guó)家角度來看, 情感計(jì)算領(lǐng)域的人才在美國(guó)最多,中國(guó)次之,意大利、法國(guó)等洲國(guó)家也有較多的學(xué)者數(shù)量,整體上講其它國(guó)家與美國(guó)的差距較大。
情感計(jì)算領(lǐng)域?qū)W者的 h-index 分布如下圖所示,分布情況整體呈階梯狀,大部分學(xué)者的 hindex 分布在中低區(qū)域,其中 h-index 在<10 的區(qū)間人數(shù)最多,有 524 人, 占比 43.4%, 50-60 區(qū)間人數(shù)最少, 有 46 人, 占比 3.8%。
各國(guó)情感計(jì)算 TOP學(xué)者的流失和引進(jìn)是相對(duì)比較均衡的,其中美國(guó)是情感計(jì)算領(lǐng)域人才流動(dòng)大國(guó),人才輸入和輸出幅度領(lǐng)先于其他國(guó)家,且從數(shù)據(jù)來看人才流出大于人才流入。英國(guó)、加拿大和印度等國(guó)人才遷徙流量小于美國(guó);中國(guó)人才流入略高于人才流出。人才的頻繁流入流出,使得該領(lǐng)域的學(xué)術(shù)交流活動(dòng)增加,帶動(dòng)了人才質(zhì)量提升的同時(shí),也促進(jìn)了領(lǐng)域理論及技術(shù)的更新迭代, 逐漸形成一種良性循環(huán)的過程。
AMiner 選取情感計(jì)算領(lǐng)域國(guó)內(nèi)專家學(xué)者繪制了學(xué)者國(guó)內(nèi)分布地圖,如下圖所示。通過下圖我們可以發(fā)現(xiàn),京津地區(qū)在情感計(jì)算領(lǐng)域的人才數(shù)量最多,東部及南部沿海地區(qū)的也有較多的人才分布,相比之下,內(nèi)陸地區(qū)信情感計(jì)算領(lǐng)域人才較為匱乏,這也從一定程度上說明了情感計(jì)算領(lǐng)域的發(fā)展與該地區(qū)的地理位置和經(jīng)濟(jì)水平都是息息相關(guān)的。同時(shí),通過觀察中國(guó)周邊國(guó)家的學(xué)者數(shù)量情況,特別是與日本、東南亞等亞洲國(guó)家相比,中國(guó)在情感計(jì)算領(lǐng)域頂尖學(xué)者數(shù)量方面具有較為明顯的優(yōu)勢(shì)。 圖 8 是我國(guó)情感計(jì)算領(lǐng)域頂尖學(xué)者最多的 10 個(gè)省份。
近年來, Picard 領(lǐng)導(dǎo)的美國(guó)麻省理工學(xué)院多媒體實(shí)驗(yàn)室相繼提出了近 50 種情感計(jì)算應(yīng)用項(xiàng)目。例如,將情感計(jì)算應(yīng)用于醫(yī)療康復(fù),協(xié)助自閉癥者,識(shí)別其情感變化,理解患者的行為;在教育中應(yīng)用情感計(jì)算,實(shí)現(xiàn)對(duì)學(xué)習(xí)狀態(tài)的采集及分析,指導(dǎo)教學(xué)內(nèi)容的選擇及教學(xué)進(jìn)度進(jìn)行;還可以將情感計(jì)算應(yīng)用于生活中,計(jì)算機(jī)能夠感知用戶對(duì)音樂的喜好, 根據(jù)對(duì)情感反應(yīng)的理解判斷,為用戶提供更感興趣的音樂播放等。
在美國(guó),公立學(xué)校的預(yù)算限制引發(fā)大規(guī)模的教師裁員和教室擁擠不堪。教師工作時(shí)間緊張,還要考慮和滿足每個(gè)學(xué)生的需求。結(jié)果就是,那些課業(yè)困難的孩子容易受到忽視。因?yàn)橹灰⒆硬惶岢鰡栴},老師就不會(huì)關(guān)注到他。
在過去三年里,有企業(yè)把面部識(shí)別技術(shù)應(yīng)用到了第一線教學(xué)當(dāng)中。在 SensorStar 實(shí)驗(yàn)室,他們用相機(jī)捕捉學(xué)生上課反應(yīng),并且輸入到計(jì)算機(jī)里面,運(yùn)用算法來確定學(xué)生注意力是否轉(zhuǎn)移。通過面部識(shí)別軟件 EngageSense,計(jì)算機(jī)能夠測(cè)量微笑、皺眉和聲音來測(cè)定學(xué)生課堂參與度。孩子們的眼睛是專注于老師的嗎? 他們是在思考還是發(fā)呆?他們是微笑還是皺著眉頭?或者他們只是覺得困惑?還是無聊?測(cè)量之后,老師將會(huì)收到一份反饋報(bào)告,基于面部分析, 報(bào)告會(huì)告訴老師他們的學(xué)生學(xué)習(xí)興趣何時(shí)最高、何時(shí)最低。這樣,老師能夠?qū)ψ约旱慕虒W(xué)方案做出調(diào)整,滿足更多學(xué)生的需求。此外,比爾和梅林達(dá)蓋茨基金會(huì)資助了傳感器手鐲(sensor bracelets)的開發(fā),這可以用來追蹤學(xué)生的參與水平。腕部設(shè)備能夠發(fā)送小電流,通過在神經(jīng)系統(tǒng)響應(yīng)刺激時(shí)測(cè)量電荷的細(xì)微變化便可以得知學(xué)生的課程興奮程度。
心理學(xué)家 Paul Ekman 將面部識(shí)別技術(shù)研究提升到了一個(gè)新的層次。他對(duì) 5000 多種面部運(yùn)動(dòng)進(jìn)行了分類,以幫助識(shí)別人類情緒。他的研究為 Emotient Inc、 Affectiva Inc 和 Eyeris 等公司提供了幫助,這些公司將心理學(xué)和數(shù)據(jù)挖掘相結(jié)合,檢測(cè)人的細(xì)微表情,并對(duì)人的反應(yīng)進(jìn)行分類。目前為止,面部識(shí)別技術(shù)的重點(diǎn)是協(xié)助聯(lián)邦執(zhí)法和市場(chǎng)調(diào)研。不過,圣地亞哥市的研究人員也在醫(yī)療行業(yè)試用這項(xiàng)技術(shù),測(cè)定孩子接受外科手術(shù)之后的疼痛程度。
TechCrunch 公司的員工設(shè)計(jì)了在線教育平臺(tái),來提供一對(duì)一指導(dǎo)和精熟學(xué)習(xí)( masterylearning)。這是應(yīng)用創(chuàng)新型思維,通過實(shí)時(shí)的評(píng)估和定制化的學(xué)習(xí)方式,有效地解決本杰明提出的著名的“Sigma 2 Problem” 。深度學(xué)習(xí)系統(tǒng)將學(xué)生學(xué)習(xí)效果數(shù)據(jù)進(jìn)行分類,并且在此基礎(chǔ)上制定相關(guān)的教學(xué)內(nèi)容。該系統(tǒng)還可以推薦附加練習(xí),并且根據(jù)學(xué)生個(gè)人能力和教學(xué)要求,實(shí)時(shí)推薦課程內(nèi)容,調(diào)整教學(xué)速度 。
北卡羅來納州州立大學(xué)研究員開發(fā)了一種軟件,通過攝像頭捕捉和分析學(xué)生面部表情,以此改變?cè)诰€課程。 目前,大多數(shù)情感計(jì)算技術(shù)還僅僅停留在學(xué)術(shù)研究領(lǐng)域。 但也已經(jīng)有公司開始應(yīng)用這項(xiàng)技術(shù),并能成功地分辨學(xué)生表情,并根據(jù)他們的學(xué)習(xí)能力和方式,來自動(dòng)調(diào)整適合的學(xué)習(xí)內(nèi)容和環(huán)境。英特爾公司正是這其中的一員。有了這些學(xué)生表情數(shù)據(jù),可以讓“Emoshape”這樣的情感計(jì)算智能系統(tǒng),自動(dòng)分析情感,并做出適當(dāng)回復(fù)。這些系統(tǒng)具備了解決個(gè)體問題的能力,也使老師能夠提供高度個(gè)性化的內(nèi)容來激發(fā)學(xué)生的學(xué)習(xí)興趣。
人工智能和大數(shù)據(jù)已經(jīng)促成了大部分行業(yè)的技術(shù)革新,從電子商務(wù)到交通、金融、醫(yī)療。人工智能和大數(shù)據(jù)已經(jīng)在教育方面取得進(jìn)展。 盡管有些反對(duì)的聲音,比如說如何保護(hù)學(xué)生隱私、如何提高教學(xué)效率等, 但需要指出的是,這些技術(shù)的應(yīng)用并不是要代替老師,而是扮演輔助老師的角色,識(shí)別學(xué)生的個(gè)體需求,以制定更加智能的教學(xué)方案。
為了深度挖掘人類情感的奧秘, 美國(guó)麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室打造了用無線信號(hào)監(jiān)測(cè)情緒的 EQ-Radio。在沒有身體感應(yīng)器和面部識(shí)別軟件輔助的情況下, EQ-Radio通過測(cè)量呼吸和心跳的微小變化, 利用無線信號(hào)捕捉到一些肉眼不一定能察覺的人類行為,判斷一個(gè)人到底處于以下四種情緒中的哪一種:激動(dòng)、開心、生氣或者憂傷,正確率高達(dá) 87%。美國(guó)麻省理工學(xué)院教授和該項(xiàng)目的負(fù)責(zé)人 Dina Katabi 預(yù)測(cè),這個(gè)系統(tǒng)會(huì)被運(yùn)用于娛樂、消費(fèi)者行為和健康護(hù)理等方面:電影工作室和廣告公司也可以用這個(gè)系統(tǒng)來測(cè)試觀眾實(shí)時(shí)的反應(yīng);而在智能家居的環(huán)境中,該系統(tǒng)可以通過捕捉與人的心情有關(guān)的信息,調(diào)節(jié)室內(nèi)溫度,或者建議你應(yīng)該呼吸一些新鮮空氣。
現(xiàn)有的情緒監(jiān)控方法大多依賴于視聽設(shè)備或者是安裝在人身上的感應(yīng)器,這兩種技術(shù)都有缺點(diǎn):面部表情并不一定符合內(nèi)心狀態(tài),而安裝在身上的感應(yīng)器(比如胸帶和心電監(jiān)護(hù)儀)會(huì)造成各種不便,而且一旦它們的位置稍微移動(dòng),監(jiān)測(cè)到的數(shù)據(jù)就不精確了。
EQ-Radio 會(huì)發(fā)送能監(jiān)測(cè)生理信息的無線信號(hào),該信號(hào)最終會(huì)反饋給設(shè)備本身。其中的算法可以分析心跳之間的微小變化,從而判斷人們的情緒。消極情緒會(huì)被判定為“憂傷” , 而正面 且高漲的情緒會(huì)被判定為“激動(dòng)” 。盡管這樣的測(cè)量會(huì)因人而異,但其中還是有內(nèi)在統(tǒng)一性。通過了解人們處于不同的情緒狀態(tài)下,他們的心跳會(huì)如何變化,我們就可以對(duì)他所處的情緒狀態(tài)進(jìn)行有效的判斷。
在他們?cè)O(shè)計(jì)的實(shí)驗(yàn)中,參與實(shí)驗(yàn)者選擇他們記憶中最能代表激動(dòng)、開心、生氣、憂傷以及毫無情感的一段視頻或音樂。在掌握了這段時(shí)長(zhǎng)兩分鐘的視頻里的五種情緒設(shè)置后, EQ-Radio可以精確地通過一個(gè)人的行為判斷他處于這四種情緒中的哪一種。與微軟研發(fā)的基于視覺和面部表情的 Emotion API 相比, EQ-Radio 在識(shí)別喜悅、憂傷和憤怒這三個(gè)情緒上精確度更高。同時(shí),這兩種系統(tǒng)在判斷中性情緒時(shí)的精準(zhǔn)度差不多,因?yàn)楹翢o情緒的臉總是更容易被識(shí)別。
目前,對(duì)美國(guó)麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室而言,最艱巨的任務(wù)就是擺脫不相關(guān)數(shù)據(jù)的干擾。比如,為了分析心率,他們要抑制呼吸可能帶來的影響,因?yàn)楹粑鼤r(shí),人的肺部起伏比他心跳時(shí)的心臟起伏要大。
近年來,情感計(jì)算運(yùn)用于自閉癥治療得到越來越多的關(guān)注。例如, 美國(guó)麻省理工學(xué)院情感計(jì)算團(tuán)隊(duì)正在開發(fā)世界上第一個(gè)可穿戴的情感計(jì)算技術(shù)設(shè)備:一個(gè)具有社交智能的假肢,用來實(shí)時(shí)檢測(cè)自閉癥兒童的情感, 幫助機(jī)器人使用自閉癥兒童獨(dú)有的數(shù)據(jù), 來評(píng)估這些互動(dòng)過程中每個(gè)孩子的參與度和興趣。 這個(gè)裝置用一個(gè)小型照相機(jī),分析孩子的面部表情和頭部運(yùn)動(dòng)來推斷他們的認(rèn)知情感狀態(tài)。還有一種叫“galvactivator” 的工具,通過測(cè)量穿戴者的皮膚電流數(shù)據(jù),推斷孩子的興奮程度。這個(gè)像手套一樣的設(shè)備可以利用發(fā)光二極管描繪出人體生理機(jī)能亢奮程度的圖譜。這種可視化的展現(xiàn)方式,能夠清晰地展示出人的認(rèn)知情感水平。 NAO 機(jī)器人和個(gè)性化的機(jī)器學(xué)習(xí)在治療自閉癥患者上也表現(xiàn)出很大的優(yōu)越性:
人類治療師會(huì)向孩子展示一張照片或者閃存卡片,用來表示不同的情緒,以教會(huì)他們?nèi)绾巫R(shí)別恐懼、 悲傷或喜悅的表情。治療師隨后對(duì)機(jī)器人進(jìn)行編程, 向孩子們展示這些相同的情緒,并且在孩子與機(jī)器人交往時(shí)觀察孩子。孩子們的行為提供了寶貴的反饋信息,機(jī)器人和治療師可以根據(jù)反饋信息繼續(xù)學(xué)習(xí)。
研究人員在這項(xiàng)研究中使用了 SoftBank Robotics NAO 類人機(jī)器人。NAO 將近 2 英尺高,類似于裝甲超級(jí)英雄,通過改變眼睛的顏色、 肢體的運(yùn)動(dòng)以及聲音的音調(diào)來表達(dá)不同的情緒。參加這項(xiàng)研究的 35 名自閉癥兒童中,有 17 人來自日本, 18 人來自塞爾維亞,年齡從 3 歲到 13歲不等。他們?cè)?35 分鐘的會(huì)議中以各種方式對(duì)機(jī)器人做出反應(yīng),從看起來無聊和困倦,到在房間里興奮地跳來跳去,拍手,大笑或觸摸機(jī)器人。研究中的大多數(shù)孩子對(duì)機(jī)器人的看法是,它不僅僅是一個(gè)玩具,應(yīng)該尊重 NAO,因?yàn)樗且粋€(gè)真實(shí)的人。另外,人類用許多不同的方式改變自己的表情,但機(jī)器人則通過同樣的方式來改變表情,這對(duì)孩子來說更加有利,因?yàn)楹⒆涌梢酝ㄟ^非常有條理的方式學(xué)習(xí)如何表達(dá)表情 。
麻省理工學(xué)院的研究小組意識(shí)到, 具有深度學(xué)習(xí)能力的治療機(jī)器人能夠更好感知兒童的行為的。深度學(xué)習(xí)系統(tǒng)使用分層的多層數(shù)據(jù)處理來處理其任務(wù),每一個(gè)連續(xù)的層都是對(duì)原始數(shù)據(jù)抽象的表示。
盡管自 20 世紀(jì) 80 年代以來深度學(xué)習(xí)的概念已經(jīng)出現(xiàn),但直到最近才有足夠的計(jì)算能力來實(shí)現(xiàn)這種人工智能。深度學(xué)習(xí)已被用于自動(dòng)語音和對(duì)象識(shí)別程序中, 這種應(yīng)用非常適合解決面部、 身體和聲音等多重特征的問題,從而更好地理解抽象的概念,如兒童的參與感。
對(duì)于治療機(jī)器人,研究者構(gòu)建了一個(gè)個(gè)性化框架,可以從收集的每個(gè)孩子的數(shù)據(jù)中學(xué)習(xí)。研究人員拍攝了每個(gè)孩子的臉部表情、 頭部和身體動(dòng)作、 姿勢(shì)和手勢(shì), 記錄了兒童手腕上顯示器的心率、 體溫和皮膚汗液反應(yīng)作為數(shù)據(jù)。這些機(jī)器人的個(gè)性化深度學(xué)習(xí)網(wǎng)絡(luò)是根據(jù)這些視頻、音頻和生理數(shù)據(jù)的層次, 針對(duì)孩子的自閉癥診斷和能力、 文化和性別的信息構(gòu)建的。研究人員將機(jī)器人對(duì)兒童行為的估計(jì)與五位人類專家的估計(jì)數(shù)字進(jìn)行了比較,這些專家連續(xù)對(duì)孩子的錄像和錄音進(jìn)行編碼,以確定孩子在會(huì)議期間高興或不安程度,是否感興趣以及孩子的表現(xiàn)。比較發(fā)現(xiàn),機(jī)器人對(duì)兒童行為的估計(jì)要比專家更加具體清晰。
網(wǎng)絡(luò)調(diào)查法、 統(tǒng)計(jì)規(guī)則法和文本內(nèi)容挖掘是三種經(jīng)常被使用的網(wǎng)絡(luò)輿情分析方法。大數(shù)據(jù)時(shí)代的來臨使傳統(tǒng)的輿情分析方式發(fā)生改變,大數(shù)據(jù)時(shí)代數(shù)據(jù)量突增、 數(shù)據(jù)產(chǎn)生的速度極快、冗余信息占比高的特性不僅給輿情分析帶來新的發(fā)展機(jī)遇, 也帶來了新的難度和挑戰(zhàn)。基于簡(jiǎn)單調(diào)查和統(tǒng)計(jì)的輿情分析方法將無法適用于大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)社區(qū)文本。當(dāng)前國(guó)內(nèi)外對(duì)輿情分析技術(shù)的研究也大多以大數(shù)據(jù)環(huán)境為背景,與傳統(tǒng)輿情分析技術(shù)相比,大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)社區(qū)的輿情分析技術(shù)更多地集中于對(duì)數(shù)據(jù)的獲取, 并采取文本數(shù)據(jù)分析、數(shù)據(jù)挖掘、語義分析等技術(shù)獲取輿情信息。 當(dāng)前國(guó)內(nèi)外的輿情分析技術(shù)研究主要集中于話題識(shí)別與話題跟蹤、意見領(lǐng)袖識(shí)別以及情感傾向判別這三個(gè)方面。
話題識(shí)別與話題跟蹤首先在文本中識(shí)別出新話題, 接下來在一段時(shí)間內(nèi)檢測(cè)并實(shí)時(shí)跟蹤話題,實(shí)現(xiàn)該話題的再現(xiàn),研究其隨時(shí)間發(fā)展的演化過程。聚類方法常用于進(jìn)行話題識(shí)別。在國(guó)外研究中,話題檢測(cè)與跟蹤(TDT)是了解社交媒體熱點(diǎn)話題及其演變過程的重要手段。
意見領(lǐng)袖的發(fā)現(xiàn)和識(shí)別重點(diǎn)在于評(píng)價(jià)指標(biāo)的制定以及模型的構(gòu)建。例如,曹玖新等將網(wǎng)絡(luò)社區(qū)用戶看作一個(gè)個(gè)節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)之間信息的交互和傳播過濾, 從用戶結(jié)構(gòu)、行為和情感三個(gè)特征維度挖掘意見領(lǐng)袖。
情感傾向判別在輿情研究中最為常見,首先收集 web 金融領(lǐng)域的文本數(shù)據(jù)屬性, 接下來構(gòu)建金融領(lǐng)域的情感詞典, 最后結(jié)合語義分析,將語義規(guī)則應(yīng)用到情感及情感強(qiáng)度識(shí)別當(dāng)中,提升了分類器的準(zhǔn)確率 M。王永等人將傾向分析應(yīng)用到客戶評(píng)論信息挖掘當(dāng)中,結(jié)合情感詞之間的依存關(guān)系計(jì)算面向產(chǎn)品特征的情感傾向得分,從網(wǎng)絡(luò)評(píng)論中獲取有價(jià)值的商業(yè)信息。國(guó)外針對(duì) Twitter 的情感傾向分析研究居多,用以獲取有價(jià)值的信息和輿論導(dǎo)向,例如,結(jié)合語言規(guī)則特征可以分別獲取正面和負(fù)面的 Twitter 文章,反應(yīng)公眾的輿情態(tài)度。
Trend analysis(http://trend.aminer.cn)基于 AMiner 的 2 億篇論文數(shù)據(jù)進(jìn)行深入挖掘,包括對(duì)技術(shù)來源、熱度、發(fā)展趨勢(shì)進(jìn)行研究,進(jìn)而預(yù)測(cè)未來的技術(shù)前景。技術(shù)趨勢(shì)分析描述了技術(shù)的出現(xiàn)、變遷和消亡的全過程,可以幫助研究人員理解領(lǐng)域的研究歷史和現(xiàn)狀,快速識(shí)別研究的前沿?zé)狳c(diǎn)問題。
下圖是當(dāng)前情感計(jì)算領(lǐng)域的熱點(diǎn)技術(shù)趨勢(shì)分析,通過 Trend analysis 分析挖掘可以發(fā)現(xiàn)當(dāng)前該領(lǐng)域的熱點(diǎn)研究話題 Top10 是 Affective Computing、 Social Robot、 Emotion Recognition、 Human Computer Interaction、 Feature Extraction、 Support Vector Machine、 Facial Expression、 Human RobotInteraction、 Behavioural Sciences Computing、 Face Recognition。
根據(jù)Trend analysis的分析我們可以發(fā)現(xiàn), 該領(lǐng)域當(dāng)前最熱門的話題是Affective Computing,從全局熱度來看, Affective Computing 的話題熱度雖然有所起伏, 但從 20 世紀(jì) 90 年代開始,熱度迅速上升,甚至在五年內(nèi)超過了此前的話題 Top 1 Emotion Recognition, 并且至今其話題熱度始終保持在 Top1,論文的發(fā)表數(shù)量也較多;Social Robot 的研究熱度跟隨 Affective Computing同期上升,近幾年話題熱度更是超越 Emotion Recognition 成為 Top2 話題;另外,前期比較熱門的 Feature Extraction 經(jīng)過了一段時(shí)間的低迷期后,也回到了 Top3 的位置。
研究者根據(jù)情感計(jì)算領(lǐng)域近十年的相關(guān)論文,利用大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、人工智能等技術(shù)手段,建立算法模型及研發(fā) demo 系統(tǒng),分析挖掘出該領(lǐng)域的技術(shù)發(fā)展熱點(diǎn)。 技術(shù)預(yù)見圖中點(diǎn)的大小表示該技術(shù)的熱點(diǎn)(主要由相關(guān)論文數(shù)量的多少?zèng)Q定,相關(guān)論文越多,熱度越高,點(diǎn)越大),各技術(shù)之間的連線表示 2 個(gè)技術(shù)關(guān)鍵詞同時(shí)在 N 篇論文中出現(xiàn)過(當(dāng)前 N 的取值為 5)。
根據(jù)情感計(jì)算技術(shù)預(yù)見圖,可以得出情感計(jì)算領(lǐng)域相關(guān)度最高的技術(shù)有 3 項(xiàng),分別為:feature extraction、 human computer interaction 和 emotion recognition。
按照技術(shù)前沿度,可以列出相關(guān)的主要技術(shù)關(guān)鍵詞,以及該技術(shù)歷年的變化趨勢(shì)(論文發(fā)表數(shù)量變化趨勢(shì)),及重要代表性成果。具體如下圖所示 :
圖 15 中我們可以看出,情感計(jì)算領(lǐng)域預(yù)測(cè)前沿度比較高的前四熱詞有:autism spectrumdisorder(前沿度為 1428)、 support vector machine(前沿度為 1096)、 deep learning(前沿度為 1058)和 semantic web(前沿度為 1031)。
如果說目前的傳統(tǒng)計(jì)算機(jī)(包括應(yīng)用現(xiàn)有智能計(jì)算方法的計(jì)算機(jī))只包含了反映理性思維(Thinking)的“腦(Brain)”,那么,情感計(jì)算將為該機(jī)器增添了具有感性思維(Feeling)的“心(Heart)”(這是應(yīng)用文學(xué)方式對(duì)機(jī)器進(jìn)行擬人化比喻。按認(rèn)知科學(xué)講,感性思維仍源于腦活動(dòng))。可以認(rèn)為,情感計(jì)算是在人工智能理論框架下的一個(gè)質(zhì)的進(jìn)步。因?yàn)閺膹V度上講它擴(kuò)展并包容了情感智能,從深度上講情感智能在人類智能思維與反應(yīng)中體現(xiàn)了一種更高層次的智能。情感計(jì)算必將為計(jì)算機(jī)的未來應(yīng)用展現(xiàn)一種全新的方向。
轉(zhuǎn)載自:人工智能學(xué)家
聯(lián)系客服