• <s id="lac7q"></s><span id="lac7q"><p id="lac7q"><menu id="lac7q"></menu></p></span>

  • <strike id="lac7q"><input id="lac7q"></input></strike><label id="lac7q"></label>
    1. <label id="lac7q"></label>

      創(chuàng )澤機器人
      CHUANGZE ROBOT
      當前位置:首頁(yè) > 新聞資訊 > 機器人開(kāi)發(fā) > 音樂(lè )人工智能、計算機聽(tīng)覺(jué)及音樂(lè )科技

      音樂(lè )人工智能、計算機聽(tīng)覺(jué)及音樂(lè )科技

      來(lái)源:CAAI認知系統與信息處理專(zhuān)委會(huì )     編輯:創(chuàng )澤   時(shí)間:2020/5/28   主題:其他 [加盟]
      本文面向音樂(lè )科技、音樂(lè )人工智能與計算機聽(tīng)覺(jué)這一文理交融的新興交叉學(xué)科,介紹其學(xué)科范疇、發(fā)展歷史、研究L域、產(chǎn)業(yè)應用等。闡明音樂(lè )科技、聲音與音樂(lè )計算、音樂(lè )人工智能、音樂(lè )信息檢索MIR、計算機聽(tīng)覺(jué)、音樂(lè )聲學(xué)等各個(gè)學(xué)科名詞之間的相互關(guān)系。后,總結學(xué)科發(fā)展面臨的困難,展望其未來(lái)發(fā)展趨勢。


      1. 語(yǔ)音信息處理和聲音與音樂(lè )計算

      聲音是人類(lèi)獲取信息的重要來(lái)源,可劃分為語(yǔ)音(Speech)、音樂(lè )(Music)和一般音頻/環(huán)境聲(General Audio/Environmental Sound)三大類(lèi)。人類(lèi)的語(yǔ)言具有特定的詞匯及語(yǔ)法結構,用于在人類(lèi)中傳遞信息。語(yǔ)音是語(yǔ)言的聲音載體,語(yǔ)音信號屬于復合音,其基本要素是音G、強度、音長(cháng)、音色等。音樂(lè )是人類(lèi)創(chuàng )造的復雜的藝術(shù)形式,組成成分是各種樂(lè )音,包括歌聲、各種管弦和彈撥類(lèi)樂(lè )器發(fā)出的復合音、少量來(lái)自環(huán)境聲的復合音以及一些來(lái)自打擊樂(lè )器的噪樂(lè )音。其基本要素包括節奏(Rhythm)、旋律(Melody)、和聲(Harmonic)、力度(Dynamic)、速度(Tempo)、調性(Tonality)、曲式(Form)、織體(Texture)、音色(Timbre)等。除了人類(lèi)創(chuàng )造的語(yǔ)音和音樂(lè ),在自然界和日常生活中,還存在著(zhù)其他數量巨大、種類(lèi)繁多的聲音,統稱(chēng)為一般音頻或環(huán)境聲。例如,自然界的風(fēng)聲、雷聲、海浪聲,機械設備的噪聲,動(dòng)物的叫聲,人體的心跳、咳嗽、脈搏聲,軍事的槍聲、炮聲、爆炸聲等等,不可盡數。


      根據以上聲音的三大種類(lèi),可以粗略地將聽(tīng)覺(jué)信息處理分成兩塊,如圖1所示。專(zhuān)門(mén)處理語(yǔ)音的學(xué)科是語(yǔ)音信息處理,以語(yǔ)言聲學(xué)為基礎,歷史悠久,發(fā)展相對成熟,已獨立成為一門(mén)學(xué)科。包括計算語(yǔ)言學(xué)、語(yǔ)音識別、說(shuō)話(huà)人/聲紋識別、語(yǔ)種識別、語(yǔ)音增強/去噪/分離、語(yǔ)音合成、語(yǔ)音編碼、語(yǔ)音情感計算、自然語(yǔ)言處理與口語(yǔ)對話(huà)等經(jīng)典研究L域。面向音樂(lè )和一般音頻信息處理的學(xué)科叫做聲音與音樂(lè )計算SMC(Sound and Music Computing)[1]。該L域橫跨文理,在國外已有50多年的歷史,但是在國內僅有20幾年歷史。包含的研究L域隨著(zhù)時(shí)代變化也在不斷擴展,而且由于涉及藝術(shù)創(chuàng )作,還具有一定的未知性。


      2. 音樂(lè )科技概覽

      2.1 音樂(lè )科技

      音樂(lè )與科技的融合具有悠久的歷史。早在20世紀50年代,一些不同國家的作曲家、工程師和科學(xué)家已經(jīng)開(kāi)始探索利用新的數字技術(shù)來(lái)處理音樂(lè ),并逐漸形成了音樂(lè )科技/計算機音樂(lè )(Music Technology/Computer Music)這一交叉學(xué)科。20世紀70年代之后,歐美各國相繼建立了多個(gè)大型計算機音樂(lè )研究機構,如1975年建立的美國斯坦福大學(xué)CCRMA(Center for Computer Research in Music and Acoustics)、1977年建立的法國巴黎IRCAM(Institute for Research and Coordination Acoustic/Music)、1994年成立的西班牙巴塞羅那UPF(Universitat Pompeu Fabra)大學(xué)MTG(Music Technology Group)、以及2001年成立的英國倫敦女王大學(xué)C4DM(Center for Digital Music)等。幾十年的歷史中,音樂(lè )科技在世界各地都逐漸發(fā)展起來(lái),如美國的Carnegie Mellon University、Columbia University、New YorkUniversity、George Tech等大學(xué),加拿大麥吉爾大學(xué)的CIRMMT(Centre for Interdisciplinary Research in Music Media and Technology),德國、日本、新加坡、臺灣等等。歐洲由于其濃厚的人文和藝術(shù)氣息,歐盟及各國政府的大力支持成為該L域的世界中心。


      音樂(lè )科技在中國大陸發(fā)展較晚,大約20世紀80年代有人開(kāi)始零星的研究,90年代一些音樂(lè )學(xué)院開(kāi)始建立音樂(lè )科技或音樂(lè )工程專(zhuān)業(yè),2000年左右在一些綜合性和理工科大學(xué)開(kāi)始出現一批來(lái)自計算機等信息學(xué)科的科研工作者。在中國文理分割的教育體制下,這兩類(lèi)人群之間橫亙著(zhù)巨大的學(xué)科鴻溝。藝術(shù)L域的相關(guān)人員只能運用國外的各種音樂(lè )科技軟硬件產(chǎn)品進(jìn)行音樂(lè )創(chuàng )作、表演、教育、理論研究,對其內在的科學(xué)技術(shù)原理知之甚少,更無(wú)法進(jìn)行科技創(chuàng )新和產(chǎn)品研發(fā)。理工科L域的相關(guān)人員一般具有初級的音樂(lè )知識,但專(zhuān)業(yè)程度差距較大,研究集中于面向消費者的音樂(lè )科技,研發(fā)面向專(zhuān)業(yè)應用的音樂(lè )科技產(chǎn)品力不從心。


      2013年12月,D一屆中國聲音與音樂(lè )計算研討會(huì )CSMCW(China Sound and Music Computing Workshop)創(chuàng )建于復旦大學(xué),為國內同行搭建了一個(gè)產(chǎn)學(xué)研交流的平臺,該會(huì )議2016年更名為中國聲音與音樂(lè )技術(shù)會(huì )議CSMT(Conference on Sound and Music Technology)。該會(huì )議至今已召開(kāi)七屆(復旦大學(xué)、清華大學(xué)、上海音樂(lè )學(xué)院、南京郵電大學(xué)、蘇州大學(xué)與UCLA蘇州研究院、廈門(mén)理工學(xué)院、哈爾濱工業(yè)大學(xué)),逐漸成為國內音樂(lè )科技全產(chǎn)業(yè)鏈的交流平臺,為加強科技與藝術(shù)的融合,消除學(xué)科鴻溝做出了重要貢獻。隨著(zhù)中國社會(huì )的整體發(fā)展,以及人工智能(AI)技術(shù)的持續火熱,到2017年左右,音樂(lè )科技在國內開(kāi)始呈現加速發(fā)展的趨勢。2017年,音樂(lè )科技L域國內外的三大重要會(huì )議ISMIR(International Society for Music Information Retrieval Conference)、CSMT、ICMC(International Computer Music Conference)在上海和蘇州連續舉行。2018年,于中國音樂(lè )學(xué)院舉辦CSMTD一屆音樂(lè )人工智能(Music AI)研討會(huì );深圳平安科技有限公司與民族大學(xué)建立AI作曲聯(lián)合實(shí)驗室;騰訊音樂(lè )娛樂(lè )集團(TME)在美國上市;大型中文綜述“理解數字音樂(lè )-音樂(lè )信息檢索技術(shù)綜述”(CSMT 2017會(huì )議論文集,43頁(yè), 335篇文獻)[3]正式發(fā)表。2019年,音樂(lè )學(xué)院建立音樂(lè )人工智能與音樂(lè )信息科技系,開(kāi)始招收博士、碩士研究生,實(shí)行音樂(lè )與科技雙導師培養制;AI科學(xué)前沿大會(huì )、北京國際電子音樂(lè )節等多個(gè)重要會(huì )議開(kāi)設音樂(lè )人工智能特約報告專(zhuān)場(chǎng);上海音樂(lè )學(xué)院開(kāi)設音樂(lè )人工智能課程;本文作者在百度百科定義音樂(lè )科技、音樂(lè )人工智能、音樂(lè )信息檢索MIR、計算機聽(tīng)覺(jué)、中國聲音與音樂(lè )技術(shù)會(huì )議等五個(gè)學(xué)科詞條;大型中文綜述“理解數字聲音-基于普通音頻的計算機聽(tīng)覺(jué)綜述”(CSMT 2018會(huì )議論文集,45頁(yè),399篇文獻)[4]正式發(fā)表;第七屆CSMT會(huì )議參會(huì )人數超過(guò)200人,來(lái)自70余個(gè)單位,投稿等各項指標均創(chuàng )歷史紀錄。2020年,四川音樂(lè )學(xué)院以音樂(lè )科技為突破口建立實(shí)驗藝術(shù)學(xué)院;由本文作者主編55位作者聯(lián)合編著(zhù)的中文教材“音頻音樂(lè )與計算機的交融-音頻音樂(lè )技術(shù)” [5]由復旦大學(xué)出版社正式出版,全書(shū)468頁(yè),895千字。大陸的音樂(lè )科技歷經(jīng)坎坷,雖然進(jìn)步巨大,但是在教育體制、科技評價(jià)、社會(huì )觀(guān)念等各方面的制約下,至今仍然處于起步階段。


      音樂(lè )科技是音樂(lè )與科學(xué)技術(shù)的交叉學(xué)科,包含眾多的研究和應用L域。在音樂(lè )方面,包括計算音樂(lè )學(xué)(Computational Musicology)、電子音樂(lè )創(chuàng )作與制作(Electronic Music Creation and Production)、計算機輔助的音樂(lè )教育(Computer-aided Music Education)、計算機輔助的音樂(lè )表演(Computer-aidedMusic Performance)、錄音混音(Recording and Remixing)、音效及聲音設計(Sound Effect and Sound Design)等。該方面的研究課題比較零散,不成理論體系,依賴(lài)于在音樂(lè )方面的具體應用,有些還涉及藝術(shù)創(chuàng )造。在科技方面,音樂(lè )科技指上述的聲音與音樂(lè )計算,下邊詳細闡述,如圖2右半部分所示。


      2.2 聲音與音樂(lè )計算

      聲音與音樂(lè )計算是一個(gè)龐大的研究L域,可細化為多個(gè)學(xué)科分支。其主要內容及分類(lèi)在1995年的文獻[1]中已有描述,本文所述內容是作者根據近年來(lái)的進(jìn)展以及自己的理解對[1]進(jìn)行補充完善而成。


      (1)音樂(lè )生成(Music Generation):包含歌聲合成(Singing Synthesis)、自動(dòng)作曲(AutomaticComposition)、自動(dòng)編曲(Automatic Arrangement)等主要方向,需要較多的音樂(lè )知識,技術(shù)實(shí)現比較復雜。因近年來(lái)大量使用機器學(xué)習/深度學(xué)習技術(shù),也可以通俗的稱(chēng)為人工智能音樂(lè )(AI Music)。歌聲合成以語(yǔ)音合成為基礎,但需考慮音樂(lè )旋律、節奏、強弱、音色、結構、情感、藝術(shù)技巧等多種音樂(lè )要素。自動(dòng)作曲早期稱(chēng)為算法作曲,近年來(lái)進(jìn)化為基于深度學(xué)習的AI作曲。自動(dòng)編曲在已知主旋律的基礎上編配和弦及各個(gè)聲部,使其成為一首完整的作品。上述研究課題目前只能模仿音樂(lè )專(zhuān)業(yè)人員,尚無(wú)人類(lèi)源自靈感的創(chuàng )作能力,且主觀(guān)性較強,評價(jià)標準難以統一。


      (2)聲音與音樂(lè )的內容理解與分析:使用計算方法對數字化聲音與音樂(lè )的內容進(jìn)行理解和分析,例如音樂(lè )識譜(Music Transcription)、旋律提取(Melody Extraction)、節奏分析(Rhythm Analysis)、和弦識別(Chord Estimation)、音頻檢索(Audio Retrieval)、流派識別(Genre Identification)、音樂(lè )情感計算(Music Emotion Calculation)、歌手識別(Singer Identification)、歌唱評價(jià)(SingingEvaluation)、歌聲分離(Vocal Separation)等。該分支在20世紀90年代末隨著(zhù)互聯(lián)網(wǎng)上數字音頻和音樂(lè )的急劇增加而發(fā)展起來(lái),研究難度大,多項研究?jì)热葜两袢栽诔掷m進(jìn)行中。與計算機視覺(jué)CV(Computer Vision)對應,該分支也可稱(chēng)為計算機聽(tīng)覺(jué)CA(Computer Audition)或機器聽(tīng)覺(jué)(Machine Listening)[2]。注意計算機聽(tīng)覺(jué)是用來(lái)理解分析而不是處理音頻和音樂(lè ),狹義上講不包括語(yǔ)音,廣義上亦包括。CA若剔除一般聲音而局限于音樂(lè ),則可稱(chēng)為音樂(lè )信息檢索MIR(Music Information Retrieval)。


      (3)聲音與音樂(lè )信號處理:用于聲音和音樂(lè )的信號分析、變換及合成,包括頻譜分析(Spectral Analysis)、調幅(Magnitude Modulation)、調頻(FrequencyModulation)、低通/G通/帶通/帶阻濾波(Low-pass/High-pass/Band-pass/Band-stop Filtering)、轉碼(Transcoding)、無(wú)損/有損壓縮(Lossless/Lossy Compression)、重采樣(Resampling)、回聲(Echo)、混音(Remixing)、去噪(Denoising)、變調PS(Pitch Shifting)、保持音G不變的時(shí)間伸縮TSM(Time-scale Modification/Time Stretching)、時(shí)間縮放(TimeScaling)等。該分支相對比較成熟,已有多款商業(yè)軟件如Gold Wave、Adobe Audition/Cool Edit、Cubase、Sonar/Cakewalk、EarMaster等。


      (4)其它與音頻音樂(lè )相關(guān)的科技L域:如聲音與音樂(lè )的感知認知(Sound and Music Perception and Cognition):研究音樂(lè )的大腦機制,對心理、情緒的影響等。一般音頻/環(huán)境聲的合成(Sound Synthesis)。聲音與音樂(lè )的計算機接口:包括樂(lè )譜打印(MusicPrinting)、光學(xué)樂(lè )譜識別(Optical Music Recognition)、音響及多聲道聲音系統(Sound and Multi-channelSound System)、聲音裝置及多媒體技術(shù)(Sound Device and Multimedia Technology)等。音頻信息安全:包括音頻信息隱藏(Audio Information Hiding)、魯棒音頻水印(Robust Audio Watermarking)、音頻認證(Audio Authentication)、音頻取證(Audio Forensics)、聲紋識別(VoiceprintRecognition)、聲音偽造(Sound Forge)、音樂(lè )抄襲(Music Plagiarism)、AI音樂(lè )判別(AI Music Discrimination)等。音樂(lè )治療(Music Therapy):將音樂(lè )與醫學(xué)、心理學(xué)、計算機相結合的典型范例。音樂(lè )機器人(Music Robot):包括東西方各種風(fēng)格的表演機器人、指揮機器人等。聽(tīng)覺(jué)與視覺(jué)/文本相結合的跨媒體應用(Cross-media Applications Combing Audition andVision/Text)等。

       

      音樂(lè )科技具有眾多應用,例如電聲樂(lè )器、數字音源、音頻工作站、計算機輔助的音樂(lè )教育、計算音樂(lè )學(xué)、音樂(lè )表演的量化分析、電子音樂(lè )創(chuàng )作與制作、音樂(lè )信息檢索MIR、數字音樂(lè )圖書(shū)館、交互式多媒體、音頻接口、輔助醫學(xué)治療、音樂(lè )機器人、音頻數字水印等。


      與音樂(lè )有關(guān)但是與SMC不同的另一個(gè)歷史更悠久的學(xué)科是音樂(lè )聲學(xué)(Music Acoustics)。音樂(lè )聲學(xué)是研究在音樂(lè )這種聲音振動(dòng)中存在的物理問(wèn)題的科學(xué),是音樂(lè )學(xué)與物理學(xué)的交叉學(xué)科。音樂(lè )聲學(xué)主要研究樂(lè )音與噪聲的區別、音G音強和音色的物理本質(zhì)、基于電磁振蕩的電聲學(xué)、聽(tīng)覺(jué)器官的聲波感受機制、樂(lè )器聲學(xué)、人類(lèi)發(fā)聲機制、音律學(xué)、與音樂(lè )有關(guān)的室內聲學(xué)等。從學(xué)科的角度看,一部分音樂(lè )聲學(xué)知識也是SMC的基礎,但SMC研究更依賴(lài)于音頻信號處理和人工智能-機器學(xué)習/深度學(xué)習這兩門(mén)學(xué)科。同時(shí),研究?jì)热菝嫦蛞纛l與音樂(lè )的信號處理、內容分析和理解,與更偏重于解決振動(dòng)相關(guān)物理問(wèn)題的音樂(lè )聲學(xué)也有較大區別。


      2.3 音樂(lè )人工智能

      近年來(lái),隨著(zhù)人工智能概念的火熱并上升為國家戰略,在音樂(lè )L域出現了音樂(lè )人工智能(Music AI)這一名詞。音樂(lè )人工智能是一個(gè)通俗的略顯模糊的概念,主要指以數字音樂(lè )為研究對象以AI為主要技術(shù)手段的計算機軟硬件系統研發(fā),可以看成是人工智能在音樂(lè )L域的垂直應用。音樂(lè )人工智能屬于音樂(lè )科技的一部分,包括音樂(lè )生成、音樂(lè )信息檢索MIR(含數十項應用)、以及所有其它涉及AI的音樂(lè )相關(guān)的技術(shù),如圖2中虛線(xiàn)框所示。


      2.4 音樂(lè )信息檢索MIR

      音樂(lè )信息檢索MIR是一個(gè)使用計算方法對數字音樂(lè )的內容進(jìn)行理解和分析的交叉學(xué)科。它是音樂(lè )人工智能中體量大的一個(gè)研究L域。


      早期的MIR技術(shù)以符號音樂(lè )(Symbolic Music)如MIDI(Musical Instrument Digital Interface)為研究對象。由于其具有準確的音G、時(shí)間等信息,很快就發(fā)展的比較成熟。后續研究很快轉為以音頻信號為研究對象,研究難度急劇上升。隨著(zhù)該L域研究的不斷深入,如今MIR技術(shù)已經(jīng)不僅僅指早期狹義的音樂(lè )搜索,而從更廣泛的角度上包含了音樂(lè )信息處理的所有子L域。我們根據自己的理解,將MIRL域的幾十個(gè)研究課題歸納為核心層和應用層共9個(gè)部分(圖3)。核心層包含與各大音樂(lè )要素(如音G與旋律、音樂(lè )節奏、音樂(lè )和聲等)及歌聲信息處理相關(guān)的子L域,應用層則包含在核心層基礎上更偏向應用的子L域(如音樂(lè )搜索、音樂(lè )情感計算、音樂(lè )推薦等)。核心層屬于G層音樂(lè )信號特性分析或低層音樂(lè )語(yǔ)義分析,對應于音樂(lè )心理學(xué)中的感知層次;應用層則屬于G層音樂(lè )語(yǔ)義分析,對應于音樂(lè )心理學(xué)中的認知層次。


      圖3. 音樂(lè )信息檢索(MIR)的研究L域


      基于內容的音樂(lè )信息檢索MIR有很多應用。在娛樂(lè )相關(guān)L域,典型應用包括聽(tīng)歌識曲、哼唱/歌唱檢索、翻唱檢索、曲風(fēng)分類(lèi)、音樂(lè )情感計算、音樂(lè )推薦、彩鈴制作、卡拉OK應用、伴奏生成、自動(dòng)配樂(lè )、音樂(lè )內容標注、歌手識別、模仿秀評價(jià)、歌唱評價(jià)、歌聲合成及轉換、智能作曲、數字樂(lè )器、音頻/音樂(lè )編輯制作等。在音樂(lè )教育及科研L域,典型應用包括計算音樂(lè )學(xué)、視唱練耳及樂(lè )理輔助教學(xué)、聲樂(lè )及各種樂(lè )器輔助教學(xué)、數字音頻/音樂(lè )圖書(shū)館等。在日常生活、心理及醫療、知識產(chǎn)權等其他L域,還包括樂(lè )器音質(zhì)評價(jià)及輔助購買(mǎi)、音樂(lè )理療及輔助醫療、音樂(lè )版權保護及盜版追蹤等應用。此外,在電影及很多視頻中,音頻及音樂(lè )都可以用來(lái)輔助視覺(jué)內容進(jìn)行分析。以上應用均可以在電腦、智能手機、音樂(lè )機器人等各種平臺上進(jìn)行實(shí)現。


      2.5 一般音頻計算機聽(tīng)覺(jué)

      計算機聽(tīng)覺(jué)是使用計算方法對數字化聲音與音樂(lè )的內容進(jìn)行理解和分析的交叉學(xué)科。面向音樂(lè )時(shí)稱(chēng)為音樂(lè )信息檢索MIR,面向環(huán)境聲時(shí)則稱(chēng)為基于一般音頻的計算機聽(tīng)覺(jué)或AI聲學(xué)。主要基礎學(xué)科是各種聲學(xué)、音頻信號處理和人工智能-機器學(xué)習/深度學(xué)習。


      (1)計算機聽(tīng)覺(jué)通用技術(shù)框架

      從實(shí)際應用的角度出發(fā),一個(gè)完整的CA算法系統應該包括如下幾個(gè)步驟。

      首先采用麥克風(fēng)(Microphone)/聲音傳感器(Acoustic Sensor)采集聲音數據;

      之后進(jìn)行預處理(例如將多聲道音頻轉換為單聲道、重采樣、解壓縮等);

      音頻是長(cháng)時(shí)間的流媒體,需要將有用的部分分割出來(lái),即進(jìn)行音頻事件檢測AED(Audio Event Detection)或端點(diǎn)檢測ED(Endpoint Detection);

      采集的數據經(jīng)常是多個(gè)聲源混雜在一起,還需進(jìn)行聲源分離,將有用的信號分離提取出來(lái)。或至少消除部分噪聲,進(jìn)行有用信號增強;

      然后根據具體聲音的特性提取各種時(shí)域、頻域、時(shí)頻域音頻特征,進(jìn)行特征選擇(Feature Selection)或特征抽取(Feature Extraction),或采用深度學(xué)習DL(Deep Learning)進(jìn)行自動(dòng)特征學(xué)習(Feature Learning);

      后送入淺層統計分類(lèi)器或深度學(xué)習模型進(jìn)行聲景(Sound Scape)分類(lèi),聲音目標識別,或聲音目標定位。


      機器學(xué)習模型通常采用有監督學(xué)習(Supervised Learning),需要事先用標注好的已知數據進(jìn)行訓練。基于一般音頻/環(huán)境聲的CA算法設計與語(yǔ)音信息處理及音樂(lè )信息檢索MIR技術(shù)G度類(lèi)似,區別在于聲音的本質(zhì)不同,需要更有針對性的設計各個(gè)步驟的算法,另外需要某種特定聲音的L域知識。


      (2)音頻事件檢測與音頻場(chǎng)景識別

      音頻事件(AudioEvent)指一段具有特定意義的連續聲音,時(shí)間可長(cháng)可短。例如笑聲、鼓掌聲、槍聲、犬吠、警笛聲等。也可稱(chēng)為音頻鏡頭(Audio Shot)。音頻事件檢測AED,亦稱(chēng)聲音事件檢測SED(Sound Event Detection),環(huán)境聲音識別ESR(Environmental Sound Recognition),旨在識別音頻流中事件的起止時(shí)間(Event Onsets and Offsets)和類(lèi)型,有時(shí)還包括其重要性(Saliency)。面向實(shí)際系統的AED需要在各種背景聲音的干擾下在連續音頻流中找到聲音事件的邊界再進(jìn)行分類(lèi),比單純的分類(lèi)問(wèn)題要更困難。


      音頻場(chǎng)景(AudioScenes)是一個(gè)保持語(yǔ)義相關(guān)或一致性(Semantic Consistency)的聲音片段,通常由多個(gè)音頻事件組成。例如,一段包含槍聲、炮聲、吶喊聲、爆炸聲等聲音事件的音頻很可能對應一個(gè)戰爭場(chǎng)景。對于實(shí)際應用中的連續音頻流,音頻場(chǎng)景識別ASR(Audio Scene Recognition)首先進(jìn)行時(shí)間軸語(yǔ)義分割,得到音頻場(chǎng)景的起止時(shí)間即邊界(AudioScene Cut),再進(jìn)行音頻場(chǎng)景分類(lèi)ASC(Audio Scene Classification)。ASR是提取音頻結構和內容語(yǔ)義的重要手段,是基于內容的音頻、視頻檢索和分析的基礎。目前場(chǎng)景檢測(Scene Detection)的研究,主要是基于圖像和視頻。音頻同樣具有豐富的場(chǎng)景信息,基于音頻既可獨立進(jìn)行場(chǎng)景分析,也可以輔助視頻場(chǎng)景分析,以獲得更為準確的場(chǎng)景檢測和分割。音頻場(chǎng)景的類(lèi)別并沒(méi)有固定的定義,依賴(lài)于具體應用場(chǎng)景。例如在電影等視頻中,可粗略分為語(yǔ)音、音樂(lè )、歌曲、環(huán)境音、帶音樂(lè )伴奏的語(yǔ)音等幾類(lèi)。環(huán)境音還可以進(jìn)行更細粒度的劃分。基于音頻分析的方法用戶(hù)容易接受,計算量也比較少。


      (3)基于一般音頻/環(huán)境聲的計算機聽(tīng)覺(jué)應用

      基于一般音頻的計算機聽(tīng)覺(jué)直接面向國民經(jīng)濟的各個(gè)L域,具有眾多應用。例如:在醫療衛生L域,涉及呼吸系統疾病(咳嗽、打鼾、言語(yǔ)、喘息、呼吸等),心臟系統疾病,其它相關(guān)醫療(嗓音疾病、胎音和胎動(dòng)、藥劑吞服、血液流動(dòng)、肌音)。在安防L域,涉及公共場(chǎng)所監控和私密場(chǎng)所監控。在交通運輸、倉儲L域,涉及鐵路運輸業(yè),道路運輸業(yè)(車(chē)型及車(chē)距識別、交通事故識別、交通流量檢測、道路質(zhì)量檢測),水上運輸業(yè),航空運輸業(yè)(航空飛行器識別、航空飛行數據分析),管道運輸業(yè),倉儲業(yè)。在制造業(yè)L域,涉及鐵路、船舶、航空航天和其他運輸設備制造業(yè),通用設備制造業(yè)(發(fā)動(dòng)機、金屬加工機械制造、軸承齒輪和傳動(dòng)部件制造、包裝專(zhuān)用設備制造),電氣機械和器材制造業(yè),紡織業(yè),黑色及有色金屬冶煉和壓延加工業(yè),非金屬礦物制品業(yè),汽車(chē)制造業(yè),農副食品加工業(yè),機器人制造。在農、林、牧、漁業(yè)L域,涉及農業(yè),林業(yè),畜牧業(yè)。在水利、環(huán)境和公共設施管理業(yè),涉及水利管理業(yè),生態(tài)保護和環(huán)境治理業(yè)。在建筑業(yè),涉及土木工程建筑業(yè),房屋建筑業(yè)。在其它L域,涉及采礦業(yè),日常生活,身份識別,軍事目標識別等。


      3. 總結與展望

      音樂(lè )科技、音樂(lè )人工智能與計算機聽(tīng)覺(jué)以數字音樂(lè )和聲音為研究對象,是聲學(xué)、心理學(xué)、信號處理、人工智能、多媒體、音樂(lè )學(xué)及各行業(yè)L域知識相結合的重要交叉學(xué)科,具有重要的學(xué)術(shù)研究和產(chǎn)業(yè)開(kāi)發(fā)價(jià)值。目前仍有大量幾乎空白或沒(méi)有得到充分研究的子L域。


      與自然語(yǔ)言處理、計算機視覺(jué)、語(yǔ)音信息處理等相關(guān)L域相比,上述學(xué)科在國內外發(fā)展都比較緩慢。幾個(gè)可能的原因包括:(1)數字音樂(lè )涉及版權問(wèn)題無(wú)法公開(kāi),各種音頻數據都源自特定場(chǎng)合和物體,難以多面搜集和標注。數據的獲取及公開(kāi)困難嚴重影響了基于機器學(xué)習/深度學(xué)習框架算法的研究及比較。(2)音樂(lè )和音頻信號幾乎都是多種聲音混合在一起,很少有單獨存在的情況。音樂(lè )中的各種樂(lè )器和歌聲在音G上形成和聲織體,在時(shí)間上形成節奏至曲式結構,耦合成多層次的復雜音頻流,難以甚至無(wú)法分離處理。環(huán)境聲音具有非平穩、強噪聲、弱信號、多聲源混合等特點(diǎn),一個(gè)實(shí)際系統需要經(jīng)過(guò)音頻分割、聲源分離或增強/去噪后,才能進(jìn)行后續的內容分析理解。(3)該L域幾乎都是交叉學(xué)科,進(jìn)行音樂(lè )科技的研究需要了解基本的音樂(lè )理論知識,進(jìn)行基于一般音頻的計算機聽(tīng)覺(jué)研究則經(jīng)常需要了解相關(guān)各L域的專(zhuān)業(yè)知識和經(jīng)驗。(4)此外,作為新興學(xué)科,還存在社會(huì )發(fā)展水平、科研環(huán)境、科技評價(jià)、人員儲備等各種非技術(shù)類(lèi)原因阻礙計算機聽(tīng)覺(jué)技術(shù)的發(fā)展。

          

      隨著(zhù)中國社會(huì )經(jīng)濟的快速發(fā)展,年青一代受音樂(lè )教育的普及,國家對人工智能等前沿技術(shù)的重視,上述L域在近幾年也出現了良好的發(fā)展勢頭。本文作為科普性文章,希望能使全社會(huì )更多的人有所了解,加速推動(dòng)國內音頻音樂(lè )技術(shù)L域在學(xué)術(shù)研究和產(chǎn)業(yè)應用的發(fā)展,走出一條具有中國特色的文理結合的道路,早日達到甚至超過(guò)世界先進(jìn)水平。


      參考文獻

      [1] A. Camurri, G. Depoli and D. Rocchesso, “Ataxonomy for sound and music computing”. Computer Music Journal (CMJ), 1995, 19(2):4-5.

      [2] S. Dubnov, “Computer audition: An introductionand research survey”. ACM International Conference on Multimedia (ACM MM),2006, pp. 9-9.

      [3] 李偉,李子晉,G永偉,“理解數字音樂(lè )-音樂(lè )信息檢索技術(shù)綜述”,第五屆中國聲音與音樂(lè )技術(shù)會(huì )議(CSMT 2017)特約報告,復旦學(xué)報(自然科學(xué)版),2018,57(3):271-313.

      [4] 李偉, 李碩, “理解數字聲音-基于普通音頻的計算機聽(tīng)覺(jué)綜述”, 第六屆全國聲音與音樂(lè )技術(shù)會(huì )議(CSMT 2018), 復旦學(xué)報(自然科學(xué)版), 2019, 58(3):269-313.

      [5] 李偉,李子晉,邵曦主編,“音頻音樂(lè )與計算機的交融-聲音與音樂(lè )技術(shù)”,2020年1月,復旦大學(xué)出版社,89.5萬(wàn)字,468頁(yè)。





      讓大規模深度學(xué)習訓練線(xiàn)性加速、性能無(wú)損,基于BMUF的Adam優(yōu)化器并行化實(shí)踐

      Adam 算法便以其出色的性能風(fēng)靡深度學(xué)習L域,該算法通常與同步隨機梯度技術(shù)相結合,采用數據并行的方式在多臺機器上執行

      基于深度學(xué)習和傳統算法的人體姿態(tài)估計,技術(shù)細節都講清楚了

      人體姿態(tài)估計便是計算機視覺(jué)L域現有的熱點(diǎn)問(wèn)題,其主要任務(wù)是讓機器自動(dòng)地檢測場(chǎng)景中的人“在哪里”和理解人在“干什么”

      傳統目標檢測算法對比

      SIFT、PCA-SIFT、SURF 、ORB、 VJ 等目標檢測算法優(yōu)缺點(diǎn)對比及使用場(chǎng)合比較

      基于深度學(xué)習目標檢測模型優(yōu)缺點(diǎn)對比

      深度學(xué)習模型:OverFeat、R-CNN、SPP-Net、Fast、R-CNN、Faster、R-CNN、R-FCN、Mask、R-CNN、YOLO、SSD、YOLOv2、416、DSOD300、R-SSD

      如何更G效地壓縮時(shí)序數據?基于深度強化學(xué)習的探索

      大型商用時(shí)序數據壓縮的特性,提出了一種新的算法,分享用深度強化學(xué)習進(jìn)行數據壓縮的研究探索

      滴滴機器學(xué)習平臺調度系統的演進(jìn)與K8s二次開(kāi)發(fā)

      滴滴機器學(xué)習場(chǎng)景下的 k8s 落地實(shí)踐與二次開(kāi)發(fā)的技術(shù)實(shí)踐與經(jīng)驗,包括平臺穩定性、易用性、利用率、平臺 k8s 版本升級與二次開(kāi)發(fā)等內容

      人工智能和機器學(xué)習之間的差異及其重要性

      機器學(xué)習就是通過(guò)經(jīng)驗來(lái)尋找它學(xué)習的模式,而人工智能是利用經(jīng)驗來(lái)獲取知識和技能,并將這些知識應用于新的環(huán)境

      面向動(dòng)態(tài)記憶和學(xué)習功能的神經(jīng)電晶體可塑性研究

      神經(jīng)形態(tài)結構融合學(xué)習和記憶功能L域的研究主要集中在人工突觸的可塑性方面,同時(shí)神經(jīng)元膜的固有可塑性在神經(jīng)形態(tài)信息處理的實(shí)現中也很重要

      CVPOS自助收銀的挑戰以及商品識別算法工程落地方法和經(jīng)驗

      針對結算收銀場(chǎng)景中商品識別的難點(diǎn),從商品識別落地中的模型選擇、數據挑選與標注、前端和云端部署、模型改進(jìn)等方面,進(jìn)行了深入講解

      內容流量管理的關(guān)鍵技術(shù):多任務(wù)保量?jì)?yōu)化算法實(shí)踐

      通過(guò)分析其中的關(guān)鍵問(wèn)題,建立了新熱內容曝光敏感模型,并終給出一種曝光資源約束下的多目標優(yōu)化保量框架與算法

      百變應用場(chǎng)景下,優(yōu)酷基于圖執行引擎的算法服務(wù)框架筑造之路

      優(yōu)酷推薦業(yè)務(wù),算法應用場(chǎng)景眾多,需求靈活多變,需要一套通用業(yè)務(wù)框架,支持運行時(shí)的算法流程的裝配,提升算法服務(wù)場(chǎng)景搭建的效率

      餓了么推薦算法的演進(jìn)及在線(xiàn)學(xué)習實(shí)踐

      餓了么算法專(zhuān)家劉金介紹推薦業(yè)務(wù)背景,包括推薦產(chǎn)品形態(tài)及算法優(yōu)化目標;然后是算法的演進(jìn)路線(xiàn);后重點(diǎn)介紹在線(xiàn)學(xué)習是如何在餓了么推薦L域實(shí)踐的
      資料獲取
      機器人開(kāi)發(fā)
      == 資訊 ==
      ChatGPT:又一個(gè)“人形機器人”主題
      ChatGPT快速流行,重構 AI 商業(yè)
      中國機器視覺(jué)產(chǎn)業(yè)方面的政策
      中國機器視覺(jué)產(chǎn)業(yè)聚焦于中國東部沿海地區(
      從CHAT-GPT到生成式AI:人工智能
      工信部等十七部門(mén)印發(fā)《機器人+應用行動(dòng)實(shí)
      人工智能企業(yè)市值/估值 TOP20
      創(chuàng )澤智能機器人集團股份有限公司第十一期上
      諧波減速器和RV減速器比較
      機器人減速器:諧波減速器和RV減速器
      人形機器人技術(shù)難點(diǎn) G精尖技術(shù)的綜合
      機器人大規模商用面臨的痛點(diǎn)有四個(gè)方面
      青島市機器人產(chǎn)業(yè)概況:機器人企業(yè)多布局在
      六大機器人產(chǎn)業(yè)集群的特點(diǎn)
      機械臂-G度非線(xiàn)性強耦合的復雜系統
      == 機器人推薦 ==
      迎賓講解服務(wù)機器人

      服務(wù)機器人(迎賓、講解、導診...)

      智能消毒機器人

      智能消毒機器人

      機器人開(kāi)發(fā)平臺

      機器人開(kāi)發(fā)平臺


      機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫療 物聯(lián)網(wǎng) 機器人排名 機器人企業(yè) 機器人政策 教育機器人 迎賓機器人 機器人開(kāi)發(fā) 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖
      版權所有 創(chuàng )澤智能機器人集團股份有限公司 中國運營(yíng)中心:北京 清華科技園九號樓5層 中國生產(chǎn)中心:山東日照太原路71號
      銷(xiāo)售1:4006-935-088 銷(xiāo)售2:4006-937-088 客服電話(huà): 4008-128-728

      黑人巨大精品欧美在线观看,涩涩福利网址导航,欧美日韩xxx,日韩久久综合 巴中市| 湖北省| 新野县| 通化市| 游戏| 长丰县| 泊头市| 咸丰县| 辽阳县| 赫章县| 克山县| 鸡东县| 辽源市| 巫溪县| 英山县| 义乌市| 从江县| 瑞昌市| 仪征市| 台北市| 西平县| 垣曲县| 开封市| 大余县| 呼玛县| 美姑县| 镇坪县| 海口市| 和林格尔县| 新河县| 策勒县| 藁城市| 延安市| 南康市| 锡林浩特市| 衡东县| 台南县| 江安县| 福安市| 岳阳县| 来安县| http://444 http://444 http://444 http://444 http://444 http://444