有沒有可能,當接到不明電話後,只要說一聲「喂」,AI就能複製你的聲音,接著再透過生成的方式,拿你的聲音去做別的用途?不同科技公司最近都發表了類似技術,一張人像照片,一段音軌,就能生成一段嘴型、表情逼真的影音。OpenAI的「聲音引擎」,15秒語音就能被AI複製,技術一旦遭到濫用,後果將不堪設想。
英文講的就像外國人,這個人,聲音跟我一樣,從長相、表情,到肢體、嘴型,全都是我的,但其實我本人從沒講過這些話。
資深記者王皓宇:「而胚胎僅由少量非特定化細胞組成。每一半的胚胎繼續自行分裂。」
資深記者王皓宇:「大家好我是TVBS的記者我是皓宇,我們今天要做的這個專題,是關於AI複製聲音。」
對著手機鏡頭講兩分鐘的話,錄下來後,上傳到AI應用軟體。
AI公司員工Christy:「等它跑,就是建置他的克隆人。」
這時候,從外貌,到聲音,AI的我就生成了,只需要輸入文字,他,嗯..不是,是我,就能照稿講出來,連手勢都能搭配得上。
AI公司員工Christy:「影片出來之後,我們要讓他講什麼,我們就輸入文字。」
這是我的克隆人,也就是複製人。
AI公司員工Christy:「複製你的聲音,或者是你的某個嘴型。」
生成式AI:「現在生成式AI,不只是文字,就連聲音跟照片都可以生成。」
如果要從A的聲音,移到B的身上,也是同樣道理。
生成式AI:「我是TVBS的新主播Janet,你能夠辨識出我是虛擬的AI主播嗎?」
從新聞片段擷取主播的聲音,套在另一個人的影像。
AI公司員工Mark:「風險的話,就是看誰去用,我們都是人,所以只要是人拿這個工具去做不好的事情,或是做詐騙、或是做假的畫面的話,那個可能就會有一些風險。」
類似的技術,已經被用在行銷工具上。
AI公司執行長高辰晞:「在商業上,有很多像最近短影音很紅、短影音很紅,其實大家就會想很多的劇本腳本,然後拍成很多短影音,像甚至很多企業的老闆,都想要拍自己短影音的IP,可是他就遇到一個問題,像我們公司的老闆可能都很忙,沒有時間固定每個禮拜花很多時間去拍這些影片、內容,然後還要去製作,像我們公司在很常在醫美的產業,去做這些應用,因為有很多的醫生,希望可以拍短影音,去介紹他們自己診所的服務,可是他們並沒有那麼多的時間,因為醫生在做手術時間都很寶貴,所以我們就會幫醫生來去拍這樣的短影音的影片,複製他的聲音,去做他的聲音訓練,他們每個診所的小編可以用他的聲音,就會可以答出他們的內容。」
不只是這個軟體,OpenAI日前端出新研究成果,只要短短15秒語音素材,就能生成與本人聲音相似的工具,這項技術名為「語音引擎」。
防詐科技公司技術總監高義銘:「醫學上其實也有很多,他們本身失去聲音的人,他們也有透過這個方式,來去做有點像是提供他們一個,一個方式來擁有回復他們的聲音,教育上就是,也是以往可能不太會透過像是電腦、或機器人的方式來教學,但如果現在有一個真人的聲音,然後搭配所謂的容貌跟所謂的影像,其實這個東西也會提升所謂的教育的水準。」
這個輕鬆幫別人說話的技術,讓OpenAI決定在正式推出前,思考如何避免潛在風險,語音生成一旦遭到濫用,尤其被用在詐騙上,後果將不堪設想。
防詐科技公司技術總監高義銘:「像這些東西是所謂的AI、或是一些技術生成的,所以其實在我們這邊也,目前也是很多公司,應該現在也都積極在研究說,如何去做一些有點像反工程的方式,就是透過反技術的方式,來去做到一個聲音過來、或是一個影像過來,它是否有可能是偽冒或者是假的,像這樣子生成的東西,其實你真的去關注去看的話,其實它會有很多影像跟聲音的瑕疵,像是現在的話,你快速的一直跟它對話,其實它可能沒有辦法來的及快速的反應你,像這種時候你就會發現,這個聲音好像有點怪怪的,影像上也是,比如它頭髮飄動的方式,或是眼睛的方式,你可能會覺得有點奇怪,這些都是一些可疑,然後還有包含它講的內容、跟說話的方式。」
為了防止濫用,OpenAI為所有生成內容添加浮水印,追蹤使用方式,推出禁止名單,防止知名人士聲音被利用,越來越逼真的生成式AI技術,社會必須擁有更強大的抵禦能力。
◤超夯旅遊新玩法◢