GPT-4o新功能是甚麼?未來iOS 18與Open AI合作Siri將可即時語音對答、更可理解視訊?

Esquire HK - Park Chan
  • 17 May 2024

Apple一早就有語音助手Siri,但在AI大時代之下,大家早已不滿足簡單的操作對答。而Chat-GPT最新的GPT-4o登場,多條示範影片中以iPhone就可以做到如真人的即時對答,更可以透過手機鏡頭去辦認空間物件,從而作出對答。有指Apple正尋求與OpenAI合作,未來的iPhone 16及iOS 18,會否就可以用到GPT-4o的AI助手?

ADVERTISEMENT
CONTINUE READING BELOW

GPT-4o是甚麼?

GPT-4o是OpenAI推出的全新AI模型,“o”代表”omni”,意味著全方位。這款AI模型在更自然和多樣化的人機互動方面取得了重大進展,在即時的回應功能方面有顯著的提升,可以做到猶如真人對答,而且更可以迅速理解輸入的音字、音訊以至視訊,即是無論文字輸入,語音問題,以至用鏡頭直接對話,都可以做到即時的回應!

ADVERTISEMENT
CONTINUE READING BELOW

GPT-4o新功能-語音助理能力

GPT-4o新增了語音助理能力,可以毫無延遲地即時回答問題。它可以在僅232毫秒內做出回應,平均反應時間為320毫秒,這與人類的對話速度非常接近。有如這條影片般,使用者就好像如與朋友般視像對話般,GPT-4o更可以理解手機鏡頭的畫面,不只作出問題的回答,更有「情緒」與反應,不說根本不知道是GPT-4o!

GPT-4o新功能-視覺和音頻理解

GPT-4o在視覺和音頻理解方面的進步尤其值得注意,它可以協助解算寫在紙上的數學問題,而且可以一步一步的去呈現出思考過程,並且能夠處理多個講話者或解釋背景噪音的能力。一如這條影片中,利用GPT-4o就可以充當老師,透過鏡頭收集影像,即時去教導使用者如何解題!

ADVERTISEMENT
SCROLL TO CONTINUE

GPT-4o新功能-支援超過50種語言

GPT-4o的語言處理能力在質量和速度上均有顯著提高,現支援超過50種語言,而且可以透過即時語音對話功能,作出即時的翻譯功能,但如此的翻譯功能,在今天看來,都未算「震撼」了。

ADVERTISEMENT
CONTINUE READING BELOW

GPT-4o不只是文字,連人物動物都可以輕鬆理解

影片中,GPT-4o可以快速理解鏡頭面對的是一隻狗,更可以與使用者溝通,證明能夠更快速理像圖像,甚至與真實的狗狗進行互動,同時對鏡頭前的畫面進行即時回應,這使得它可以更輕鬆地與用戶進行流暢地對話。
背後的原因是,GPT-4o使用了一種名為深度學習的技術,這種技術可以讓機器學習並理解視覺影像的內容。這種技術通過大量的數據訓練,使得GPT-4o能夠識別和理解視覺影像的各種細節和特徵。
此外,GPT-4o還使用了一種名為卷積神經網絡(Convolutional Neural Network,CNN)的技術來處理視覺影像。CNN是一種特殊的深度學習模型,它專門用於處理具有網格結構的數據,如圖像。通過這種技術,GPT-4o可以有效地識別和理解視覺影像的內容。

GPT-4o對比GPT-4有甚麼進步?

GPT-4o對比GPT-4在多個方面都有顯著的進步。首先,GPT-4o的語音助理能力使其能夠即時回答問題,這是GPT-4所無法做到的。其次,GPT-4o在視覺和音頻理解方面的進步,使其能夠處理更複雜的問題,如解算寫在紙上的數學問題,或處理多個講話者的對話。此外,GPT-4o的性能提升也是一個重要的進步,其速度提高了兩倍,成本減半,速率限制提高了五倍。

ADVERTISEMENT
CONTINUE READING BELOW

GPT-4o可以做你的教師

GPT-4o的新功能開辟了廣泛的應用範疇,從客戶支持和個人助理到教育工具和內容創建。例如,GPT-4o可以作為一個語音助理,幫助用戶解答問題,或者作為一個教育工具,幫助學生解答數學問題。此外,GPT-4o的文本和圖像功能也使其成為一個強大的內容創建工具。
 

ADVERTISEMENT
SCROLL TO CONTINUE

GPT-4o的應用層面可以無限想像

GPT-4o更可以成為輔助盲人的工具,GPT-4o的新能力讓其可以與硬件結合,為用戶帶來更多可能性!OpenAI在這段演示視頻中展示了與專門為視障人士提供幫助的公司BeMyEyes的合作,他們將GPT-4o植入到一位盲人遊客的手機中,通過手機攝像頭成為了盲人的眼睛。這使得盲人能够得知面前發生的一切,比如白金漢宮的樣子、公園的環境,甚至是出租車是否停下等等1。
GPT-4o模型結合了實時視覺和語音功能,使得盲人和視力受限用戶能夠通過語音助手的幫助,隨時了解自己周邊的環境1。通過實時的語音交互,該應用可以幫助用戶做出決策,如識別物品、導航指引等。因此,GPT-4o的確有潛力成為一個強大的輔助盲人的工具。

ADVERTISEMENT
CONTINUE READING BELOW

未來的Siri?

GPT-4o的強大跨媒體推理能力,使其不僅能夠理解和分析文字、影像,還能處理語音訊息1。這種能力使得GPT-4o有潛力被應用到像iPhone的Siri或Google助理這樣的語音助理中。
如果將GPT-4o應用到這些語音助理中,可能會帶來以下的優勢:
更自然的對話:GPT-4o的對話能力接近人類的反應時間,這使得與語音助理的對話更像與真人交談。
更強大的理解能力:GPT-4o可以理解和分析文字、影像,並處理語音訊息。這使得語音助理能夠更好地理解用戶的需求,並提供更準確的回應。
更廣泛的應用範疇:由於GPT-4o可以接受文字、圖像、音訊的任意輸入組合,並即時產生文字、音訊、圖像的任意輸出組合2,這使得語音助理能夠在更多的場景中被應用,例如,用戶可以通過對話的方式,請GPT-4o幫助寫作、學習、創作等。
 

AI自行可以溝通更會評論一個人?

兩部GPT-4o之間的裝置竟然可以互相利用語音溝通,更會一起評論鏡頭前的使用衣著打扮,同時亦可以即時因應這對話,再一同作歌唱歌!反應及能力之大,令人驚訝,但也同時令人心寒,AI竟然會對人類作出「評價」,萬一未來的「評價」不是「stylish」、「可愛」,而是「有問題」、「罪犯」,又會如何?

GPT-4o的功能強大,但同時強大得令人有心寒的意味,不知道你又有沒有這感覺?

ADVERTISEMENT
CONTINUE READING BELOW
Esquire Picks
投票即賺20分換取豐富 Cosmart 獎賞
投票即賺20分換取豐富 Cosmart 獎賞
訂閱Esquire接收最新科技資訊
Sign up FOR ESQUIRE_PAPER NOW!!
下篇文章