需要更多數據訓練,OpenAI宣布非注冊用戶也將能體驗ChatGPT了
OpenAI正試圖通過對數量龐大的非注冊用戶開放其較低版本模型ChatGPT,來擴充自己的訓練數據來源。
當地時間4月1日,OpenAI宣布,用戶無需注冊即可使用ChatGPT,即其旗下大語言模型GPT-3.5版本的對話式人工智能產品。
OpenAI在其官方網站發布的博文中宣稱,其核心使命是讓ChatGPT等工具得到廣泛使用,以便人們可以體驗人工智能的好處。目前,每周有來自185個國家和地區的超過1億用戶使用ChatGPT。OpenAI選擇逐步推出無需注冊即可使用ChatGPT的功能,目的是讓任何對其功能感興趣的人都可以使用人工智能。
此外,OpenAI可能會使用用戶向ChatGPT提供的信息來改進其模型。不過,用戶無論是否創建帳戶,都可以通過“設置”關閉此功能。
OpenAI還補充到,其為使用ChatGPT的未注冊用戶引入了額外的內容保護措施,例如阻止提示和更廣泛類別的生成。同時,OpenAI不忘提示稱,“創建帳戶有很多好處,包括能夠保存和查看聊天歷史記錄、共享聊天以及解鎖語音對話和自定義指令等附加功能”。
也就是說,無論用戶是否注冊使用ChatGPT,用戶在使用過程中產生的數據都可能會被OpenAI用以訓練模型,但用戶可以主動選擇關閉。相比起注冊用戶,非注冊用戶在使用ChatGPT時會試用更加嚴格的內容保護政策,但OpenAI沒有詳細解釋這種限制政策具體包括什么。
事實上,包括OpenAI、谷歌等巨頭在內,所有的致力于發展人工智能的公司,都正在或即將面臨數據短缺的困境,尤其是高質量數據的短缺。這主要由于,一方面需要數據訓練模型的人工智能公司和大模型越來越多,對數據的需求越來越大;與此同時,一些數據所有者,比如紐約時報、reddit以及馬斯克擁有的X平臺,正在不同程度上限制或阻止部分或全部人工智能公司對他們數據的訪問。
據華爾街日報4月1日報道,一些高管和研究人員表示,人工智能行業對高質量文本數據的需求可能會在兩年內供不應求,這可能會減緩人工智能的發展。曾在OpenAI工作的人工智能研究員阿里·莫科斯(AriMorcos)表示,數據短缺“是一個前沿研究問題”。
為了應對這個問題,報道援引知情人士的說法稱,OpenAI已經討論了利用YouTube公共視頻的轉錄來訓練其下一代模型GPT-5。
在更早前的一次災難采訪中,OpenAI的CTOMurati在回答旗下視頻生成模型Sora的訓練數據來自哪里時,支支吾吾并試圖回避回答這個問題,甚至稱“不太確定”是否使用了Youtube、Facebook和Instagram等平臺的數據。
同時,OpenAI和其競爭對手Anthropic的研究人員,正試圖通過創建所謂的更高質量的合成數據來避免這些問題。OpenAI的發言人表示,其還在探索合成數據生成。但也有另一些研究人員表示,這種方法實際上可能會導致嚴重的故障。
值得關注的是,TheInformation在上周的一篇報道中援引知情人士消息稱,微軟和OpenAI的高管一直在制定一個數據中心項目計劃,該項目將包含一臺超級計算機,配備數百萬個專用服務器芯片,為OpenAI的人工智能提供動力。報道稱,據一位曾與OpenAI首席執行官SamAltman交談過的人士以及一位看過微軟部分初始成本估算的人士透露,該項目的成本可能高達1000億美元,這一成本比當今一些最大的數據中心高出100倍。