网站首页 | 网站标签 | 邮箱 | 关于我们
设为首页 | 收藏本站
惠州 梅州 汕尾 河源
阳江 清远 东莞 中山
潮州 揭阳 肇庆 茂名
广东经济 广东资源 广东旅游
数字广东 广东扶持 广东基金
广东科技 招商引资 企业风采
广东文化 广东风采
广东故事 广东人物
特色品牌 政策法规
今天:
您所在的位置:主页 > 东莞 >

“动动嘴就能P图”ChatGPT文生图功能太火爆奥尔特曼:GPU“冒烟了”!什么

时间: 2025-03-30 20:15 作者:admin 来源:互联网 点击: 1563 次

  当地时间3月25日,美国OpenAI正式推出GPT-4o图像生成功能,该功能因“动动嘴就能P图”的便利性迅速走红,但也因图像生成需求过高导致GPU过载。OpenAI首席执行官萨姆·奥尔特曼表示将对ChatGPT的图像生成功能实施临时限速,优先保障文本生成等核心功能稳定运行。

  OpenAI首席执行官萨姆・奥尔特曼(Sam Altman)表示:ChatGPT的文生图应用需求过高,我们的GPU“冒烟了”(melting,原为融化之意),在努力提高效率的同时,将暂时对ChatGPT生成图片的功能引入一些速率限制。

  这意味着,OpenAI将对ChatGPT的图像生成功能实施临时限速,降低单位时间内的请求处理量,缓解GPU过载压力,并优先保障文本生成、对话等核心功能的稳定性,或许将暂时放缓图像生成的技术优化节奏。

  据OpenAI官网,当地时间3月25日,美国开放人工智能研究中心(OpenAI)宣布正式推出GPT-4o图像生成功能。

  该功能上线后,以“动动嘴就能P图”的便利迅速火爆,互联网平台上涌入大量由个人照片、知名梗图转变而来的“吉卜力”卡通风格图片。

  “动动嘴就能P图”是指通过简单的文字描述或语音指令,利用AI技术直接对图片进行编辑、修改或生成,而无需手动使用复杂的图像编辑工具,如Photoshop等。这种功能的核心在于将自然语言处理与图像生成技术相结合,极大地降低了图片编辑的门槛。

  GPT-4o是一个多模态AI模型,能够接受文本、音频和图像的组合输入,并生成相应的图像输出。这意味着用户可以通过语音指令来要求AI生成或修改图像,而不仅仅局限于文字描述。

  连Altman也感叹起该功能带来的泼天流量:“自己过去十年埋头苦干做AI,试图帮助实现超级智能来治愈癌症之类的事情。前7.5年几乎无人问津,接下来的两年半,做什么都会引来所有人的厌恶。然后某天醒来收到几百条消息,人们告诉你被画成了吉卜力风格的美少年。”

  据OpenAI介绍,GPT-4o图像生成功能具备四大核心优势:精准文本渲染、严格指令遵循、深度知识调用及创意拓展能力。

  据扬子晚报紫牛新闻,为验证其实际表现,记者进行了多组实测。在测试“生成一张带有扬子晚报/紫牛新闻字样的照片”时,GPT-4o精准还原了英文部分内容,但对于中文字符的识别能力有待提升。整个过程耗时约30秒,生成速度远超预期。

  在另一项测试中,通过多轮对话优化图像。首先要求生成“一只老虎,戴着黑色墨镜”,GPT-4o迅速呈现了细节丰富的画面。老虎的毛发纹理清晰可见,透过墨镜能看到老虎的眼睛细节。随后,记者进一步输入指令“给这个老虎戴上侦探帽,并生成游戏场景”,新生成的图像不仅完美实现了场景变化,还保持了主体特征的一致性,展现了强大的上下文连贯性。

  针对复杂场景的处理能力,以“设计一个包含12个不同物体的4x3网格图,每个物体需准确呈现指定特征”进行测试。GPT-4o成功应对了这一挑战,从蓝色星星、红色三角形到彩虹闪电,细节精准度令人惊叹。但可能是对中文理解能力不足,生成图案中存在指令缺失的情况。

  在实用性测试中,记者尝试生成专业场景图像。例如,要求“制作一份传统中式风格的餐厅菜单,包含毛血旺和酸菜鱼的菜品描述”。GPT-4o生成的菜单不仅文字排版优雅,插画风格与菜品完美契合,整体视觉效果令人满意。此外,生成科学示意图的能力同样出色。记者输入指令“绘制牛顿棱镜实验的示意图”,模型迅速输出了结构清晰的教学图像。

  尽管存在这些不足,GPT-4o 图像生成功能的革新性依然显着。其精准的文本渲染能力、对复杂指令的高遵循度,以及多轮对话中的一致性表现,为创意设计、教育教学、游戏开发等领域提供了强大工具。正如OpenAI首席执行官萨姆・奥尔特曼(Sam Altman)所言,这一功能的推出标志着 “创作自由的新高点”,用户将借此释放更多视觉创意潜能。

  作为AI领域的头部玩家,OpenAI背后的GPU储备自然是业内顶尖水准。根据技术咨询公司Omdia的分析,微软作为OpenAI的主要投资者,在2024年购买了约48.5万块英伟达的Hopper芯片,是其主要竞争对手Meta的两倍,这使其成为英伟达GPU的最大买家。OpenAI的大模型正是用微软的Azure云基础设施进行训练。

  可以说,OpenAI因新功能面临的问题,折射了AI多模态技术发展中的资源与需求平衡难题,一方面,AI应用对GPU等算力资源的需求依然庞大,另一方面,行业继续呼唤技术迭代,以求高效利用现有资源。

  据北京商报,此次更新GPT-4o的图像生成功能之后,OpenAI更大的产品更新将是推出GPT-5。今年2月,OpenAI首席执行官山姆奥尔特曼表示,OpenAI将会在ChatGPT和API服务中搭载新模型GPT-5,GPT-5将集成公司多项技术,包括推理模型o3的技术,GPT-5可能会在未来几个月内推出。

  相比于之前一直不明确GPT-5的推出节点,奥尔特曼突然官宣GPT路线图,或许是因为OpenAI面临用户流失的压力。奥尔特曼此前表示,DeepSeek让OpenAI的领先优势不会像前几年那么大了,并称个人认为在开源权重模型和研究成果的问题上,OpenAI已经站在了历史的错误一边,需要制定不同的开源策略。

  此前据《华尔街日报》报道,OpenAI内部代号为“猎户座”(Orion)的GPT-5项目的开发已持续近两年,目前面临严峻挑战。按原计划,该项目应在2024年年中完成,但现在进度严重滞后。

  OpenAI已经进行了至少两次大型训练,每次训练都需要数月时间处理大量数据,目的是让“猎户座”变得更聪明。一位前OpenAI高管表示,如果说GPT-4的表现相当于一个优秀高中生,那么GPT-5的目标是要在某些任务上达到博士水平。然而熟悉该项目的人士表示,“猎户座”的训练每次都会出现新问题,软件也达不到研究人员的预期。

  东吴证券发布研报称,判断OpenAI对大模型的产品线与预期曾进行过调整。GPT-5的发布时间或提前,或由于DeepSeek近期的重磅更新和亮眼表现对OpenAI产品版图构成了威胁,进而希望加快产品迭代步伐。

  研究机构Gartner预测,到2026年,多模态生成模型的商业价值将占AI市场的45%。随着谷歌与微软等巨头持续加码,生成式AI正从通用工具向产业基础设施演变,但其社会伦理、监管框架的完善也有待各方共同探索。

  如需转载请与《每日经济新闻》报社联系。未经《每日经济新闻》报社授权,严禁转载或镜像,违者必究。

  特别提醒:如果我们使用了您的图片,请作者与本站联系索取稿酬。如您不希望作品出现在本站,可联系我们要求撤下您的作品。

  Sora终于要来了?OpenAI放出“王炸”,奥尔特曼透露:AI智能体有望明年实现,AGI的到来将比大多数人预期的早

  等了300天,Sora正式发布!网友测评:人物手部不自然、文字乱码仍然存在,不如中国的可灵和海螺

  “废墟下有很多求救声,但救不出来”!缅甸强震已致1002人死亡!专家:可能有数百万人暴露在高烈度区域,多只中国救援队已出动

  缅甸7.9级地震,1007人已遇难!外交部等多个政府大楼倒塌,多名官员死亡!机场塔台值班人员全部罹难!华侨称“有中国人被埋”

  最新!乌克兰总统证实:乌方收到美国矿产协议草案,内容较之前“完全不同”!泽连斯基称愿和普京直接谈判

(责任编辑:admin)

关键词:

栏目列表

社会新闻

更多>>

精彩阅读

更多>>

点击排行

更多>>

特色资源

更多>>

关于我们 | 新闻投稿 | 招贤纳士 | 投诉建议 | 联系我们 -