字节跳动套壳Chat GPT被OpenAI封号，训练数据竟靠抄作业？

admin AI新闻 2026-06-30 3

人们都知道, 在AI 大模型这个范畴内, 有这样一件事, 那就是OpenAI研发出了Chat - GPT, 这仿若上学期间老师布置了一道极其困难的题目, 当大家都仍处于整理解答思路的阶段, 或者是怎么想都想不明白的时候, 班级里的学霸已然第一个完成了, 所以大部分人更趋向于和学霸交流思路, 又或者是直接去抄袭作业。

近期出现了种种风波, 这些风波似乎证实这样一点, 许多事物看起来是复杂的, 但其本质却是一样的。之前马斯克的Grok AI, 因数据集污染被怀疑存在抄袭行为, 甚至被怀疑套壳Chat-GPT, 现在字节跳动涉嫌违反服务条款, 被OpenAI封号。

字节跳动开运真人app下载苹果版,开运真人app下载开云手机入口app下载开云app官方入口网站，陷入大模型舆论风波

近来, 外媒The Verge传出消息, 声称字节跳动借助微软的OpenAI API账户去生成数据, 以此来训练其自身的人工智能模型, 这般举动事实上已然违背了微软以及OpenAI的使用条款。在该消息被揭露没多久之后, The Verge又进一步表示OpenAI已经将字节跳动的账户予以暂停。

那么字节跳动究竟是违反了什么样的条款呢, 其实在OpenAI的服务条款里面有一项清晰予以规定的内容, 那就是OpenAI所提供的模型能力不容许被用于去“开发任何跟其产品以及服务构成竞争态势的AI模型”。

依照The Verge所讲, 证据源出于字节跳动的一份内部文件, 那是海外版飞书Lark的聊天记录。

该份文件显示, 字节跳动于代号称作“种子计划”（Project Seed）的基础大语言模型项目里, 基本上在每一个开发阶段, 都借助OpenAI的API来开展开发工作, 其中涵盖了训练以及评估模型。

有一个名为“种子计划”的事情, 大概是经历了一年的时光之前就开始启动, 当下主要是在进行两个产品的研发工作, 其中的一个产品呀是在咱们国内已经正式上线了的豆包, 另外的又一个产品哦是专门面向商业用户的聊天机器人平台, 此刻正处于开发的进程当中。

参与“种子计划”的员工, 他们深知过度依赖OpenAI API会产生后果, 所以他们讨论怎样借助“数据脱敏”粉饰证据, 结果常常出现员工达到OpenAI API最大访问上限的状况。

《边缘》依据内部文件宣称, 字节跳动大概是在几个月之前发布了这样一项命令, 即“于模型开发的任何阶段终止使用由GPT生成的文本”。

字节跳动套壳Chat GPT被OpenAI封号，训练数据竟靠抄作业？-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

而恰好就在这个当口, 字节跳动推出了其自家的大语言模型豆包。豆包AI官方微博说明, 豆包AI能够给予聊天机器人、写作助手以及英语学习助手等方面的功能, 它能够解答各类问题并且展开对话, 用于协助人们获取资讯, 支持网页Web平台, iOS以及安卓平台。豆包能够提供自然语言处理、学习理解、对话、信息查找、情感剖析、机器学习等多种类别的助力。

然而, 字节跳动仍以违背OpenAI以及微软服务条款的这样一种形式去运用API, 其中涵盖了对豆包背后模型性能加以评估的情况。有一位对此位对字节跳动内部状况具备第一手了解条件的人表明, “他们声称自己想要确保全部情形都是合乎法律规定的, 然而实际上他们仅仅是不想被抓到把柄而已”。

三方接连表态，着急的只有字节

字节跳动

当The Verge发布这一报道后, 字节跳动发言人Jodi Seth给出了这般回应: GPT所生成的数据于“种子计划”的前期开发里被用以注释模型, 且于今年年中前后已从字节跳动的训练数据中移除。字节跳动获得了微软的授权, 能够使用GPT API。我们于非中国市场借助GPT来支撑我们的产品；然而在中国市场, 却是运用我们自主研发的模型来支持豆包。

昨日下午时分, 字节跳动方面相关担负着责任之人, 又一次做出回应表明说, 公司于运用OpenAI相关服务之际, 着重强调务必要遵循其使用方面的条款规定。我们同样也正在跟OpenAI展开联系沟通, 目的在于把外部报道有可能引发出的误解予以澄清。

字节跳动使用 OpenAI 服务相关情况的介绍：

1、今年年初, 技术团队刚开始大模型的初期探索, 部分工程师把 GPT 的 API 服务用于较小模型的实验性项目研究, 此模型只为测试, 没计划上线, 也从没对外用过, 4 月公司引入 GPT API 调用规范检查后, 这种做法就停止了。

2、早在今年4月, 字节大模型团队就已提出了明确的内部要求, 该要求是不得把GPT模型生成的数据添加入字节大模型的训练数据集, 并且要培训工程师团队, 使其在使用GPT时遵守服务条款。

3、在9月的时候, 公司内部再次开展了一轮检查, 采取了一系列措施, 从而进一步确保对GPT的API调用能够符合规范要求, 比如说分批次去抽样模型训练数据与GPT的相似度来进行检查, 以此避免数据标注人员私自使用GPT。

4、接下来的几日当中, 我们将会再度进行全方位的检查, 目的在于保证能够严格依照相关服务所规定的使用条款来执行。

OpenAI

OpenAI的发言人尼克・菲利克斯也就是Niko Felix发表了声明, 声明中确认字节跳动的账户已经被暂停。他还表示, 所有的API客户都必须要遵守他们的使用政策, 目的在于确保他们的技术能够被用于好的一面 , 尽管字节跳动很少去使用他们的API, 然而在进一步调查期间他们还是暂停了字节跳动的帐户。他接着说, 如果发现字节跳动的使用不符合公司政策, 那么就会要求字节跳动做出必要的改变, 或者是终止字节跳动的账户。

微软

微软发言人弗兰克・肖世界杯2026直播平台，也就是 Frank Shaw, 于一份声明里表明, Azure OpenAI 服务这类微软 AI 解决方案, 是属于我们有限访问框架的一部分。这由此意味着呢, 所有客户都得申请, 并且要获得微软的批准之后, 才能够进行访问。我们同样制定了标准, 还提供了资源, 以此来帮助我们的客户, 能够负责任地去使用这些技术, 并且遵守我们的服务条款。我们还制定了发现滥用行为的流程, 在企业违反我们行为准则的时候, 会停止他们的访问。

从此次事件里三方的声明那儿能够看出, OpenAI相对保守, 仅仅暂停了字节跳动的账号, 还表明会在开展调查之后再判定是否需要采取后续举措。微软呈现出一种“事不关己高高挂起”的姿态, 好像在讲“我仅仅是中间人, 我们存有自身的规定, 要是存在违反规定的行为我们会予以禁止的”。字节跳动显得更为着急些, 毕竟“火”已然烧到身上了, 先是去澄清解释, 接着立刻联系OpenAI想要快速对此次事件“灭火”。

字节跳动的AI布局

依据公开呈现的资料表明, 早在2016年的时候, 字节跳动便设立了AI实验室, 该实验室着重于自然语言处理方面的研究, 还聚焦于机器学习领域的钻研, 同时也关注数据挖掘等方面的探究。在抖音这款字节跳动旗下的产品当中, 频频增添了AIGC也就是生成式人工智能的功能, 进而持续不断地吸引流量。在今日头条这款字节跳动旗下的产品里面, 同样频频加入了AIGC也就是生成式人工智能的功能, 以此持续吸引流量。

2023年, 字节跳动于AI领域的行动显著提速, 6月, 字节跳动旗下的火山引擎推出大模型服务平台“火山方舟”, 其朝着企业给予模型精调、评测以及推理等全方面的平台服务。

8月, 字节跳动自己研发的通用大模型“云雀”, 在首批名单里, 而这个首批名单是通过《生成式人工智能服务管理暂行办法》的大模型才能进入的, 它在其上露出。

8月17日, 字节跳动进行公测, 此次公测的是基于云雀大模型所开发的AI聊天机器人“ 豆包”, 主要面向C端市场去发力AI应用。

这段时间, 当字节跳动在对游戏以及XR业务予以收缩操作之际, 它成立了一个全新的AI部门Flow。源自相关的招聘信息所呈现的内容表明, Flow属于字节跳动旗下的AI创新业务团队, 当下在中国范围内以及海外区域分别推出了“豆包”和“Cici”这两款产品, 而且还有多个与AI紧密相关的创新产品正处于孵化的进程当中。

与此同时, 今年字节跳动向英伟达订购了超过10亿美元的GPU, 单单它这一家的订单数额, 就已然达到了英伟达去年在中国销售商用GPU所获收入的总和。另外, 在人才招聘方面, 于有关AIGC新发岗位量排名TOP10的企业当中, 字节跳动同样是位居首位, 其所占比例为所有AIGC新发岗位的3.24%。

各种行为充分显示出字节对AI以及大模型重视程度极高, 回到此次事件自身, 这般重视的字节, 会为了“弯道超车”去冒如此大的风险吗?

元宇宙新声有话说

GPT横空出世之后, 字节如同许多国内大厂, 努力去跟进AI的节奏。但明显字节要落后一点, 豆包上线得以多人使用, 可效果未达到一流的水准。倘若利用Chat - GPT训练出的AI仅是这般效果, 似乎不太说得过去, 要是没使用Chat - GPT训练豆包, 那达到这种效果也算在意料之中。

在此之前的时候, 马斯克的Grok AI被怀疑存在抄袭Chat - GPT现象时, 人工智能研究员之一的西蒙·威利森 (Simon Willison)在接受Ars Technica采访这个行为期间就表明了这样的意思: “有好多大模型已经是在借助OpenAI API生成的数据集基础之上进行了微调操作, 或者是从GPT本身当中去抓取相关内容。”。

但很明显, 这些操作全都是在合理的范围之内开展的, 字节大概也是如此, 至于字节对于是否因为过于“急功近利”从而选择跨越合理范围去进行使用, 想来作为一家规模庞大的互联网公司, 应该还不至于做出这般“因小失大”的抄袭举动。

标签： AI OpenAI 字节跳动 ChatGPT 大模型