数据霸权:科技巨擘若何掌控AI的力气
起源:DeepTech深科技(起源:MIT Technology Review)人工智能离不开数据。为了练习算法以实现预期目的,咱们须要大批的数据,而输入到 AI 模子中的数据品质直接决议了输出成果的好坏。但是,成绩在于 AI 开辟者跟研讨职员对所应用的数据起源懂得甚少。比拟于 AI 模子开辟的庞杂性,AI 的数据网络实际尚不成熟,年夜范围数据集平日缺少对于其内容跟起源的具体信息。为懂得决这一成绩,来自学术界跟工业界的 50 多名研讨职员发展了数据溯源打算(Data Provenance Initiative)。他们提出了一个简略而主要的成绩:构建 AI 所需的数据毕竟来自那里?为此,他们检察了近 4,000 个大众数据集,这些数据集涵盖了 600 多种言语、67 个国度,并包括长达 30 年的数据,数据起源波及 800 个奇特的渠道跟近 700 个构造。这项研讨的成果初次独家宣布在《麻省理工科技批评》上(文末附讲演链接),提醒了一个令人担心的趋向:AI 的数据实际正在使权利适度会合于多数多少家主导科技公司手中。名目成员、MIT 研讨员 Shayne Longpre 表现,在 2010 年月初期,数据集的起源绝对多样化。(起源:MIT Technology Review)这些数据不只来自百科全书跟互联网,还包含议会记载、财报德律风集会以及气象讲演等起源。Longpre 指出,在谁人时代,AI 数据集是依据详细义务的需要经心谋划并从差别渠道网络的。但是,2017 年,支持年夜言语模子的架构——Transformer 的呈现,转变了这所有。跟着模子跟数据集范围的一直扩展,AI 的机能明显晋升。这使得 AI 范畴逐步偏向于采取更年夜范围的数据集。现在,年夜少数 AI 数据集是经由过程从互联网上年夜范围、无差异地抓取内容构建的。自 2018 年起,互联网成为全部媒体范例(如音频、图像跟视频)数据集的重要起源。与此同时,收集抓取的数据与更为经心谋划的数据集之间的差距逐步浮现并一直扩展。(起源:MIT Technology Review)“在基本模子的开辟中,数据的范围、异质性以及收集起源对模子才能的影响无可比拟。”Longpre 表现。对数据范围的需要也极年夜地推进了分解数据的普遍应用。比年来,多模态天生式 AI 模子应运而生,这些模子可能天生视频跟图像。与年夜型言语模子相似,它们须要尽可能多的数据,而现在最优的数据起源是 YouTube。以视频模子为例,从图表中能够看出,超 70% 的语音跟图像数据集的数据都来自统一起源。(起源:MIT Technology Review)对 YouTube、Google 的母公司 Alphabet 来说,这可能是一个宏大的上风。与文本数据散布在浩繁差别的网站跟平台上差别,视频数据高度会合在单一平台。Longpre 指出:“这使得收集上一些最主要的数据的把持权高度会合在一家企业手中。”别的,Google 本身也在开辟本人的 AI 模子,这种宏大的上风激发了对于公司怎样向竞争敌手供给这些数据的疑难。AI Now Institute 的结合履行主任 Sarah Myers West 表现,这值得进一步探究。她以为,“咱们应当将数据视为经由过程特定进程发明出来的货色,而不是一种天然存在的资本。”她弥补道:“假如咱们一样平常应用的年夜局部 AI 所依附的数据集反应的是至公司、以利润为导向的企业的用意跟计划,那么这将以合乎这些年夜企业好处的方法重塑咱们的天下基本设备。”这种单一化也激发了对于数据集能否可能正确反应人类休会以及咱们正在构建何种模子的疑难。Cohere 公司的研讨副总裁、Data Provenance Initiative 成员 Sara Hooker 表现,“人们上传到 YouTube 的视频平日是针对特定受众而制造的,视频中的行动每每带有特定的目标性。”她问道:“这些数据能否捕获到了人类存在的全部轻微差异跟多样性?”暗藏的限度AI 公司平日不会公然用于练习模子的数据起源。一方面,这是为了维护其竞争上风;另一方面,因为数据集的打包跟散发进程庞杂且不通明,AI 公司本身也可能无奈完整懂得全部数据的详细起源。别的,AI 公司可能不懂得这些数据在应用或共享时所遭到的限度。Data Provenance Initiative 的研讨职员发明,很多数据集附带有严厉的允许条目或应用前提,比方,可能限度其在贸易用处上的利用。(起源:MIT Technology Review)“数据起源缺少分歧性,使得开辟者很难准确抉择应用的数据。”Hooker 表现。Longpre 弥补道,这也闪开发者多少乎弗成能完整确保他们的模子不应用受版权维护的数据停止练习。比年来,像 OpenAI 跟 Google 如许的公司与出书商、Reddit 等重要论坛以及交际媒体平台告竣了独家数据共享协定。这种做法进一步坚固了它们的权利。“这些独家条约现实大将互联网分别为谁能拜访跟谁不克不及拜访的差别地区。”Longpre 指出。这种趋向对可能累赘此类协定的年夜型 AI 公司有利,但对研讨职员、非营利构造跟小型公司则形成了倒霉。这些较小的参加者将难以取得须要的数据,而年夜型公司不只能签署独家协定,还领有最强盛的资本用于抓取数据集。“这是咱们在开放收集上前所未见的新一波非对称性拜访。”Longpre 说道。东方与其余地域的差距用于练习 AI 模子的数据也存在重大的地区偏倚。研讨职员剖析发明,超越 90% 的数据集来自欧洲跟北美,而来自非洲的数据缺乏 4%。Hooker 指出:“这些数据集仅反应了咱们天下跟文明的一局部,却完整疏忽了其余地域。”(起源:MIT Technology Review)用于练习 AI 模子的数据也存在重大的地区偏倚。研讨职员剖析发明,超越 90% 的数据集来自欧洲跟北美,而来自非洲的数据缺乏 4%。Hooker 指出:“这些数据集仅反应了咱们天下跟文明的一局部,却完整疏忽了其余局部。”练习数据中英语的主导位置局部能够用互联网的近况来说明。Hugging Face 的首席伦理学家 Giada Pistilli(并未参加此次研讨)表现,互联网上超越 90% 的内容依然是英语,而地球上很多地域的互联网衔接十分差,乃至不互联网。不外,她弥补说,另一个起因是方便性:创立其余言语的数据集并将其余文明归入斟酌须要无意识的计划跟大批的任务。这种数据集的东方偏向在多模态模子中表示得尤为显明。Hooker 举例说,当一个 AI 模子被提醒天生婚礼的场景跟声响时,它可能只能浮现出东方婚礼的样子,由于它的练习数据仅限于此。这种情形强化了成见,可能招致 AI 模子推进一种以美国为核心的天下不雅,从而扼杀其余言语跟文明的存在。Hooker 指出:“咱们在寰球范畴内应用这些模子,但模子所能瞥见的天下与看不见的天下之间存在宏大差距。”原文链接:1.https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/2.https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf
申明:新浪网独家稿件,未经受权制止转载。 -->