美媒揭秘大模型训练数据集:部分内容有些"脏"-当前信息
4月20日消息,过去四个月,人工智能聊天机器人变得越来越受欢迎,它们能够完成各种任务,比如写复杂的学术论文和进行紧张的对话,能力很令人惊
4月20日消息,过去四个月,人工智能聊天机器人变得越来越受欢迎,它们能够完成各种任务,比如写复杂的学术论文和进行紧张的对话,能力很令人惊叹。
聊天机器人并不像人类那样思考,它们甚至不知道自己在说什么。它们之所以能模仿人类的语言,是因为驱动它们的人工智能已经吸收了大量的文本,其中大部分内容是从互联网上抓取的。
这些文本是人工智能在构建过程中获取世界信息的主要来源,它们会对人工智能的响应方式产生深远影响。如果人工智能在司法考试中取得了优异成绩,那可能是因为它的训练数据中包含了数以千计的LSAT(Law School Admission Test,美国法学院入学申请考试)资料。
(资料图片)
科技公司对他们向人工智能提供了哪些信息始终保密。因此,《华盛顿邮报》开始分析其中一个重要数据集,彻底揭示了用于训练AI的专有、个人和常常具有攻击性的网站类型。
为了探究人工智能训练数据的内部构成,《华盛顿邮报》与艾伦人工智能研究所的研究人员合作,对谷歌的C4数据集进行了分析。这个数据集是一个包含1500多万个网站的海量快照,这些网站内容被用来训练许多备受关注的英语人工智能,例如谷歌的T5和Facebook的LLaMA。而OpenAI没有透露他们使用了什么样的数据集来训练支持聊天机器人ChatGPT的模型。
在这项调查中,研究人员使用网络分析公司Similarweb的数据对网站进行了分类。其中大约三分之一的网站无法进行分类而被排除,主要是因为它们已经不再存在于互联网上。接着,研究人员根据数据集中每个网站出现的“token”数量,对剩下的1000万个网站进行了排名。token是处理信息的小段文本,通常是一个单词或短语,用于训练AI模型。
从维基百科到WoWhead
C4数据集的网站主要来自新闻、娱乐、软件开发、医疗和内容创作等行业。这可以解释为什么这些领域可能受到新一波人工智能的威胁。排名前三的网站分别是:第一名是谷歌专利搜索,它包含世界各地发布的专利文本;第二名是维基百科;第三名是只接受付费订阅的数字图书馆Scribd。此外,排名靠前的其他网站还有盗版电子书市场Library(第190位),这个网站因非法行为被美国司法部查封。此外,数据集中还存在至少27个被美国政府认定为盗版和假冒产品市场的网站。
还有一些顶级网站也出现在其中,例如《魔兽世界》玩家论坛wowhead(第181位),以及阿里安娜·赫芬顿(Arianna Huffington)创立的用于帮助缓解职业倦怠的网站thriveglobal(第175位)。此外,还有至少10个出售垃圾箱的网站,包括dumpsteroid(第183位),但它似乎已经无法访问。
虽然大部分网站都是安全的,但有些网站存在严重的隐私问题。例如,有两个排名进入前100位的网站,都私下承载了州选民登记数据库的副本。虽然选民数据是公开的,但这些模型可能会以未知的方式使用这些个人信息。
工商业网站占据了最大的类别(占分类token的16%)。排名第一的是提供投资建议的The Motley Fool(第13位)。其次是允许用户为创意项目进行众筹的Kickstarter网站(第25位)。而排名较后的Patreon位列第2398,该网站帮助创作者从订阅者那里收取每月费用以获得独家内容。
然而,Kickstarter和Patreon可能会让人工智能获取艺术家的想法和营销文案,人们担忧AI可能会在向用户提供建议时复制这些作品。目前,艺术家的作品被包括在人工智能培训数据中时,他们不会得到任何补偿,他们已经向文本转图像生成器Stable Diffusion、MidJourney和DeviantArt提出了侵权索赔。
根据这次《华盛顿邮报》的分析,更多的法律挑战可能即将到来:C4数据集中有超过2亿次出现版权符号(表示注册为知识产权的作品)。
技术网站是第二大类别,占分类token的15%。这包括许多平台,它们帮助人们建立网站,比如谷歌协作平台(第85位),它的页面涵盖了从英格兰雷丁柔道俱乐部到新泽西州幼儿园的各种内容。
C4数据集还包含了50多万个个人博客,占分类内容的3.8%。发布平台Medium排名第46位,是第五大科技网站,在其域名下拥有数万个博客。此外,还有在WordPress、Tumblr、Blogpot和Live Journal等平台上撰写的博客。
这些博客形式多样,从职业到个人都有,比如一篇名为“Grumpy Rumblings”的博客,由两位匿名的学者共同撰写,其中一位最近写到了他们的伴侣失业是如何影响了夫妻的税收。此外,C4数据集中还有一些专注于真人角色扮演游戏的顶级博客。
社交网络如Facebook和Twitter等(它们被视为现代网络的核心)的内容被禁止抓取,这意味着用于训练人工智能的大多数数据集都无法访问它们。Facebook和谷歌等科技巨头坐拥海量对话数据,但他们还不清楚如何使用个人用户信息来训练内部使用或作为产品销售的人工智能模型。
新闻和媒体网站是所有类别中排名第三,而前十位网站中有半数是新闻媒体:《纽约时报》网站排名第四,《洛杉矶时报》网站排名第六,《卫报》网站排名第七,《福布斯》网站排在第八位,《赫芬顿邮报》网站排名第九,《华盛顿邮报》网站排名第11位。与艺术家和创作者一样,多家新闻机构也批评科技公司在未经授权或提供补偿的情况下使用他们的内容。
与此同时,《华盛顿邮报》还发现有几家媒体在NewsGuard的独立可信度评级中排位较低:比如俄罗斯RT(第65位)、极右翼新闻网站breitbart(第159位)以及与白人至上主义有关的反移民网站vdare(第993位)。
聊天机器人已经被证明可以分享错误信息。不可信的训练数据可能导致它们传播偏见、宣传错误信息,而用户却无法追踪到它们的原始来源。
社区网站约占分类内容的5%,主要是宗教网站。
过滤器漏网之鱼有哪些?
像大多数公司一样,谷歌在将数据提供给人工智能之前,会对数据进行过滤和筛查。除了去除无意义和重复的文字外,该公司还使用了开源的“不良词汇列表”,其中包括402个英文术语和一个表情符号。公司通常使用高质量的数据集来微调模型,从而屏蔽用户不想看到的内容。
虽然这类列表旨在限制模型在接受培训时受到种族诽谤和不良内容的影响,但很多东西都通过了过滤器的筛查。《华盛顿邮报》发现了数百个色情网站和超过7.2万个“纳粹”例子,它们都在禁用词汇列表中。
与此同时,《华盛顿邮报》发现,这些过滤器未能删除某些令人不安的内容,包括白人至上主义网站、反跨性别网站以及以组织针对个人骚扰活动而闻名的匿名留言板4chan。研究中还发现了宣传阴谋论的网站。
你的网站有没有用于训练AI?
网络抓取听上去可能像是对整个互联网进行复制,但实际上它只是收集快照,即对特定时刻的网页样本抓取内容。C4数据集最初是由非营利组织CommonCrawl创建的,于2019年4月进行网络内容抓取,是人工智能模型训练的热门资源。CommonCrawl表示,该组织试图优先考虑最重要和声誉最好的网站,但没有试图避免授权或版权保护的内容。
《华盛顿邮报》认为,将数据的完整内容呈现在人工智能模型中至关重要,这些模型有望管理人们现代生活的许多方面。然而,这个数据集中的许多网站包含高度攻击性语言,即使模型训练时尽量掩盖这些词语,令人反感的内容仍然可能会存在。
专家表示,尽管C4数据集很庞大,但大型语言模型可能会使用更大的数据集。例如,OpenAI在2020年发布了GPT-3训练数据,其数据量是C4中网络抓取数据量的40倍。GPT-3的培训数据包括所有英文维基百科、大型科技公司经常使用的、未出版作家的免费小说集以及Reddit用户高度评价的链接文本汇编。
专家表示,许多公司甚至没有记录培训数据的内容(甚至是内部数据),因为担心发现有关可识别身份的个人信息、受版权保护的材料和其他未经同意被窃取的数据。随着公司强调解释聊天机器人如何做出决策面临的挑战,这是高管们需要给出透明答案的领域。 (小小)
关键词:
4月20日消息,过去四个月,人工智能聊天机器人变得越来越受欢迎,它们能够完成各种任务,比如写复杂的学术论文和进行紧张的对话,能力很令人惊
观点网讯。4月20日,人民银行举行2023年一季度金融统计数据有关情况新闻发布会。观点新媒体获悉,央行调查统计司司长、新闻发言人阮健弘在会上
1、如何申请农村专项计划书户口本身份证一寸兔冠照片2、农村专项计划申请流程高考贫困专项计划一般都是单设批次填报志愿,具体填报批次及时间
进一步推动辽宁省盘锦市与上海市两市的文旅产业合作,4月19日盘锦市文化旅游和广播电视局组织县区文旅广电局、重点文旅企业在上海举办了“世界
青岛银行手机银行通过数字化能力应用,落地手机银行“五人五面”差异化服务场景。
电费里真的有我们的快递费吗?这快递费又是什么呢??快来看看今天的[原来如此]解密吧!(来源:微信公众号“硕电汇”作者:小硕团队)输配电
马伊琍白宇的《龙城》本来挺暖,却被这样的奇葩人设拖累
海洋勘探上市公司龙头股票有哪些?看看有哪些?(2023 4 19),海洋勘探上市公司龙头股票有哪些?看看有哪些?(2023 4 19)海油工程:4月19日
有以下几种方法:第一种:用带卡扣的口罩就不会勒耳朵了第二种,在口罩左右两侧的细绳上缠绕卫生纸,因为卫生纸比较柔软,可以缓解口罩勒耳朵
关于“印章失控”等纠纷,电科院回应称,公司已积极、多次与前董事长胡醇沟通,希望其尽快返还印章,并已向苏州市吴中区人民法院提起诉讼。电
是信用卡使用起来非常方便,即使是在还款方面也会有多种多样的方式,而在众多的还款方式当中,有不少用户会选择分期还款。不同的银行所提供的
海口网4月19日消息(记者唐丽云)最是书香能致远,腹有诗书气自华。为引导广大市民群众爱读书、读好书,推动全民阅读,建设书香海口,在4·23
由于本身是3D角色的缘故,“日漫”风下的安娜和原版动画的气质差别并不是很大,这脸上标志性的亲切笑容,依然让人回味无穷。动画版的艾莎本身
有些小伙伴不知道如何修改已收到的短信内容,下面一起来看看是怎么操作的吧首先打开手机,找到短信图标,打开信箱,然后找到自己需要改的短
WPS不仅可以编辑文字文档,还可以绘制出各种类型的图案,是一款非常实用的办公软件,那么wps怎么设置虚线文本框呢?针对这个问题,下面小编就
截至2023年4月20日收盘,ST广田(002482)报收于1 69元,下跌4 52%,换手率0 93%,成交量14 17万手,成交额2411 36万元。
央视网消息:今天(4月19日),国家油气基础设施重点工程——双台子储气库双向输气管道工程成功投产。这意味着我国东北地区最大的储气库群——
日前智电出行获取了奥迪全新一代SQ5车型最新消息,其Q5基础款车型将于今年三季度正式发布,而SQ5车型则将于2024年一季度正式推出,预计最快将
1、肝气犯脾为证候名。2、五行学说中也称“肝木乘脾土”。3、指肝气郁滞,横逆犯脾,导致脾之运化失职的病理变化。
帕夏时代是一款模拟建造类游戏,大家将来到石器时代,和好友一起建造村庄,培育土地庄稼、驯养可爱动物、参加各种节日,很多玩家想知道帕夏时
格隆汇4月19日丨兴蓉环境(000598 SZ)公布,收到成都市龙泉驿区2022年污水治理攻坚项目的《中标通知书》。公司作为牵头人,与成都经开建工集团
同花顺金融研究中心4月19日讯,有投资者向凤凰股份提问,董秘,您好!公司房地产投资、实业投资、房屋租赁、物业管理等各种业务,请问公司现在
苏垦农发2022年净利8 26亿同比增长10 76%总经理朱亚东薪酬90 52万2023 4 209:30:35挖贝网苏言挖贝网4月20日,苏垦农
1、A本题考查我国的国家性质。2、我国的国家性质是人民民主专政。3、人民是国家的主人。本文为大家分享到
光明日报北京4月19日电(记者鲁元珍)4月19日,财政部、教育部、人民银行、银保监会发布关于做好2023年国家助学贷款免息及本金延期偿还工作的
Copyright 2015-2022 北方酒业网 版权所有 备案号:京ICP备2021034106号-50 联系邮箱: 55 16 53 8@qq.com