Datawhale干货
(资料图片仅供参考)
作者:平凡@知乎,诺桑比亚大学,在读博士
今天晚上,花了一点儿时间看了两篇文章:
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior,即涌现现象。
大规模神经网络下的涌现现象在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。
我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:
作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。
从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。
还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。
参考
1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdfDatawhale干货作者:平凡@知乎,诺桑比亚大学,在读博士今天晚上,花了
各界新闻网讯(实习记者韩璋通讯员赵荣荣记者樊星)为着力打造“书香政协
1、秦皮味苦而寒。2、归肝、胆、大肠经。3、具有清热燥湿、清肝明目的
转债退市无先例迎来监管新安排。
特斯拉创始人马斯克前脚访华赢得了无数赞誉,但是在离开中国不久后就传
【爱旭股份:拟出资24亿元设立山东爱旭】爱旭股份6月9日晚间公告,公司
nike气垫鞋修补小方法一起来看看吧。气垫鞋扎漏可以修,用补鞋胶把漏气
6月9日,第十九届中国(深圳)国际文化产业博览会开展第三日,中外观展
清 秦祖永《秋色山水》香港佳士得成交价:港币 35,000↓(原图放
1、最近有网友问小编,怎么在安卓手机桌面上添加插件?比如我们可以在
日前,我们从官方渠道获取到了领克09大五座版的预告图,新车预计将在6
聚焦金交会|2023年度广东绿色金融改革创新推广案例正式发布,50个案例
蒙泰高新(300876 SZ):参股公司以8830万元竞得揭阳大南海石化工业区土
南大光电:公司部分产品是光芯片的原材料
2023年5月份,全国工业生产者出厂价格同比下降4 6%,环比下降0 9%;工
1、用电饭锅煮糯米要30分钟左右,而用高压锅的话,压力较大,熟的时间会快
格隆汇6月9日丨惠城环保(300779)(300779 SZ)接受机构调研,交流环节中
关于开展消防应急演练公告为增强医院广大职工消防安全意识和提升医院消
一、山东省潍坊市天气预报1、安丘市气象台2023年06月06日20时39分发布
1、武鹏云男,1941年7月生,山东省惠民县人。2、湖北省荆州市纺织职工
华是科技(301218)董监高温志伟2023年06月07日减持200,000股,每股成
一图读懂:国产大飞机C919如何撬动万亿蓝海
记者从市农业农村局获悉,截至6月8日,全市种植小麦80 16万亩,已收割7
时空科技(605178)6月8日晚间发布风险提示,近期,市场关注到“空间计算
6月8日北向资金增持5000 0股百普赛斯。近5个交易日中,获北向资金增持
6月7日上午,在启东市汇龙中学高考考点,第一场考试即将开始,一名男子
1、双侧肾囊肿的治疗主要是治疗并发症,缓解症状,保护肾功能。因为肾
证券时报券中社讯,6月8日长城久润混合基金公告称,为保证基金的稳定运
证监会同意哈尔滨敷尔佳科技股份有限公司、深圳市智信精密仪器股份有限
来为大家讲解以上的问题。淮北市智辰商贸有限责任公司,北市智辰商贸有
广告
X 关闭
广告
X 关闭
管好居家“神兽” 家长应先“自救”
疫情中的导游危中寻机
花钱就能“随心改”?代改IP地址暗藏隐私泄露风险
网上N95、KN95口罩宣传花样太多 信科学别信忽悠