
2021年比较好的股票平台,我接触到了一个让我觉得与以往所报道过的任何内容都很不同的故事:新西兰的一个原住民社区,正在使用AI振兴毛利人的民族语言——毛利语(tereoMāori)。
与全球许多土著群体一样,几代毛利人都经受了殖民统治下的残酷对待。1867年,根据《原住民学校法》,英语是学校唯一可传授的语言,毛利儿童会因为说自己的母语而遭受羞辱甚至殴打。20世纪初,随着快速城市化席卷全国,毛利社区逐渐解体并分散开来,社区作为文化和语言保护中心的功能被大大削弱。毛利语使用者的数量从90%骤降至12%。120年后,在新西兰[毛利人最初称这块土地为“奥特亚罗瓦”(Aotearoa),意为“绵长白云之乡”]终于调整政策时,已经没有足够的毛利语教师能拯救这一门垂死的语言了。与之前的许多其他语言一样,毛利语几乎从地球上消失了。

一门语言消逝的悲剧很难尽述。正如AI研究人员最初之所以将语言作为技术构建的核心对象一样,一门语言丧失的影响远不只是一种交流形式的丧失。每种语言都蕴含着丰富的历史、文化和知识;它们是千百万人跨越时空的集体产物——他们努力寻找声音与文字形式,以捕捉关于宇宙、生命和人类体验的最微妙的观察。他们借此才得以彼此分享惊人的美与痛苦的失败;才得以教导孩子,求助于长者;才得以表达爱意。
失去一门语言,是一种全球性的悲剧,也是一种个体性的悲剧。与自己的文化传承相隔绝,却被迫去守护他人的文化传承,否则便可能遭受殴打——这种情形以最为赤裸的方式确立了一种清晰的等级秩序:它界定了谁的历史、谁的文化、谁的知识值得传承下去,而谁的文化又如此微不足道,理应被抹除。
大语言模型加速了语言的消逝。即便像GPT-2这样早发展几代的模型来说,全球也只有少数几种语言的使用人数足够多,在线文档资料规模足够大,从而能够满足这些模型对数据的迫切需求。据联合国教科文组织统计,在当今仍存世的7000多种语言中,近半数濒临消亡,约三分之一在网上有一定存在度,谷歌翻译支持的不到2%。而根据OpenAI自己的测试研究,只有15种语言(占比0.2%)在GPT-4中的准确率能达到80%以上。随着这些模型成为数字基础设施,互联网对不同语言群体的可及性,与其提供的经济发展机会的可及性一样,将继续降低。这会促使越来越多的社区优先选择学习和使用英语等主流语言,而非母语。
正是在这一迫在眉睫的生存威胁面前——一种与通常所说的“生存威胁”根本上截然不同的理解,一对原住民伴侣,彼得-卢卡斯·琼斯(Peter-Lucas Jones)和凯奥尼·马赫洛纳(Keoni Mahelona),首次将AI视为一种可能的工具,来助力新一代的语言使用者为毛利语注入活力。琼斯是毛利人,马赫洛纳则是夏威夷原住民,他们既是工作上的伙伴,也是生活中的伴侣。马赫洛纳说,他们相遇并坠入爱河,缘于其做过的一个梦:如果他搬到新西兰,就会遇到一个毛利族男孩,并与之共度一生。
2012年,两人从惠灵顿搬回了琼斯出生的小镇——位于新西兰北部的凯塔亚镇。琼斯成为TeHiku传媒的CEO,那是一家用毛利语演播的公共广播电台,隶属于一个更广泛的致力于毛利语复兴的媒体及其他组织网络。在新职位上,琼斯发现了一个机会。在20多年的广播历史中,TeHiku积累了大量人们说毛利语的音频存档,其中就包括他祖母赖哈·莫罗亚(Raiha Moeroa)的录音。祖母出生于19世纪末,口音尚未受殖民者英语的影响而走样。琼斯还怀揣着一个志向,就是在毛利长者们离世前,为他们录制更多访谈,以记录他们口述的历史和原汁原味的毛利语。在琼斯看来,这些录音可以成为珍贵的语言学习资源,能让新一代毛利语使用者穿越时空,聆听他们母语的最初的声音,并与祖先的智慧产生联结。
由于精通毛利语的人寥寥无几,将音频转录成文字以帮助求学者深入学习,便成了一大挑战。2016年,正值OpenAI初创之际,琼斯便向正在改版TeHiku网站的马赫洛纳寻求解决方案。马赫洛纳是个博学多才的人,曾在奥林工程学院学习机械工程,第一次攻读硕士学位时主修商业管理,第二次则作为新西兰的富布赖特学者,主修物理学与计算纳米技术。他很快便想出了利用AI的办法:精心训练一个毛利语语音识别模型,这样TeHiku只需少数几位使用者就能对其音频资料库进行转录。
这正是TeHiku的故事与OpenAI及硅谷AI开发模式的截然不同之处。由于深知殖民掠夺所带来的毁灭性影响,琼斯和马赫洛纳下定决心,只有在开发过程的每一阶段都能确保三件事——知情同意、互惠互利以及毛利人的自主权——的前提下,才会推进该项目。这意味着,甚至在项目启动前,他们就会先征得毛利族群及其长老的许可,询问他们是否真心希望开展这项工作;收集训练数据时,他们只会向那些充分了解数据用途并自愿参与的人征集数据;为使模型发挥最大效益,他们会倾听族群意见,了解哪种语言学习资源最为实用;而一旦有了这些资源,他们还会购置本地英伟达GPU和服务器来训练模型,避免依赖任何科技巨头的云端服务。
最为关键的是,TeHiku将建立一套机制,确保所收集的数据能持续为未来造福,但绝不会被挪用于未经族群同意、可能剥削或伤害他们,或以其他方式侵犯其权利的项目。基于毛利人的“kaitiakitanga”(守护者精神)原则,这些数据将由TeHiku负责保管,而非随意发布到网上;此后,TeHiku只会将数据授权给那些尊重毛利价值观,并打算将其用于族群认可且认为有益的项目的组织。
“数据是殖民统治的最后一块疆土。”马赫洛纳告诉我,昔日的帝国从原住民群体手中掠夺土地,而后,如果原住民们想要重新获得土地所有权,便会被迫以新的限制性条款和服务将其买回。“AI不过是又一次土地掠夺。大型科技公司喜欢近乎无偿地收集你的数据——用以构建它们想打造的任何东西,无论其最终目的是什么——然后转手将它作为一项服务再卖回给你。”
从始至终,琼斯和马赫洛纳都未对项目作出任何妥协。其间,他们发起了一场教育活动,旨在向更多毛利人普及AI知识,还举办了一场社区竞赛,以众包方式征集数据捐赠与标注。短短十天内,TeHiku便从约2500人提供的近20万条录音中,收集到了310小时的高质量转录音频。这种参与度对众多AI研究者而言属于闻所未闻,它充分证明了TeHiku的方法在其社区内激发了何等的信任与热情。一旦人们理解并同意该项目,且完全信任TeHiku会继续对这些数据进行妥善管理,他们便非常乐意捐赠自己的数据。

《AI帝国:OpenAI的权力冲突与人类的未来》
[美]郝珂灵(Karen Hao) 著
浙江人民出版社·之江文化 2026年4月
举报 文章作者
郝珂灵
经济人的人文素养阅读 相关阅读
AI周报 | OpenAI砸40亿美元成立新公司;谷歌宣布AI硬件“全家桶”ChatGPT网页端流量份额跌至53.7%;“最大AI芯片”公司上市首日涨68%。
6345 05-17 10:23
OpenAI新动作!砸40亿美元成立新公司,不卷模型卷落地AI “最后一公里”之战。
27673 05-12 13:57
营收放缓影响算力扩张?OpenAI发文称算力建设已超最初目标仅在过去90天就增加了超过3GW的数据中心容量。
9 651 04-30 10:01OpenAI未能完成内部目标,令投资者感到不安。
5 2712 04-29 07:50
AI概念股重挫,纳指跌近1%,英伟达跌1.63%,软银狂泻12%,国际油价连续七天走高人工智能概念股集体走低比较好的股票平台。
6 2655 04-29 07:02 一财最热 点击关闭文章为作者独立观点,不代表中国股票配资网_股票配资网_实盘配资排行榜观点