分词器-新闻调查｜从GPT-4o看人工智能竞争的走向和挑战

斯坦福大学今年4月发布的人工智能指数报告称，2023年，著名人工智能模型中有61个源自美国，中国则有15个。业内人士指出，中美是全球人工智能发展的“领头羊”，展现出了不同的发展趋势和战略重点。美国在高端芯片制造、基础研究和技术创新上优势明显；而中国拥有庞大的互联网用户基数，提供了丰富的场景等方面数据资源分词器，这对于训练大模型来说是重要优势。

“大模型的竞赛可以分为几个阶段，第一个阶段是‘卷指标’，在参数和指标的提升中重点关注性能问题，但这也造成了目前的一个行业通病问题——大模型性能和应用严重分离，也就是大家所讨论的‘拿着锤子找钉子’的问题。因此，发展至第二个阶段‘卷场景和体验’，成为一种必然。”陶明说。

上海市数据科学重点实验室主任肖仰华在接受新华社记者采访时指出分词器，应该看到这一轮竞争中应用场景的重要性。中国企业可以先从应用层面切入，反哺和推动基础模型性能提升。

在谈到数据问题时，肖仰华说，GPT等大模型仍然是主要基于互联网通用开放语料进行训练。这类通用大模型一旦用于千行百业，可能存在领域知识匮乏的根本性问题，从而限制了大模型在具体领域的价值发挥。

零一万物公司模型训练负责人黄文灏表示，他看到GPT-4o更新了分词器的词表，但其中和中文相关的词元质量还是没跟上。他认为这可能是由于他们缺乏高质量的中文语料，这对中国企业是一个机会。“国内的工程师可以更沉下心来对数据进行研究、分析，将数据质量做到非常高的水平。”

面临能源、安全等诸多挑战

能源成为人工智能发展中的重要问题。有研究显示，每日约消耗超过50万度电，相当于一个美国家庭每天平均用电量的1.7万倍。美国“元”公司首席执行官扎克伯格、首席执行官奥尔特曼等人今年在不同场合都强调了能源在人工智能下一步发展中的关键作用。微软、、谷歌、亚马逊等企业纷纷通过直接入股核电或向核电公司购买电力等方式，加强能源供应。

中国云基础设施服务提供商中联数据集团副总裁马超日前接受新华社记者采访时也表示，算力和大数据产业对能源的需求快速增加，产业竞争日益重视能源。

伦理相关问题也一直是公众不安全感的来源。GPT-4o使用了高度类似好莱坞女星斯嘉丽·约翰逊声音的语音，但未获她授权。对此约翰逊发文表示：“在这个我们都在努力应对深度伪造，保护自身形象、作品和身份的时代，我期待通过透明度和立法来解决这些问题，确保个人权利得到保护。”

此外有不少人担忧，人工智能发展过速可能会对人类构成威胁。去年底，首届全球人工智能安全峰会在英国召开。美国、英国、欧盟、中国等多方代表就人工智能技术带来的风险与机遇展开讨论，推动形成具有广泛共识的人工智能治理框架。

此前，在去年10月，中方提出《全球人工智能治理倡议》，主张人工智能治理应确保有益、确保安全、确保公平。（参与记者：张紫赟、梁晓飞、汪海月、孙蕾、双瑞）（完）

限时特惠:本站持续每日更新海量各大内部创业课程，一年会员仅需要98元，全站资源免费下载
点击查看详情

站长微信:Jiucxh

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。