找回密码
 立即注册
查看: 2010|回复: 3

[求助] 这个翻译是怎么回事?

[复制链接]
     
发表于 2022-7-5 14:38 | 显示全部楼层 |阅读模式
刚刚看推上某个作者,结果谷歌自带的中文翻译把他的ID翻成ykw??试了下其他一些ID都不会这样,请问这是什么原理

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2022-7-5 15:30 | 显示全部楼层
有时看别人截图里名字直接是汉字的都能变成另一个,也许那机器的逻辑不是人类可以理解的吧
回复

使用道具 举报

     
发表于 2022-7-5 15:52 | 显示全部楼层
本帖最后由 死线 于 2022-7-5 16:03 编辑

摘录一下随便乱买却没看的书的前言


1. 1. 2  早期的探索
    计算机刚一诞生,人们就开始着手研究用它来解析人类的自然语言。这一需求不仅源于科学家的个人兴趣,而且具有重要的战略意义:20 世纪50 年代开始,大家都意识到以美、苏两国为首的两大政治集团迟早要进入冷战时代。此时,美国就尝试着利用计算机将大量俄语资料自动翻译成英语,以窥探苏联科技的最新发展。虽然当时的计算机还在襁褓之中,但研究者从破译军事密码中得到启示,简单地认为语言之间的差异只不过是对“同一语义”的不同编码而已,从而想当然地采用译码技术解析不同的语言。这就是最早机器翻译理论的思想。
    1954 年1 月7 日,美国乔治敦大学和IBM 公司首先成功地将60 多句俄语自动翻译成英语。当时的系统还非常简单,仅包含6 个语法规则和250 个词。但是,由于媒体的广泛报道,美国政府备受鼓舞,认为这是一个巨大的进步,长期发展将具有重要的战略意义。而实验者声称:在三到五年之内就能够完全解决从一种语言到另一种语言的自动翻译问题。
     当时普遍认为只要制定好各种翻译规则,通过大量规则的堆砌就能完美地实现语言间的自动翻译。1956 年,美国语言学家N. Chomsky 从Shannon 的工作中利用了有限状态马尔科夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了“形式语言理论”(Formal Language Theory)。它为最初的机器翻译工作提供了理论基础。
     经过近十年的努力,机器翻译并未获得本质性的突破。1964年美国科学院成立了语言自动处理咨询委员会(ALPAC),开始了为期两年的综合调查分析和测试。直到1966年年底,委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告)。该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表终结了自然语言处理的第一个时代——机器翻译时代。

1. 1. 3  规则派还是统计派
     虽然机器翻译时代结束了,但自然语言处理这一新兴学科(NLP)却没有消亡。时间进入20 世纪七八十年代后,随着经济发展特别是国际市场机制的成熟,国与国之间的语言障碍越来越成为更深层次国际交流的壁垒。传统的人工作业方式已经不能满足需求,这就需要一种自动机器来取代人工。同时,计算机硬件技术大幅度提高,使中等规模的语料(百万级)处理成为可能。经过十多年的发展,自然语言处理逐渐作为人工智能的一个独立领域而发展起来,此时的自然语言处理也分为两种不同的派别。
    一种是以语言学理论为基础,根据语言学家对语言现象的认识,采用规则形式描述或解释歧义行为或歧义特性,称为规则派。规则派的方法通常是基于乔姆斯基的语言理论的。它通过语言所必须遵守的一系列原则来描述语言,以此来判断一个句子是正确的(遵循语言原则)还是错误的(违反语言原则)。规则派首先要对大量的语言现象进行研究,归纳出一系列的语言规则。然后再形成一套复杂的规则集——语言分析或生成系统,对自然语言进行分析处理。(人为总结规则)
    另一种是以基于语料库的统计分析为基础的经验主义方法,也称为统计派,该方法更注重用数学,从能代表自然语言规律的大规模真实文本中发现知识,抽取语言现象或统计规律。统计派来源于多种数学基础,包括通香农(Shannon)的信息论、最优化方法、概率图模型、神经网络、深度学习等。它将语言事件赋予概率,作为其可信度,由此来判断某个语言现象是常见的还是罕见的。统计派的方偏重于对语料库中人们实际使用的普通语言现象的统计表述。统计方法是语料库语言学研究的主要内容。(让机器自己通过现实文本去归纳总结)
    两派曾经一度相执不下。这里不考虑两派之间孰是孰非,而是希望通过一个著名的实验给大家一点启示,这个实验就是著名的约翰·赛尔的中文屋子实验。一个对中文一窍不通的、以英语为母语的人被关闭在一间只有两个通口的封闭屋子中。屋子里有一本用英文写成、从形式上说明中文文字句法和文法组合规则的手册及一大堆中文符号。屋子外的人不断向屋子内递进用中文写成的问题。屋子内的人便按照手册的说明,将中文符号组合成对问题的解答,并将答案递出屋子。
    约翰· 塞尔认为,尽管屋子里的人甚至可以做到以假乱真,让屋子外的人以为他是中文的母语用户,然而,他压根就不懂中文。而在上述过程中,屋子外的人所扮演的角色相当于程序员,屋子中的人相当于计算机,而那本手册则相当于计算机程序。正如屋子中的人不可能通过手册理解中文一样,计算机也不可能通过程序来获得对自然语言(中文)的理解能力。塞尔由此得出结论:图灵测试中机器根本不理解回答的问题,机器根本没有思考,机器也没有智能。(来自网络文摘)
    塞尔的中文屋测试本来是针对图灵测试的一个反驳意见,但它所揭示的意义是深刻的。当时所谓的人工智能,特别是对自然语言处理领域的主要任务,不过是使用机器来解析人类的语言符号,将其转换为机器能够处理的形式和结构,在机器内部按照人们已经设定好的逻辑进行处理,最后将处理的结果再转码为人类理解的形式,传输给人类。这与大多数非智能的计算机程序没有本质的不同。
    的确,计算机几十年的发展,绝大多数程序不都是这样吗?即便像操作系统这样高度复杂的软件,也不能说其中的哪段代码能够自主地识别设备、完成请求任务;或者为任务的执行提出合理性或哪怕看起来稍微有点自发的智能行为。所谓智能不过是程序人员对程序执行的某种预先的设定,所有看起来智能的行为都是在确定性条件下的一条执行路径。
    难道,研究就停留在这里了吗?想要突破这一点确实是很艰难的。但是,科学家的脚步并没有就此停止。之后人们终于把视野从确定性的问题开始转向随机性问题,实践上从单纯的指令系统转向研究人类大脑的机制——认知科学。古人云:知人者智,自知者明。在科学探索的艰辛道路上,智慧是一种较低层次的能力,而自省才具有更高级的境界。

1. 1. 4  从机器学习到认知计算
    进入20 世纪90 年代,世界经济从国际化逐渐走向了一体化的进程,随着互联网的普遍应用,国际社会之间的交流越来越频繁。人们足不出户即可通过互联网了解世界上发生的大事及形形色色的生活。这种交流不仅出现在政治、经济上,还渗透到人们的日常生活之中。中文互联网搜索引擎的基础语言构件就是中文分词。没有大规模、高精度的分词,很难想象能够实现精准的中文搜索。NLP 技术不再是实验室中易碎的花瓶,而是登堂入室地走进了千家万户。
    伴随着这些突破的是一系列新方法(算法体系)的出现,它们被统称为“机器学习”。这些方法大多都以神经元和大脑的工作原理为理论基础,模拟人类的认知行为而发展起来。人们发现这些程序不是编程编出来的而是训练出来的,经过二三十年,机器学习在处理多维、非线性问题方面取得了精确而稳定的效果。例如,在大规模语料上的中文分词、词性标注问题的解决,使中文信息检索和文本挖掘成为可能。因为大多数的机器学习方法都以统计学为基础,毫无疑问,统计派占了上风。
    时间进入21 世纪,终于在2006 年,以Hinton 为首的几位科学家历经近20 年的努力,终于成功设计了第一个多层神经网络算法,因其通过多层架构实现了抽象认知的学习能力,Hinton 将其命名为“深度学习”。
    深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次的、更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。(选自《深度学习- LeCun、Bengio 和Hinton 的联合综述》)
    在多年的实验中,人们发现了认知的两个重要机制:一个是抽象,另一个是迭代。从原始信号,做低层抽象,逐渐向高层抽象迭代,在迭代中抽象出更高层的模式。这是认知的生物学原理。目前来看,深度学习在解决机器视觉和语音识别方面都获得了非常好的效果,相关的技术都已经商业化。所以,人们评价,通过深度学习理论及算法,人类终于找到了如何处理“抽象概念”这个亘古难题的方法。作为认知计算的重要起点,深度学习的递归神经网络在自然语言处理方面同样获得了成功。虽然在中文领域离商业化还有距离,但是这个距离应该不会太远。——————————《NLP汉语自然语言处理原理与实践》



也就是说弄不好网络隐语污染了机器学习的认知……


回复

使用道具 举报

     
发表于 2022-7-5 17:16 来自手机 | 显示全部楼层
这个是用恋活做小视频的吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-5-14 11:53 , Processed in 0.025931 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表