而且我第一次看这个作品,感觉信息时代非权威部门去编词典就是相当没用的事情,不过日语可能特殊之处我不懂吧 剧中的手工筛选不是把词卡和另外三本词典对比,看这个词卡上的词语是否被收录到另外三本词典里嘛…
另外三本词典明显都是纸质版,所以才需要手工筛选,最后输入电脑的。
而片子里也交代了,词卡放在另外一个屋子里整整一个屋子,所以才需要10年吧。 电影版最开始90年代时候,录入词时候就是用电脑,界面跟动画有点像,可能是早期版本的Excel.
而他们手动查找更有可能是没有那几本词典的电子版 Hint 发表于 2016-10-29 16:44
电影版最开始90年代时候,录入词时候就是用电脑,界面跟动画有点像,可能是早期版本的Excel.
而他们手动查 ...
全部录入电脑再筛选也不用10年吧…… 最该吐槽的不该是就那么几个人编什么词典吗 uitj58 发表于 2016-10-30 11:06
最该吐槽的不该是就那么几个人编什么词典吗
http://www.cq.xinhuanet.com/2015-12/25/c_1117576720.htm 本帖最后由 wardenlym 于 2016-10-31 15:24 编辑
恕我直言,这社会文职类充满案牍机械操作的八成职位,在有能力者心中,除了避免失业过多之外值不值得存在,都要打一个问号
对大量数据的操作和对效率的理解,有能力者,跟无能力者说是两个物种也不为过
这编字典里面对低效重复劳作的莫名推崇属于日本文青的一种病,扔掉脑子看情怀吧
另外你这贴不如发外野更精彩
编纂大渡海花了15年,刚开始立项的时候估计也就是90年左右,“IT”这个词还只是刚刚开始流行开来,马缔连电脑都不怎么会用,超能力者们是不是以为地球一诞生就有现在这些好用的编程语言的
我仔细又看了一眼
什么?这里是漫区不是外野? 本帖最后由 伊迪潘喵森 于 2016-10-31 17:51 编辑
手动录入,手动把词汇进行分隔然后编程是LV3,OCR录入,手动把词汇分隔是LV4,OCR录入,写一套自然语言处理程序分隔词汇是LV5,LV6是把要做词典的人都杀了。 icewolf01 发表于 2016-10-31 17:17
编纂大渡海花了15年,刚开始立项的时候估计也就是90年左右,“IT”这个词还只是刚刚开始流行开来,马缔连电 ...
计算词汇出现频率当然是个计算问题,不知道IT也知道世界上有计算机吧……90年代手动查找花10年时间不是电脑不会用,是zz………… 三本纸质字典归并成一本电子版?
字典内容录入的过程已经算是完成这个任务了,毕竟是人力嘛,前后翻翻就行了
靠计算机反而麻烦,先搞个程序根据每个词字母排列算个索引值,三个有序数组归并,时间复杂度o(所有词),加个计数
伊迪潘喵森 发表于 2016-10-31 17:49
计算词汇出现频率当然是个计算问题,不知道IT也知道世界上有计算机吧……90年代手动查找花10年时间不是电 ...
所以,那阵子有现在这种大数据量源及统计吗?OCR日语识别的准确率在什么水平?那几本辞典有格式规范容易查询的电子版吗?Excel 5—95时代对函数和vba支持得怎样?
当然另一方面,我也觉得上面那篇文里老人家说什么电子版分散注意力其实都是习惯问题;将来电子纸媒介成熟和普及后情况自然会大幅改善;说到底辞典的形式已经在逐步转变了。 pgain2004 发表于 2016-10-31 21:11
所以,那阵子有现在这种大数据量源及统计吗?OCR日语识别的准确率在什么水平?那几本辞典有格式规范容易 ...
OCR都是开玩笑了啊,这种东西要干十年肯定是连续翻三本字典找一个词的方式查找太费时间,记录每个词汇出现与否做成纸片记录出现次数又没那么多纸片,纸片又难查找。
第二种就是就是找到一个词对应的内存就+1好了,最多3只有两bit,它比第一种快,人类因为没地方存做不到而已,有芯片的话最简陋的拿个单片机写磁带都能解决,像n年前那种汉语词典的四角码一样找个hash函数…… wardenlym 发表于 2016-10-31 15:15
恕我直言,这社会文职类充满案牍机械操作的八成职位,在有能力者心中,除了避免失业过多之外值不值得存在, ...
你这是用当下人的思想去套过去的故事了,世纪初的超能力者不会去编字典吧。 eidos 发表于 2016-11-1 09:35
以为编词典只要从别的词典里查一下直接抄就行的才是真zz
…………看成计数花了十年了,你说的有道理,我的确是zz 只看过电影版,不过开始编词典的时候不是1995年吗,那时候的office不见得有现在这么方便吧
而且编词典这些只是准备工作吧,电影给我的感觉筛选词条和校对才是大头,录入什么的不会占用太多时间吧
编词典应该不是找几本已有词典拼一拼就完事的,何况又是大渡海
不过想想当时office也出现了快有10年了(从Mac时代算起),也不好说功能就没有
页:
[1]