[非官方]S1漫区2018年度热词诞生了
本帖最后由 zhDesire 于 2019-1-4 17:34 编辑前情提要:[讨论] 从侧面反映出b站真是烂到家了——2018年度弹幕
---------------------------------------------2019.01.04更新---------------------------------------------排名|词|次数|详细
1.b站:4899次(b站:3540 bilibili:2418 批哩批哩:2 哔哩哔哩:162 逼站:70 阿b:42 批站:112 睿站:182 后花园:120 逸站:99 )-www.bilibili.com(www.bilibili.com:1848 );
2.国家队:4602次(国家队:3002 蝈家队:16 蝈蝈:480 darling:405 ditf:673 dift:23 情迷弗兰西西:3 );
3.泥潭:4199次(泥潭:4098 你谭:12 你坛:89 );
4.屎:3112次(屎:3112 );
5.百合:2889次(百合:2889 );6.莓:2544次(莓:2544 );
7.崩:2513次(崩:2513 );
8.翻译:2136次(翻译:2136 );
9.机战:1950次(机战:683 萝卜:1267 );
10.挺好:1903次(挺好:1903 );
11.锦织:1876次(锦织:1549 jzgg:327 );
12.真实:1820次(真实:1820 );
13.京都:1569次(京都:987 京阿尼:272 鋈:78 kyoani:4 你京:174 我京:46 他京:8 );
14.弹幕:1459次(弹幕:1459 );
15.有意思:1453次(有意思:1453 );
16.low:1449次(low:1449 );
17.肥宅:1434次(肥宅:1434 );
18.本子:1310次(本子:1310 );
19.扭曲:1179次(扭曲:1179 );
20.京紫:1154次(京紫:1124 紫罗兰永恒花园:30 );
*去除了此前更新中部分存在重复的结果
**由于是基于字符匹配,部分结果无法精确统计
比如02(02:7256 zero two:10 泽拉图:93 灵儿:130 ):7489次;显然是由于很多超链接中存在"02"而存在水分,故不列入统计范围
***候选词是人工添加的,可能存在遗漏,欢迎大家补充词汇,我来统计之后更新上去
附1:其他大家感兴趣但没有排名的词汇
楼层数|词|出现次数
2#|b小将(b小将:76 批小将:36 ):112次;版权方:75次; 陈睿:35次;
3#|死宅:520 老宅:78 新宅:26 宅宅:179 宅心:20 婆罗门:1095
7#|偶像大尸(偶像大尸:41 腐烂臭臭:3 佐贺:192 zombie land saga:2 zls:46 ):284次;
a站(a站:489 acfun:125 缺b乐:6 a岛:41):661次;
12#|白河豚(白河豚:134 百合豚:160 百合厨:100 ):394次;
18#|粪海狂蛆:95次
21#|无能狂怒(无能狂怒:80 无能狂吠:0 ):80次;
26#|真香:214次
45#|露营:688次
53#|粪:562次;
58#|败犬:608次;
62#|扳机(扳机:492 trigger:138 脱力嘎:5 ):635次;
66#|种命万能(种命万能:88 种万能:5 ):93次;
67#|群像(群像:312 ):312次;
73#|性癖(性癖:272 ):272次;巨乳(巨乳:247 ):247次;黑丝(黑丝:167 ):167次;御姐(御姐:162 ):162次;
76#|冈妈(冈妈:530 冈田:274 ):804次; 大河内(大河内:432 ):432次
77#|心满(心满:700 ):700次;霸权(霸权:246 ):246次;
86#|女士(女士:304 ):304次;露女士(露女士:89 露崎:37 闹钟:50 ):176次;
90#|六学(六学:11 合拍:49 开花:44 ):104次;
102#|吹爆(吹爆:684 ):684次;
动画公司相关见106楼;
108#|华语第X(华语第:254 ):254次;
附2:大家可能想问的词汇
萝莉(萝莉:879 loli:259 ):1138次;
南极(南极:1068 比宇宙更远的地方:40 ):1108次;
老婆(老婆:1083 ):1083次;
jk(jk:743 女高中生:98 ):841次;
书记(书记:714 孟德尔:14 md2:52 ):780次;屁股(屁股:561 ):561次;
古立特(古立特:99 古利特:195 ssss:81 gridman:63 ):438次;
沙雕(沙雕:342 傻吊:94 ):436次;
妊娠(妊娠:91 怀孕:344 ):435次;
知乎(知乎:362 b乎:18 逼乎:33 ):413次;
萌豚(萌豚:377 ):377次;
少女歌剧(少女歌剧:171 少歌:199 ):370次;
工具人(工具人:368 ):368次;
吃屎(吃屎:364 ):364次;
PTSD(PTSD:349 ):349次;
蕉哥哥(蕉哥哥:133 大场奈奈:5 banana:109 bananice:23 ):270次;
恋哥哥(恋哥哥:51 华恋:210 karen:9 ):270次;
翻车(翻车:257 ):257次;
怒涛展开(怒涛展开:143 ):143次;
老害(老害:115 ):115次;
复读(复读:103 ):103次;
惨案(惨案:22 ):22次;
awsl(awsl:15 ):15次;
---------------------------------------------原帖---------------------------------------------
前段时间b站搞了个年度弹幕让大家吵得谁也看不起谁,那么这一年来统治着S1漫区的热词又是哪些呢?
个人觉得主观臆断不可取,所以这两天放假用java写了个程序自动扒网页来统计,目前已经初步完成了。
现在还差些什么呢——潜在热词!
本来我是想用自动分词工具做的,但一来自己没用过,二来感觉效果可能不尽如人意。所以需要人工添加可能是热词的词汇,然后让程序去统计它们这一年来在漫区出现的次数,看看哪一个才是真正的年度热词!
目前需要大家给我一些潜在热词的建议,我把它们添加到统计词典里去。
---------------------------------------------18.12.31更新---------------------------------------------
好消息!目前已经把论坛近一年内有回复的帖子都搜罗完毕了!
今天早上发现之前写的程序逻辑有重大错误,每五个帖子只保存了一个,所以第一天小规模试验的结论是错误的!
在改正了程序,加上异常处理机制后再也不怕网络波动和机器人识别了,跑了一天就把需要的网页爬完了。
今天的小规模试验是扳机(trigger 脱力嘎)大战京阿尼(京都 kyoani),搜索范围为一年内的帖子,不区分大小写。
不啰嗦,直接上图:
https://i.loli.net/2018/12/31/5c2a2eaa013e7.png
京阿尼(2780)倍杀扳机(1258)还绰绰有余!所以钓鱼侠以后还是多炸炸粳米吧,效果比钓扳机厨更好。
明后天我把所有的统计词设置好,就能统计出最终的热词了。
---------------------------------------------18.12.30更新2--------------------------------------------
看了一下回复,都是很好的提议,平台 作品 角色 staff这些词都会去统计的
主要是一些漫区特色词汇(比如:婆罗门 白河豚)和相同语义的不同表达(像7#说的A站和缺B乐这种),我可能没法想得很全
希望大家帮忙钦点一下
---------------------------------------------18.12.30更新1--------------------------------------------
先小规模试验了一下:
随便选了几个统计词:国家队 蝈蝈 百合 舒服 社保 粪海狂蛆 b站 PTSD
扒了论坛前两页的所有帖子和其中的回复,然后运行——
https://i.loli.net/2018/12/30/5c27b14131c9f.png
b站后花园坐实了!独占64次!
因为扒网页的耗时巨大,平均一个页面要3秒钟,一年的页面预计扒至少要三天三夜,所以后续更新还得拖一会。
以及目前已知存在的缺陷:
1.当连续两页的首个回复都有相同的引用时,程序会误判为已读取到当前主题的最后一页;
2.提取部分主题里的用户回复时出现了下标越界,原因未知;
3.整个统计过程中疑似还发生了除上述bug之外的遗漏;
4.权限楼无法统计。
但在巨大样本的面前,这些问题对热词占比影响不大,暂不考虑。
插眼等更新,想看看高贵的婆罗门们的高贵的词典里什么词用的多,补充推荐词批站、陈睿、批小将、版权方、翻译、弹幕 肥宅 死宅 老宅 新宅 宅宅 宅心 婆罗门 有点意思 技术力强大
期待最终结果,先马上了
发自我的iPhone via Saralin 2.1.3
我干过类似的事,不分词统计所有n-gram的概率。难点在于找一个词频对照组,否则词频最高的肯定是“的”。
你这样手动添加词典,会不会给人一种钦点的感觉? 建议按作品或者平台合票防止分票漏票,比如蝈蝈 国家队 ditf/b站 阿b 睿站 逸站 后花园/偶像大尸 腐烂臭臭 zls/缺b乐 a站/271 爱奇艺 或者干脆按 平台 作品 角色 staff 等分类分别统计热度 汉语是怎么做热词统计的?我一直以为只有像英语那样用空格来分词的语言才能做word count
----发送自 samsung SM-C7010,Android 8.0.0 华语第一百合论坛实锤 百合有很多同义词吧,建议把河豚、白河等考虑上 plusSharp 发表于 2018-12-30 08:45
汉语是怎么做热词统计的?我一直以为只有像英语那样用空格来分词的语言才能做word count
----发送自 samsu ...
楼主没用到分词,只能统计指词的出现次数。
中文分词有很多方案,发一个我用过的给你参考。https://github.com/fxsjy/jieba compass01 发表于 2018-12-30 06:03
我干过类似的事,不分词统计所有n-gram的概率。难点在于找一个词频对照组,否则词频最高的肯定是“的”。
...
我尽量统计得全面些吧 气流季里 发表于 2018-12-30 10:44
楼主没用到分词,只能统计指词的出现次数。
中文分词有很多方案,发一个我用过的给你参考。https://githu ...
谢谢,word count还是我在学校初学hadoop的时候接触的,我只是单纯好奇汉语能否分词而不是真的要做这方面的工作 看了一下回复,都是很好的提议,平台 作品 角色 staff这些词都会去统计的
主要是一些漫区特色词汇(比如:婆罗门 白河豚)和相同语义的不同表达(像7#说的A站和缺B乐这种),我可能没法想得很全
希望大家帮忙钦点一下 plusSharp 发表于 2018-12-30 08:45
汉语是怎么做热词统计的?我一直以为只有像英语那样用空格来分词的语言才能做word count
----发送自 samsu ...
这有个博客介绍得挺好的
自然语言处理入门(4)——中文分词原理及分词工具介绍https://blog.csdn.net/flysky1991/article/details/73948971 本帖最后由 若荼泱 于 2018-12-30 15:55 编辑
爱斯衣人均程序猿
也提点几个吧。
扭曲
粪海狂蛆
再有想到再补充
—— 来自 Google Pixel, Android 9上的 S1Next-鹅版 v2.1.1-alpha 所以说S1服务器负担大不是没有原因的 Tauta 发表于 2018-12-31 09:22
所以说S1服务器负担大不是没有原因的
说到负担大,最明显的时候应该是上半年的每周六晚上十点半之后吧
我做的是个单线程爬虫,对论坛的正常使用几乎没有影响。您回复我的时候爬虫也在爬呢。
而且据我观察,S1服务器是有机器人拦截机制的,具体触发方式不明。一旦触发,你的ip地址会被禁止访问S1几分钟。 肯定b站榜首
建议加个无能狂吠/无能狂怒 其实可以建个群,找几个人一起统计
这个玩意技术不难统计最烦 凉宫春R 发表于 2018-12-31 09:44
其实可以建个群,找几个人一起统计
这个玩意技术不难统计最烦
不好意思麻烦大家,一个人做其实也差不太多 超能力牛逼 好评啊!!! 楼主加油感觉可以把b站的那几个真香、真实之类的加上,看看婆罗门和批小将的重合度 蹲一下,楼主加油!
(想有空用python写一个)
-- 来自 能看大图的 Stage1官方 iOS客户端 弄好了 本帖最后由 遍体精淋af 于 2019-1-3 21:15 编辑
看出来了,华语第一b站后花园、撕蝈衣、白河豚论坛 热词前11有10个都不是泥潭正声望的 泥潭真是不愧是扭曲论坛 怎么看泥潭也不像百合豚论坛啊
那么肯定就是迫害白河豚论坛了 我寻思要不叫噼哩噼哩论坛好了 新吾 发表于 2019-1-3 21:26
我平时常用的逸站居然没有算进去
补充了 说实话不能智能区分钓鱼和正常讨论是很可惜的