找回密码
 立即注册
搜索
查看: 6689|回复: 67

[科技] 问一个纯粹的技术(学术?)问题,可以直接从数据得到因果吗?

[复制链接]
     
发表于 2025-7-21 11:02 来自手机 | 显示全部楼层 |阅读模式
还是那篇高速公路的论文的延伸,其中一部分给论文洗白的人,应该是作者同行或者说经济学的学生,他们非常鄙视评论区里“相关性不等于因果性”的言论,表示评论区的质疑都非常外行所以无法交流,但是没有说为什么。

(应该是同行,因为好多人都会使用econ这个缩写来简称经济学,比如“econ研究就是如此”之类的。)

所以我的问题是:

1. 是那篇论文使用的数学工具可以直接从数据分析获取事物的因果性,所以作者不仅证明了相关性也证明了因果性,所以同行才会这么说?那我很好奇从数学原理上是怎么做到的?

2. 是因为实际上经济学或者说这篇论文所属的领域不关心事物的因果性,只需要得到相关性就可以对实际生产生活提出指导意见然后发表论文了?如果是这样的话我不太能理解……

3. 是同行嘴硬胡言乱语?那就没意思了。

评分

参与人数 1战斗力 +2 收起 理由
浪の闻雨 + 2 有意义的问题值得鼓励

查看全部评分

回复

使用道具 举报

     
发表于 2025-7-21 11:34 | 显示全部楼层

不是很懂,但是似乎是有两种方向,我不清楚这两种方向学术上应该叫什么,纯抛砖
第一种几乎不依赖事实观察,以公理出发,纯符号推理得出新的公理或结论,e.g. 数学/计算机
第二种依赖,从观察到的事实出发,建立对事实的解释模型,如果这个模型符合逻辑且具有说服力,就可以认为它是"对的" e.g. 进化论/社会理论


理論(英語:theory),又稱學說或學說理論,指人類對自然、社會現象,按照已有的實證知識、經驗、事實、法則、認知以及經過驗證的假說,經由一般化與演繹推理等等的方法,進行合乎邏輯的推論性總結
接近科学的学说是科学的,反之则是违背科学的或者说伪科学;任何自然科学的产生,源自对自然现象观察。 人類藉由觀察實際存在的現象或邏輯推論,而得到某種學說。任何學說在未經社會實踐或科學試驗證明以前,只能屬於假說。如果假說能藉由大量可重現的觀察與實驗而驗證,並為眾多科學家認定,這項假說就可被稱為科学理論。


评分

参与人数 1战斗力 +2 收起 理由
浪の闻雨 + 2

查看全部评分

回复

使用道具 举报

     
发表于 2025-7-21 11:37 | 显示全部楼层
生产端故意使坏的话,约定数据规模,总能凹出例外来
回复

使用道具 举报

     
发表于 2025-7-21 11:39 | 显示全部楼层
本帖最后由 7uly 于 2025-7-22 08:43 编辑

因为经济学领域的研究根本就不可能达到正常人眼里证明因果性的标准,所以只能小圈子自己定自己的标准,然后用“你们是外行”来堵嘴。明明研究方式不科学,还硬要假装科学就是这样的。

具体说的话,其实需要科普一下到底什么是科学,以及一些简单的哲学概念,尤其是早期科学哲学。

首先要明确一点,因果性和相关性不是非黑即白的事情。这个世界从本质来讲就没有100%这种事情。研究真实世界的科学(物理、化学),都是从具体的例子里总结出理论的,也就是归纳。归纳是不能被认为严格证明的,因为你就算看了一亿个例子没问题,也不说明没有反例,也就是说,如果停留在简单的归纳,你完全可以指责它的理论只是“相关”,而不是“因果”。而这种特性,正是经济学这样的东西碰瓷的基础。实际上不光经济学,很多伪科学也是这么碰瓷的:“大家都是归纳,凭什么你的就是因果,我的就不是?”

那么科学是怎么解决这个问题的呢?至少有以下几个方面

第一、可用于预测实验,一个不能预测未来的结论,只是对过去的解释,无法被检验。尤其过去的例子不够多,那解释的方式就有很多种。

第二、可重复性,光能预测还不够强,要能随时随地任何人都能重复预测,这样才是更强力的“证明”。生物学的很多结论造假频发就是因为重复太困难。美国人登月能力为啥被质疑也是因为不可重复。

第三、承认相对真理,即使有了上面两点,仍然要承认不是严格的证明,随时等待反例的出现。这也是为什么说怀疑精神对科学很重要。另一方面,这也是为什么科学是很实用的东西,因为你知道这不是完美的理论,只要它现在足够好用(可预测性),就够了。

第四、承认科学的边界,这个世界上有很多研究是不可重复、无法用于预测的,典型的例子类似大部分历史研究。这些研究也可以很系统,但完全不可重复,因为历史已经发生了,偶尔也可以有一些预测,但那本质上是“推论”,而不是我们说的预测实验。这些“非科学”的研究也是很有价值的,但确实是不同的。这些研究和“伪科学”也不一样。

经济学研究的东施效颦是很好笑的事情,阿尔钦张五常那一派还想效仿数学给经济学搞出一个“公理系统”来证明经济学是科学的,就很好笑。学了个形式但最基本的科学精神反而被扔掉了。

评分

参与人数 6战斗力 +7 收起 理由
斯卡文分则能成 + 1 好评加鹅
浪の闻雨 + 2 好评加鹅
Hao123 + 1 好评加鹅
川尻松子 + 1 好评加鹅
路人丙丁 + 1 好评加鹅
宵待草 + 1

查看全部评分

回复

使用道具 举报

     
发表于 2025-7-21 11:43 | 显示全部楼层
Hydro 发表于 2025-7-21 11:34
不是很懂,但是似乎是有两种方向,我不清楚这两种方向学术上应该叫什么,纯抛砖
第一种几乎不依赖事实观察 ...

从更严格的定义上来说,数学是属于“非科学”的。基于公里的现代数学,除了公里不言自明之外,其他理论是可以严格证明的。

数学能被应用在物理上,其实是一个很奇妙的事情。
回复

使用道具 举报

     
发表于 2025-7-21 11:44 | 显示全部楼层
................把相关性当成因果性,这不就是典型的、标准的、人文社科最爱的、媒体舆论最喜欢的统计陷阱嘛。能基于如此浅显的谬误进行研究且得出论断的人,非蠢即坏,抑或又蠢又坏,没啥好辩的。
回复

使用道具 举报

     
发表于 2025-7-21 11:46 来自手机 | 显示全部楼层
2+3:是经济学的人数学水平太菜加嘴硬,没法用数学给自己辩只能说别人不懂

做理科的结果是相关性还是因果性都会写得很清楚的,就做个相关性分析写个cause xxx可能是怕审稿人太温柔了吧。纯数据得到因果性是对数据本身有很多要求与假设的,他搞的这个我反正看不出来凭啥是因果
回复

使用道具 举报

     
发表于 2025-7-21 11:46 来自手机 | 显示全部楼层
这就是为什么人文社科让人瞧不起
回复

使用道具 举报

头像被屏蔽
发表于 2025-7-21 11:47 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2025-7-21 12:13 来自手机 | 显示全部楼层
想起悖悖论翻译的一个四格:
-遇到外星人,“人类你们有什么想问的”
“你们的显著性因子也是0.05吗?”
“?nope,是0.02”
“damn,人类科学完蛋了”

—— 来自 Xiaomi 24053PY09C, Android 15, 鹅球 v3.5.99

评分

参与人数 1战斗力 +1 收起 理由
marquez + 1 人类是 5 sigma

查看全部评分

回复

使用道具 举报

     
发表于 2025-7-21 12:15 来自手机 | 显示全部楼层
4l的坛友还是太长了。
这个问题的答案就是,经济学是社会科学,然后社会科学不是科学

—— 来自 samsung SM-S9110, Android 14, 鹅球 v3.5.99
回复

使用道具 举报

     
发表于 2025-7-21 12:25 来自手机 | 显示全部楼层
除去因果之外,指标本身能说明什么都很难说。
就像他用的是宝贝回家网站的数据,在那个网络不发达的年代,能不能上网本身也跟城市的繁荣程度有关,很可能各地公安局接案数量和宝贝回家网站登记数量的比值也和高速公路建设相关。
当年互联网还叫“信息高速公路”呢。
回复

使用道具 举报

     
发表于 2025-7-21 12:27 | 显示全部楼层
巴浦洛夫的狗认为摇铃和食物存在因果关系吗?
回复

使用道具 举报

     
发表于 2025-7-21 12:28 来自手机 | 显示全部楼层
社会现象你只能统计,又不能做实验控制变量来复现。以我的理解,你最多就是知道相关性。

换个角度来说,数据很多时候其实没常人想象的“可靠”,比如说怎么收集,存不存在人为的偏好和引导,存不存在收集的时候不同部分路径不同,存不存在关键隐变量没收集到,这些都能极大程度的影响结论。

说难听点,就算是数据完全准确,如果做实验/统计的人有主观的倾向,那么完全可以想要什么结论就怎么挑选数据,数据都是真的,但是结论完全不对。
回复

使用道具 举报

     
发表于 2025-7-21 12:34 | 显示全部楼层
呼吸和死亡的相关性高达100%,并且这两件事具有严格的时间上的先后顺序,可以严格证明呼吸是死亡的主要原因
回复

使用道具 举报

     
发表于 2025-7-21 12:41 来自手机 | 显示全部楼层
我们人文社科偷模型来搞计量的时候都知道相关性不等于因果性,别造谣啊
回复

使用道具 举报

     
发表于 2025-7-21 12:48 | 显示全部楼层
一般不行,但有些工具理论上是因果性,即便是这样但论文也为了严谨说是相关
比如SEM、qca
回复

使用道具 举报

     
发表于 2025-7-21 13:05 来自手机 | 显示全部楼层
人文社科都是说强相关弱相关的,这里面可操作的大得很
回复

使用道具 举报

发表于 2025-7-21 13:17 | 显示全部楼层
格兰杰(Granger)于 1969 年提出了一种基于“预测”的因果关系(格兰杰因果关系),后经西蒙斯(1972 ,1980)的发展,格兰杰因果检验作为一种计量方法已经被经济学家们普遍接受并广泛使用,尽管在哲学层面上人们对格兰杰因果关系是否是一种“真正”的因果关系还存在很大的争议。
简单来说它通过比较“已知上一时刻所有信息,这一时刻X的概率分布情况”和“已知上一时刻除Y以外的所有信息,这一时刻X的概率分布情况”,来判断Y对X是否存在因果关系。(在发展和简化版本中:“所有信息”这个理论上的过强条件被减弱,比较概率分布这个困难的操作也被减弱)
它的主要使用方式在于以此定义进行假设检验,从而判断X与Y是否存在因果关系。
回复

使用道具 举报

发表于 2025-7-21 13:21 来自手机 | 显示全部楼层
哲学和物理层面上的因果是天坑问题,统计学上楼上提到的granger causality就够了。
回复

使用道具 举报

     
发表于 2025-7-21 13:32 来自手机 | 显示全部楼层
人类目前无法得到因果或者说根本无法证明因果是否存在

评分

参与人数 1战斗力 +1 收起 理由
zing223 + 1

查看全部评分

回复

使用道具 举报

发表于 2025-7-21 13:54 | 显示全部楼层
举例最好用医学
回复

使用道具 举报

     
发表于 2025-7-21 14:10 | 显示全部楼层
首先要理解因果推断在统计上的一大应用一般考虑因是确定的人为的干预,只是想确认这个因是否有所谓的果而已。比如医药相关,为了理解干预是否产生疗效(服药,一些治疗),或者政策相关。一个简单的起始点可以理解做双盲实验但纯粹的双盲相当难控制,而且成本高。还有各种难想到的问题(比如分组发现一组老人多,一组年轻人多,显然对实验结果会产生影响,但如果人有我们并未明确观察和理解到的分组呢? )现代因果推断要基于各种具体问题做修补,想办法处理比如消除无法观测变量影响的问题,以及根本做不了双盲实验的时候那可能出现的更多的问题。这些方法基本最终都会需要依据各种数据和模型假设,对这些方法的信任程度也是看你基于领域了解对这些假设的信任程度(或许有些假设可以通过统计方法检验)。不过我的研究方向并非因果推断相关了解的都是皮毛,以我的自己感觉硬抠各种计量经济学研究,社科的量化实证研究,生物学心理学学术研究里发掘的“因果性”当然能找到从数据假设到具体研究方法的各种各样的怀疑,但目前也很难找到更好的替代想法,相关的统计工具不断开发对认知依然是有价值的。具体结论里做计量经济学(Econometrics)的人里面应该平均数学和统计水平应该是最高的,很多人也能发统计的文章甚至直接读完博去做统计系老师,生物医药相关也有很多统计就业不过利润应该也最高,社科相对来说传出的对统计工具误用的新闻就多一些不过圈子里也有一些自肃的讨论。对学术圈的各种结论大家可以批判性接受,首先媒体转载学术圈结论总是爱搞大新闻地,其次人对观念的更新都是贝叶斯地,基于自己地先验经验和情感也正常不过,但互联网上多了希望大家也保持开放地心态,不要一看到学术研究就批倒批臭。

评分

参与人数 1战斗力 +2 收起 理由
浪の闻雨 + 2

查看全部评分

回复

使用道具 举报

发表于 2025-7-21 15:22 | 显示全部楼层
我偏向贝叶斯公式解释,物理世界不存在100%的因果,可以做实验去验证,实验越多,置信度越接近100%
回复

使用道具 举报

     
发表于 2025-7-21 15:35 来自手机 | 显示全部楼层
这玩意其实相当专业,社科搞问卷调查都是乱搞的。样本量估计、假设检验、分析方法、数据纠偏…… 每一个环节都很复杂。

互联网公司用来做流量实验的因果框架叫反事实因果分析框架,常用的衡量因果关系的指标是 ATT ATU 和 ATE,感兴趣的可以搜下
回复

使用道具 举报

     
 楼主| 发表于 2025-7-21 15:39 来自手机 | 显示全部楼层
qq2007ssy 发表于 2025-7-21 14:10
首先要理解因果推断在统计上的一大应用一般考虑因是确定的人为的干预,只是想确认这个因是否有所谓的果而已 ...

我感觉应该这样理解:

1. “相关性不等于因果性”适用的范围偏向自然科学,尤其是医药相关。经济学语境中的“相关”和“因果”的概念更模糊一些;

2. 经济学同行认为,用“相关性不等于因果性”来批评“高速公路扩建导致儿童拐卖增加”的人,并不了解经济学研究的方法,也不了解经济学中对于相关和因果的定义,所以他们认为这种外行的批评是毫无意义的杂音。
回复

使用道具 举报

     
发表于 2025-7-21 15:50 | 显示全部楼层
孟德尔的豌豆,9,3,3,1
教科书一般的统计学结论吧。
但是,关键是,孟德尔运气很好,找到的对比形状是单一基因控制的。
最简单的,单一的!
回复

使用道具 举报

     
发表于 2025-7-21 15:51 来自手机 | 显示全部楼层
zitan 发表于 2025-7-21 12:34
呼吸和死亡的相关性高达100%,并且这两件事具有严格的时间上的先后顺序,可以严格证明呼吸是死亡的主要原因 ...

呼吸带来氧化,氧化导致死亡,没毛病吧老铁!

但是不呼吸也会带来死亡
回复

使用道具 举报

发表于 2025-7-21 16:00 来自手机 | 显示全部楼层
相关性当然不代表因果,大多数情况就是塞私货,就像前面说的高速公路带来婴儿拐卖一样。
回复

使用道具 举报

     
发表于 2025-7-21 16:10 | 显示全部楼层
可以,单要记住最后的结论以领导/导师/其他重要人员的意见为准
回复

使用道具 举报

     
发表于 2025-7-21 16:12 来自手机 | 显示全部楼层
有两种办法确认因果性。一种叫随机实验,它是可以干预控制变量x的。另一种叫观测性研究,这种数据一般是因为伦理、成本各种因素,无法收集完全,甚至本身含有bias。

检验因果性的黄金标准是大流量的随机实验。观测性研究的结果是非常不准的。经常用的纠偏方法,比如DID DDD,纠偏的过程同样是引入误差的过程,可信度是非常有限的。
回复

使用道具 举报

     
发表于 2025-7-21 16:49 | 显示全部楼层
本帖最后由 qq2007ssy 于 2025-7-21 16:56 编辑
GN-010 发表于 2025-7-21 15:39
我感觉应该这样理解:

1. “相关性不等于因果性”适用的范围偏向自然科学,尤其是医药相关。经济学语境 ...

我之前完全没关注那个论文,看了一下,首先这个属于上面说的已有地政策评估,这个文章干的事其实就是坛友理解的“高速公路扩建导致儿童拐卖增加”,第五章机制部分分析主要原因还是高速公路会使拐卖更有能力远距离移动等,相关经济因素占比较小。


这可能多少就是个为水而水地水文,大家拿自己的主观经验质疑这个结论很合理,但代入一下研究者我反而觉得这样地文章可能更多地比其他did地文章有点意思(指在水文章角度上)。因为更多did文章是在没活硬整,用did去论证一下大家都认同地废话结论。不考虑这个文章论证水平如何,它试图论证地就是排除大家常见能想到地比如高速提振了交通等干扰因素下,”高速是不是由于远程输送能力,相比其他交通方式如高铁安检更不严格,带来了犯罪分子拐卖能力地提升“。不过这个更有趣地程度也就到此为止了,它对现实政策地影响力最大就是增加高速上一些随机身份抽检,显然其影响力甚至没这么大。

它肯定在文章里对一些坛友地常见质疑有所回应,虽然一作是前社会学博士,基本功该做还是做了。但要求一个文章解答所有质疑本身不太可能,是否接受这个结论更多建立在对这套统计方法论地信任程度。要挑瑕疵总能挑的出来,甚至随手就可以用ai挑一些。比如经济条件上升或导致地区对此类拐卖案件地信息上报能力提升,显然这个并没有进入文章地考虑因素。以及机制分析里,拿留守儿童和低技能人群比例两个变量就代表“输入输出‘地经济动因可能很草率。随手去知乎上扒了一个专业挑刺放这里
https://www.zhihu.com/question/1 ... 1929034724229256914
回复

使用道具 举报

     
发表于 2025-7-21 17:12 来自手机 | 显示全部楼层
医学上cohort法如果样本够大说服力够,一般也没什么意见

还有就是,经济学和演化生物学也有些问题是可以计算机模拟的,这样做出来的东西虽然是个很简陋的模型,但结论的因果性没问题,约等于正经物理实验
回复

使用道具 举报

     
发表于 2025-7-21 17:12 来自手机 | 显示全部楼层
批评没问题,相关不代表因果。这对于所有人文社科问题都适用,因为永远不知道社会问题背后本身的数据生成过程是什么,从统计推断的角度来说是永远没办法保证100%因果关系成立的。

问题是,经济学者,他们也知道这一点。于是有了许多学者研究各种不同情况下有没有什么新的统计推断手段能够增加因果关系识别的可靠性。这一点对于经济学非常重要——如果放弃因果关系的识别(尽管理论上来说不可能),我们当然可以只停留在安全地论证相关关系,但在社会事件错综复杂的因素里,仅识别相关关系毫无意义。

所以,All models are wrong, but some are useful。经济学者自然应该意识到哪怕再先进的因果识别工具,都是有局限的。关键在于,这个局限性肯定存在的情况下,能不能通过新的数据新的工具新的设计,将结论的可靠性尽可能增强。就像做置信区间一样,当然可以保证自己估计的参数100%落在区间里,但这个区间可能会大的毫无实践意义;批评所有经济学研究不是100%可靠的因果研究也是一个安全的批评,但没有实践意义。我每次给学生讲计量入门的时候,第一节课一定是强调相关不代表因果,同时不能因为因果识别很难就望而却步。批评“这个结论有内生性问题”总是对的,但是到底是互为因果还是样本选择偏误?这种批评才是积极的,它帮助我们更好地去思考研究的问题。

所以我也能理解部分学者会哈气,单纯“相关肯定不是因果”是个毫无意义的正确批评。但是,现在为了发论文有什么新数据有什么热点就一股脑上,反正过了DiD过了RDD有星星就行,完全不考虑事实逻辑,所以现在也真的是扎实但无趣的研究越来越多了。

评分

参与人数 2战斗力 +3 收起 理由
浪の闻雨 + 2
川尻松子 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

发表于 2025-7-21 17:51 来自手机 | 显示全部楼层
从现实世界来说,是先有因果,后有数据。数据可以反映因果,但不能影响因果,更不能决定因果,所以从数据看因果永远是盲人摸象。

—— 来自 OnePlus PHB110, Android 15, 鹅球 v3.5.99-alpha
回复

使用道具 举报

     
发表于 2025-7-21 22:19 | 显示全部楼层
知乎里很多洗白的人与其说是在洗这个文章,不如说是在维护“计量经济学是无敌的”这个观点。说白了经济学帝国主义暴打其他文科习惯了,这本身倒没有问题,再没有说服力的建模也比用嘴瞎扯强,但到底也就是一群跑线性回归的闹麻了
不考虑罕见和水论文的因素,这文章作者和它的维护者必然是带着“看我用这么伟大的工具论证了这么一个反直觉但有用的结论,多厉害啊”这样的心态的
另外知乎的司马懿支持这个文章,多少是因为他是个典型的自恋型杠精,做工程的搞封建迷信他也要洋洋洒洒写几段还显的自己多么超凡脱俗地理性
回复

使用道具 举报

     
发表于 2025-7-21 22:32 | 显示全部楼层
至少理科写论文显然不能相关性等于因果性 最多只能作为假说或者推测
而且还得排除其他影响因素  筛查因果性
比如修高速路多的时期与地区会不会经济发展不平衡、导致有钱人生孩子更少 从而那些人更有意愿买拐卖的孩子?  又或者其他未知原因?  有没有可能高速公路修建多和孩子被拐多是同一个因的两个果而不是因果? 会不会就算不修高速公路等经济发展到了那个阶段就会导致拐卖增多?

评分

参与人数 2战斗力 +3 收起 理由
浪の闻雨 + 2
川尻松子 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-7-21 22:34 | 显示全部楼层
Hydro 发表于 2025-7-21 11:34
不是很懂,但是似乎是有两种方向,我不清楚这两种方向学术上应该叫什么,纯抛砖
第一种几乎不依赖事实观察 ...

第一种叫演绎推理 第二种叫溯因推理
回复

使用道具 举报

     
发表于 2025-7-21 23:01 来自手机 | 显示全部楼层
“研究时间的截取停滞在证明研究结论的时间节点,研究方法的选择坚持单一案例(中国)而缺乏跨国案例的比较,机理剖析止步于数据相关缺乏必要的定性研究。~就标准化科研论文的研究而论,也是挺水的论文”
而且里面用的数学方法水平底下,纯粹是辣鸡报团嘴硬
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-7-21 23:20 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2026-6-24 22:26 , Processed in 0.260284 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表