通过神经机制稀疏化实现近似因果抽象的高效发现

神经网络被假设实现了可解释的因果机制，但验证这一点需要找到因果抽象——一个更简单的高层结构因果模型（SCM），在干预下对网络保持忠实。发现这样的抽象很困难：通常需要蛮力交换干预或重新训练。我们通过将结构化剪枝视为近似抽象上的搜索来重新框架化该问题。将训练后的网络视为确定性SCM，我们推导出干预风险目标，其二阶展开产生用常数替换单元或将其折叠到相邻单元中的闭式标准。在均匀曲率下，我们的评分减少为激活方差，将基于方差的剪枝作为特殊情况进行恢复，同时澄清其何时失败。所得程序从预训练网络中有效地提取稀疏的、干预忠实的抽象，我们通过交换干预来验证这一点。