逻辑回归模型的成立基于以下假设条件:因变量要求:分类变量:因变量必须是分类变量,通常是二分类变量。自变量要求:存在性:至少需要一个自变量。类型:自变量可以是连续的,也可以是非连续的分类变量。互斥性:分类自变量的取值范围需全面且互斥,确保分类清晰。数据独立性:数据集中的每一条观测值应当独立,不存在相互依赖的情况。样本量要求:样本量建议不少于自变量数量的15倍,有些研究者推荐样本量为自变量数量的50倍,以保证模型的稳定性和准确性。线性关系假设:对于连续变量,它们与因变量之间的关系假设存在线性关系,通过logit转换后这一关系更为明显。无多重共线性:自变量间不能存在多重共线性,即它们之间的相关性不应过高,以防影响模型的解释和预测能力。数据质量:数据中不能有显著的离群值、杠杆值或强影响值,这些异常值可能对模型的估计产生偏差。确保数据的完整性和质量对模型的准确建模至关重要。