欢迎关注@Python与数据挖掘 ,专注 Python、数据分析、数据挖掘、好玩工具!数据科学领域的顶级 Python 库推荐:1. Apache Spark - 大规模数据处理的统一分析引擎,星:27600,贡献:28197,贡献者:16382. Pandas - 用于数据处理的快速、灵活且可表达的 Python 软件包,星:26800,贡献:24300,贡献者:21263. Dask - 并行计算任务调度系统,星:7300,贡献:6149,贡献者:3934. Scipy - 用于数学、科学和工程的开源 Python 模块,星:7500,贡献:24247,贡献者:9145. Numpy - Python 科学计算的基本软件包,星:1500,贡献:24266,贡献者:10106. Scikit-Learn - 基于 SciPy 的 Python 机器学习模块,星:42500,贡献:26162,贡献者:18817. XGBoost - 可扩展、便携式和分布式梯度增强 GBDT 库,星:19900,贡献:5015,贡献者:4618. LightGBM - 基于决策树的快速、高性能梯度提升 GB库,星:11600,贡献:2066,贡献者:1729. Catboost - 高速、可扩展、高性能梯度提升库,星:5400,贡献:12936,贡献者:18810. Dlib - 用于创建解决实际问题的复杂软件的 C++ 工具箱,星:9500,贡献:7868,贡献者:14611. Annoy - C++/Python 中的优化内存使用和磁盘加载/保存的近似最近邻居系统,星:7700,贡献:778,贡献者:5312. H2O.ai - 快速可扩展的开源机器学习平台,星:500,贡献:27894,贡献者:13713. StatsModels - Python 中的统计建模和计量经济学,星:5600,贡献:13446,贡献者:24714. mlpack - 直观、快速且灵活的 C++ 机器学习库,星:3400,贡献:24575,贡献者:19015. Pattern - 包含 Web 挖掘工具的 Python 模块,星:7600,贡献:1434,贡献者:2016. Prophet - 生成具有多个季节性和线性或非线性增长的时间序列数据的高质量预测工具,星:11500,贡献:595,贡献者:10617. TPOT - Python 自动化机器学习工具,使用遗传编程优化机器学习 pipeline,星:7500,贡献:2282,贡献者:6618. auto-sklearn - 自动化机器学习工具包,scikit-learn 估计器的直接替代品,星:4100,贡献:2343,贡献者:5219. Hyperopt-sklearn - scikit-learn 中基于 Hyperopt 的模型选择,星:1100,贡献:188,贡献者:1820. SMAC-3 - 基于顺序模型的算法配置,星:529,贡献:1882,贡献者:2921. scikit-optimize - 用于减少非常昂贵且嘈杂的黑盒功能的 Scikit-Optimize,星:1900,贡献:1540,贡献者:5922. Nevergrad - 用于执行无梯度优化的 Python 工具箱,星:2700,贡献:663,贡献者:3823. Optuna - 自动超参数优化软件框架,星:3500,贡献:7749,贡献者:97数据可视化:24. Apache Superset - 数据可视化和数据探索平台,星:30300,贡献:5833,贡献者:49225. Matplotlib - 在 Python 中创建静态、动画和交互式可视化的综合库,星:12300,贡献:36716,贡献者:100226. Plotly - 适用于 Python 的交互式、基于开源和基于浏览器的图形库,星:7900,贡献:4604,贡献者:13727. Seaborn - 基于 matplotlib 的 Python 可视化库,提供高级界面进行吸引人的统计图形绘制,星:7700,贡献:2702,贡献者:12628. folium - 建立在 Python 数据处理能力之上并与 Leaflet.js 库地图能力结合的可视化库,星:4900,贡献:1443,贡献者:10929. Bqplot - Jupyter 的二维可视化系统,基于图形语法的构造,星:2900,贡献:3178,贡献者:4530. VisPy - 高性能的交互式 2D / 3D 数据可视化库,利用 OpenGL 库和现代图形处理单元 GPU 的计算能力显示大型数据集,星:2500,贡献:6352,贡献者:11731. PyQtgraph - 科学/工程应用的快速数据可视化和 GUI 工具,星:2200,贡献:2200,贡献者:14232. Bokeh - 现代 Web 浏览器中的交互式可视化库,提供优雅、简洁的构造,并在大型或流数据集上提供高性能的交互性,星:1400,贡献:18726,贡献者:46733. Altair - Python 的声明性统计可视化库,用于创建更简洁、更可理解的数据可视化,星:600,贡献:3031,贡献者:106解释与探索:34. eli5 - 用于调试/检查机器学习分类器并解释其预测的库,星:2200,贡献:1198,贡献者:1535. LIME - 用于解释任何机器学习分类器预测的工具,星:800,贡献:501,贡献者:4136. SHAP - 基于博弈论的方法,用于解释任何机器学习模型的输出,星:10400,贡献:1376,贡献者:9637. YellowBrick - 可视化分析和诊断工具,用于辅助机器学习模型的选择,星:300,贡献:825,贡献者:9238. pandas-profiling - 从 pandas DataFrame 对象创建 HTML 分析报告的库,星:6200,贡献:704,贡献者:47技术交流群:建了技术交流群,想要进群的同学直接加微信号:dkl88191,备注:研究方向 + 学校/公司 + 知乎,即可加入。关注 Python与数据挖掘 知乎账号和 Python学习与数据挖掘 微信公众号,可以快速了解到最新优质文章。机器学习画图神器推荐,论文、博客事半功倍;模型可解释 AI (XAI) Python 框架盘点,6 个必备;prettytable - 可完美格式化输出的 Python 库;机器学习建模调参方法总结;23 个机器学习最佳入门项目(附源代码);精通 Python 装饰器的 60 个神操作;VS Code 神级插件推荐;Schedule 模块 - Python 周期任务神器;4 款数据自动化探索 Python 神器;数据模型整理,建议收藏;Python 编程起飞的 24 个神操作;深度学习、自然语言处理和计算机视觉顶级 Python 框架盘点;用户画像标签体系建设指南;机器学习模型验证 Python 包推荐;可视化大屏模板精选,拿走就用;Python 可视化大屏不足百行代码;Python 中的 7 种交叉验证方法详解;文章推荐更多,点个赞和爱心,更多精彩欢迎关注。