热搜：编程 Python Microsoft 编程语言 C++

首页> 后端开发 > Python > 正文

基于python 爬虫爬到含空格的url的处理方法

发布时间：2023-06-09 14:50:14 来源：网络

.

不要沮丧，不必惊慌，做努力爬的蜗牛或坚持飞的笨鸟，我们试着长大，一路跌跌撞撞，然后遍体鳞伤。坚持着，总有一天，你会站在最亮的地方，活成自己曾经渴望的模样。

道友问我的一个问题，之前确实没遇见过，在此记录一下。

问题描述

在某网站主页提取url进行迭代，爬虫请求主页时没有问题，返回正常，但是在访问在主页提取到的url时出现了400状态码(400 Bad Request)。

结论

先贴出结论来，如果url里有空格的话，要把空格替换成%20，也就是url编码，否则就会出现400。

解决过程

首先百度了一下400状态码什么意思：

400页面是当用户在打开网页时，返回给用户界面带有400提示符的页面。其含义是你访问的页面域名不存在或者请求错误。

主要有两种形式：

1、bad request意思是“错误的请求”；

2、invalid hostname意思是”不存在的域名”。

所以说问题应该是出在了url上，我怀疑是他的url提取逻辑有问题，于是让他把url打印一下看看，他说看不出什么问题。

然后我就把他代码要了过来，自己调调试试，发现前几个子url是访问正常的，但是其中一个出现了400，那个url如下：

http://www.qichacha.com/company_getinfos?unique=4d5ad1bc15ddc4ad9873e5b0ff4f93d3&companyname=意大利C.D.VIDEO S.P.A.深圳代表处&tab=base

下面是一个访问正常的url：

http://www.qichacha.com/company_getinfos?unique=f6aa78d2e9f4b0bc98103785f96c1353&companyname=深圳市联得自动化装备股份有限公司&tab=base

我首先把这个url复制到浏览器，发现可以正常访问，然后就留神了一下浏览器上url的变化，发现空格变成了%20，在代码里把url中的空格都替换成%20后，

程序访问也正常了。

问题解决。

启示

以后做爬虫，对于不可预测的不规律的请求，在发请求之前先把url进行url编码，以免出现这种错误。

这篇基于python 爬虫爬到含空格的url的处理方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

以下您可能有感兴趣的文章:

标签： 爬到 python

Python最新文章

python编程-将Python程序转化为可执行程序[整理]

Python交换变量

rhythmbox中文名乱码问题解决方法

python备份文件的脚本

Python 文件操作技巧(File operation) 实例代码分析

Python热点排行

在线教程
开发软件

查看更多软件 

基于python 爬虫爬到含空格的url的处理方法

为您推荐

一篇文章搞懂Python的文件路径操作

Python超详细讲解元类的如何使用

深入解析Python中的多进程

Python如何利用pywin32如何实现自动操作电脑

Python实现邮件自动下载的示例详解

Python最新文章