如何把 Web 页面上抓取下来的海量文本信息从非结构化信息变成结构化信息?

我请问下,如何把 Web 页面上抓取下来的海量文本信息从非结构化信息变成结构化信息?
最新回答
宾狗

2024-04-20 00:03:49

普通来讲对我们而言,需求抓取的是某个网站或者某个应用的内容,提取有用的价值。内容普通分为两局部,非构造化的数据 和 构造化的数据。

非构造化数据:先有数据,再有构造

构造化数据:先有构造、再有数据

不同类型的数据,我们需求采用不同的方式来处置。

非构造化的数据处置

文本、电话号码、邮箱地址

正则表达式

HTML 文件

正则表达式

XPath

CSS选择器

构造化的数据处置

JSON 文件

JSON Path

转化成Python类型停止操作(json类)

XML 文件

转化成Python类型(xmltodict)

XPath

CSS选择器

正则表达式

实践上python爬虫一共就四个主要步骤:

  • 明白目的 (要晓得你准备在哪个范围或者网站去搜索)

  • 爬 (将一切的网站的内容全部爬下来)

  • 取 (去掉对我们没用途的数据)

  • 处置数据(依照我们想要的方式存储和运用)

幽兰黛尔

2024-04-20 11:19:43

  首先要看你是怎么抓取的了,有的爬虫抓取的时候就对应数据字段配置,抓取存入数据库,那么抓取的时候本身就已经是结构化信息了。这个以ForeSpider爬虫为例,软件和数据库绑定,可以在软件里完成建表、过滤、配置字段、采集入库,所以抓取下来自然就是结构化信息了。
  但是有的爬虫抓取信息是存文件,而不是数据库,那么就需要转换文件格式了。
天暗下来你就是光

2024-04-20 07:07:25

Htmlparser