如何把 Web 页面上抓取下来的海量文本信息从非结构化信息变成结构化信息？

我请问下，如何把 Web 页面上抓取下来的海量文本信息从非结构化信息变成结构化信息？

最新回答

宾狗

2024-04-20 00:03:49

普通来讲对我们而言，需求抓取的是某个网站或者某个应用的内容，提取有用的价值。内容普通分为两局部，非构造化的数据和构造化的数据。

非构造化数据：先有数据，再有构造

构造化数据：先有构造、再有数据

不同类型的数据，我们需求采用不同的方式来处置。

非构造化的数据处置

文本、电话号码、邮箱地址

正则表达式

HTML 文件

正则表达式

XPath

CSS选择器

构造化的数据处置

JSON 文件

JSON Path

转化成Python类型停止操作（json类）

XML 文件

转化成Python类型（xmltodict）

XPath

CSS选择器

正则表达式

实践上python爬虫一共就四个主要步骤：

明白目的 (要晓得你准备在哪个范围或者网站去搜索)
爬 (将一切的网站的内容全部爬下来)
取 (去掉对我们没用途的数据)
处置数据（依照我们想要的方式存储和运用）

幽兰黛尔

2024-04-20 11:19:43

　　首先要看你是怎么抓取的了，有的爬虫抓取的时候就对应数据字段配置，抓取存入数据库，那么抓取的时候本身就已经是结构化信息了。这个以ForeSpider爬虫为例，软件和数据库绑定，可以在软件里完成建表、过滤、配置字段、采集入库，所以抓取下来自然就是结构化信息了。
　　但是有的爬虫抓取信息是存文件，而不是数据库，那么就需要转换文件格式了。

天暗下来你就是光

2024-04-20 07:07:25

Htmlparser

我要回答

匿名回答

如何把 Web 页面上抓取下来的海量文本信息从非结构化信息变成结构化信息？

您可能感兴趣问答

Collapsible

热门标签

热点问答