北大法宝法律文书数据爬取方案

本文最后更新于：2021年5月9日晚上

# 北大法宝法律文书数据爬取方案

由于将其当作数据挖掘项目来做了，所以整合进了法律数据挖掘的Github仓库里，Github仓库链接在这

原始数据集是从北大法宝爬取的2016年3月1日到2020年12月30日期间案件类型为人身安全保护令的裁判文书数据，其中包含4442份裁定书文本及对应标签。

P.S. 后来扩充数据集时间跨度至2021年3月1日并结合openlaw的数据集做了去重整合。

格式如下：

标题	审理程序	案由	文书类型	审理法院	案件字号	审结日期	省份	案件类型	原文链接
赵某与陈某离婚纠纷案	简易程序	离婚纠纷	裁定书	江苏省淮安市清浦区人民法院（原江苏省淮阴市清浦区人民法院）	(2016)苏0811民保令1号	2016.03.01	江苏省	民事	https://www.pkulaw.com/pfnl/a25051f3312b07f347c2beea0f7a2926b2707a013b55efafbdfb.html
…	…	…	…	…	…	…	…	…	…

在北大法宝按关键词检索下载对应的excel文件，每次一百条数据，人工将excel进行格式化处理后导出为csv文件（注意编码格式为GBK），通过运行 utils 文件夹下的 df_concat.py 把各个csv文件合并成一个文件方便爬虫爬取原链接对应文本内容。

安装对应本地 chrome 浏览器版本的 selenium 驱动放到 pku_law_selenium/drivers 目录下，在 configs.py 配置好 selenium（可选择无头浏览器，但是比较慢），编辑路径，运行 pku_law_spider.py 开始爬取。

网络爬虫

Python 爬虫 Selenium 法律数据挖掘

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！