北大法宝法律文书数据爬取方案

本文最后更新于:2021年5月9日 晚上

# 北大法宝法律文书数据爬取方案

由于将其当作数据挖掘项目来做了,所以整合进了法律数据挖掘的Github仓库里,Github仓库链接在这

原始数据集是从北大法宝爬取的2016年3月1日到2020年12月30日期间案件类型为人身安全保护令的裁判文书数据,其中包含4442份裁定书文本及对应标签。

P.S. 后来扩充数据集时间跨度至2021年3月1日并结合openlaw的数据集做了去重整合。

格式如下:

标题 审理程序 案由 文书类型 审理法院 案件字号 审结日期 省份 案件类型 原文链接
赵某与陈某离婚纠纷案 简易程序 离婚纠纷 裁定书 江苏省淮安市清浦区人民法院(原江苏省淮阴市清浦区人民法院) (2016)苏0811民保令1号 2016.03.01 江苏省 民事 https://www.pkulaw.com/pfnl/a25051f3312b07f347c2beea0f7a2926b2707a013b55efafbdfb.html
  • 目标数据检索收集

在北大法宝按关键词检索下载对应的excel文件,每次一百条数据,人工将excel进行格式化处理后导出为csv文件(注意编码格式为GBK),通过运行 utils 文件夹下的 df_concat.py 把各个csv文件合并成一个文件 方便爬虫爬取原链接对应文本内容。

  • 数据爬取

安装对应本地 chrome 浏览器版本的 selenium 驱动放到 pku_law_selenium/drivers 目录下,在 configs.py 配置好 selenium(可选择无头浏览器,但是比较慢),编辑路径,运行 pku_law_spider.py 开始爬取。