北大法宝法律文书数据爬取方案
本文最后更新于:2021年5月9日 晚上
# 北大法宝法律文书数据爬取方案
由于将其当作数据挖掘项目来做了,所以整合进了法律数据挖掘的Github仓库里,Github仓库链接在这
原始数据集是从北大法宝爬取的2016年3月1日到2020年12月30日期间案件类型为人身安全保护令的裁判文书数据,其中包含4442份裁定书文本及对应标签。
P.S. 后来扩充数据集时间跨度至2021年3月1日并结合openlaw的数据集做了去重整合。
格式如下:
标题 | 审理程序 | 案由 | 文书类型 | 审理法院 | 案件字号 | 审结日期 | 省份 | 案件类型 | 原文链接 |
---|---|---|---|---|---|---|---|---|---|
赵某与陈某离婚纠纷案 | 简易程序 | 离婚纠纷 | 裁定书 | 江苏省淮安市清浦区人民法院(原江苏省淮阴市清浦区人民法院) | (2016)苏0811民保令1号 | 2016.03.01 | 江苏省 | 民事 | https://www.pkulaw.com/pfnl/a25051f3312b07f347c2beea0f7a2926b2707a013b55efafbdfb.html |
… | … | … | … | … | … | … | … | … | … |
- 目标数据检索收集
在北大法宝按关键词检索下载对应的excel文件,每次一百条数据,人工将excel进行格式化处理后导出为csv文件(注意编码格式为GBK),通过运行 utils 文件夹下的 df_concat.py 把各个csv文件合并成一个文件 方便爬虫爬取原链接对应文本内容。
- 数据爬取
安装对应本地 chrome 浏览器版本的 selenium 驱动放到 pku_law_selenium/drivers 目录下,在 configs.py 配置好 selenium(可选择无头浏览器,但是比较慢),编辑路径,运行 pku_law_spider.py 开始爬取。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!