5.5 万首唐诗、26 万首宋诗、2.1 万首宋词 Python助力中华古典文集数据库

熟悉橡皮擦的朋友都知道,橡皮擦最爱写的文章是关于 Python 的,但是呢,橡皮擦确实是一个产品经理,哈哈,所以每次给大家分享 Python 相关知识的时候,总想着自己是一个前端工程师(好迷糊),有时候当我发现一款非常棒的 Python 库的时候,忍不住要推荐给大家。

Python 大神库夸夸

作为一个产品经理,哦不,程序员每天最快乐的事情就是去 github 翻阅,在闲逛的途中经常会发现一些非常棒的大佬开发的开源库,有时候忍不住点赞分享,这不,在 1024 这么一个特殊的日期里就碰到了这个神奇的库,而且作者还是用 Python 编写的,双重符合要求,必须唠叨唠叨了。

该项目是基于 Python 爬虫采集数据,积累大量的 唐诗,宋词数据,作者在 github 说明中已经进行了说明:

The most comprehensive database of Chinese poetry 最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近 5.5 万首唐诗加 26 万宋诗. 两宋时期 1564 位词人,21050 首词。

厉害厉害!

是不是非常期待看到了,下面的链接就是大佬的项目地址了 https://github.com/chinese-poetry/chinese-poetry

所有的数据都被作者上传分享了出来,大家可以利用数据做一些诗词类的网站或者 APP 都是非常不错的。

数据格式已经转成了 JSON,方便导入到各种数据库中。

5.5 万首唐诗、26 万首宋诗、2.1 万首宋词 Python助力中华古典文集数据库

分享这些还不够,作者也同时分享了爬取代码,方便你阅读,贴上链接地址:https://ijg.io/r/words/crawl-ci.html

代码阅读过程中,发现 parsel 库在爬虫百例中竟然还给遗漏了,抽时间加餐篇给大家增加上去。

写在后面

本文单纯的为爱好爬取数据的人点赞,希望更多的朋友加入到数据采集的大军中。当然更想让大家看到,用 Python 爬虫可以去做很多自己喜欢的事情,当数据慢慢积累到一定量的时候,你就已经开辟出来一条独特的路线了。

如果你想跟博主建立亲密关系,可以关注博主,或者关注博主公众号“非本科程序员”,了解一个非本科程序员是如何成长的。
博主 ID:梦想橡皮擦,希望大家点赞、评论、收藏

爬虫百例教程导航链接 : https://blog.csdn.net/hihell/article/details/86106916

以下内容无用,为本篇博客被搜索引擎抓取使用
(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)
python 是干什么的 零基础学 python 要多久 python 为什么叫爬虫
python 爬虫菜鸟教程 python 爬虫万能代码 python 爬虫怎么挣钱
python 基础教程 网络爬虫 python python 爬虫经典例子
python 爬虫
梦想橡皮擦梦想橡皮擦梦想橡皮擦梦想橡皮擦梦想橡皮擦梦想橡皮擦
(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)
以上内容无用,为本篇博客被搜索引擎抓取使用

梦想橡皮擦 CSDN认证博客专家 大学老师 高级产品经理 互联网从业者
6年产品经理+教学经验,3年互联网项目管理经验;互联网资深爱好者;
沉迷各种技术无法自拔,导致年龄被困在25岁;CSDN爬虫百例作者。
个人公众号“非本科程序员”。
©️2020 CSDN 皮肤主题: Age of Ai 设计师:meimeiellie 返回首页
实付 29.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值