本书介绍了Scrapy网络爬虫快速入门,Python开发快速入门,使用 BeautifulSoup实现定向采集,网络爬虫抓取原理与Python实现, URL地址查新所用到的数据结构,把抓取下来的文本存入数据库。还介绍了从互联网提取信息的方法,具体包括识别网页的编码,用正则表达式提取字符串,从文本中提取结构化信息,以及从文件提取信息。然后介绍使用Scrapy框架开发爬虫,如何实现分布式爬虫,如何开发网络爬虫图形用户界面。最后介绍影视采集器和暗网爬虫的案例。本书适合零基础开始学习开发网络爬虫的读者或者需要提高的专业技术人员参考。