爬虫和python,python的爬虫究竟有多强大？

世界上80%的爬虫是基于Python开发的，学好爬虫技能，可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

什么是爬虫?

网络爬虫通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。

爬虫可以做什么?

你可以用爬虫爬图片，爬取视频等等你想要爬取的数据，只要你能通过浏览器访问的数据都可以通过爬虫获取。

什么是Python?

Python(大蟒蛇)是一门解释型、面向对象、带有动态语义的高级程序设计语言。

Python具有强大而丰富的类库，也经常被别人说是胶水语言，可以跟其它语言写的模块结合在一起。

优点

1.简单：Python是一种代表简单主义思想的语言。

2.易用：Python简单容易上手，因为有简单容易看懂的文档。

3.速度快：运行速度快，因为Python中的标准库和第三方库都是C语言编写的，所以很快。

4.免费、开源：Python是一款FLOSS(自由/源代码软件)之一，使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。

5.高层语言：用Python语言编写程序的时候无需考虑诸如如何管理你的程序使用的内存一类的底层细节。

6.可移植性：由于它的开源本质，Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。

7.解释性：Python语言写的程序不需要编译成二进制代码。你可以直接从源代码运行程序。在计算机内部，Python解释器把源代码转换成称为字节码的中间形式，然后再把它翻译成计算机使用的机器语言并运行。这使得使用Python更加简单。也使得Python程序更加易于移植。

8.面向对象：Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中，程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中，程序是由数据和功能组合而成的对象构建起来的。

9.可扩展性：如果需要一段关键代码运行得更快或者希望某些算法不公开，可以部分程序用C或C++编写，然后在Python程序中使用它们。

10.可嵌入性：可以把Python嵌入C/C++程序，从而向程序用户提供脚本功能。

11.丰富的库：Python标准库确实很庞大。它可以帮助处理各种工作，包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。

12.规范的代码：Python采用强制缩进的方式使得代码具有较好可读性。而Python语言写的程序不需要编译成二进制代码。

你是如何开始写python爬虫的？

因为研究生阶段主要的方向是数据挖掘方向，需要从网上获取大量的数据，如果一页一页的手动复制的化，不知道到何年何月了，所以慢慢开始接触到python爬虫，我大概介绍一下自己的学习历程吧：

1.首先要有一定的python基础，环境要熟悉，基本的语法和包也要会使用，至于python基础教程，网上很多，有视频也有pdf的，这个因人而异，我入门主要学习的是《python基础教程》这本书，对应的是python2，这本书写的比较全面，介绍的也比较详细，只要认认真真的跟着书学习，一边练习代码，很快就能熟悉python基础，掌握基本知识和常见包的使用。

2.对网页基本知识也要有一定了解，像html,css,javascript等，没必要精通它们，但是最起码得了解一二，要爬的数据都在网页中，你对网页一点都不了解，这根本就不行，至于这些入门的东西，你可以在网上搜搜，我推荐http://www.w3school.com.cn/，介绍的很全面：