CloudZi的个人主页

还没有设置过签名

他的收藏夹
  • 网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间。Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。使用Scrapy可以很方便的完成网上数据的采集工作,它为  ... [查看]
    CloudZi 公开 2016-06-26 21:28 405 查看
  • 前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。于是乎,爬虫框架Scrapy就这样出场了!Scrapy = Scrach+Python,Scrach这个单词是抓取的意思,Scrapy的官网  ... [查看]
    CloudZi 公开 2016-06-26 21:28 330 查看
  • 先来说一下我们学校的网站: http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html 查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是加权平均分。显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用python做一个爬虫来解决这个问题。1.决战前夜先来准备一  ... [查看]
    CloudZi 公开 2016-06-26 21:28 246 查看
  • 1.下载pyinstaller并解压(可以去官网下载最新版):https://github.com/pyinstaller/pyinstaller/2.下载pywin32并安装(注意版本,我的是python2.7):https://pypi.python.org/pypi/pywin323.将项目文件放到pyinstaller文件夹下面(我的是baidu.py):4.按住shift键右击,在当前路径打开命令提示行,输入  ... [查看]
    CloudZi 公开 2016-06-26 21:28 267 查看
  • 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。项目内容:用Python写的百度贴吧的网络爬虫。使用方法:新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。程序功能:将贴吧中楼主发布的内容打包txt存储到本地。原理解  ... [查看]
    CloudZi 公开 2016-06-26 21:28 399 查看
  • 项目内容:用Python写的糗事百科的网络爬虫。使用方法:新建一个Bug.py文件,然后将代码复制到里面后,双击运行。程序功能:在命令提示行中浏览糗事百科。原理解释:首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1可以看出来,链接中page/后面的数字就是对应的页码,记住这一  ... [查看]
    CloudZi 公开 2016-06-26 21:28 246 查看
  • 接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。一、 正则表达式基础1.1.概念介绍正则表达式是用于处理字符串的强大工具,它并不是Python  ... [查看]
    CloudZi 公开 2016-06-26 21:28 253 查看
  • 这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!# -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作者:why # 日期:2013-05-14 # 语言:Python 2.7 # 操作:输入带分  ... [查看]
    CloudZi 公开 2016-06-26 21:27 267 查看
  • 前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。新建test14来实现一个简单的代理Demo:import urllib2 enable_proxy  ... [查看]
    CloudZi 公开 2016-06-26 21:27 288 查看
  • 在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info / geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求  ... [查看]
    CloudZi 公开 2016-06-26 21:27 281 查看
  • 先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。1.URLError通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器  ... [查看]
    CloudZi 公开 2016-06-26 21:27 330 查看
  • 版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取网页  ... [查看]
    CloudZi 公开 2016-06-26 21:27 281 查看
  • 一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个  ... [查看]
    CloudZi 公开 2016-06-26 21:27 239 查看
  • 目前,网上已有成千上万个Python包,但几乎没有人能够全部知道它们。单单PyPi上就有超过47000个包列表。现在,越来越多的数据科学家开始使用Python,虽然他们从pandas,scikit-learn,numpy中获得了不少好处,但我仍想向他们介绍一些年长且非常实用的Python库。在本文中,我将列一些不太知名的库,即  ... [查看]
    CloudZi 公开 2016-06-26 21:22 281 查看
  • 交换变量x = 6y = 5x, y = y, xprint x>>> 5print y>>> 6if 语句在行内print "Hello" if True else "World">>> Hello连接下面的最后一种方式在绑定两个不同类型的对象时显得很酷。nfc = ["Packers", "49ers"]afc = ["Ravens", "Patriots"]print nfc + afc>>> ['Packers', '49ers',  ... [查看]
    CloudZi 公开 2016-06-26 21:22 309 查看
  • 本文实例讲述了Python实现从百度API获取天气的方法。分享给大家供大家参考。具体实现方法如下:__author__ = 'saint' import os import urllib.request import urllib.parse import json class weather(object): # 获取城市代码的uri code_uri = "http://apistore.ba  ... [查看]
    CloudZi 公开 2016-06-26 21:21 316 查看
  • 学了下beautifulsoup后,做个个网络爬虫,爬取读者杂志并用reportlab制作成pdf..crawler.py#!/usr/bin/env python #coding=utf-8 """ Author: Anemone Filename: getmain.py Last modified: 2015-02-19 16:47 E-mail: anemone@82flex.  ... [查看]
    CloudZi 公开 2016-06-26 21:21 204 查看
  • 迭代器迭代器是一个实现了迭代器协议的对象,Python中的迭代器协议就是有next方法的对象会前进到下一结果,而在一系列结果的末尾是,则会引发StopIteration。在for循环中,Python将自动调用工厂函数iter()获得迭代器,自动调用next()获取元素,还完成了检查StopIteration异常的工作。常用的几  ... [查看]
    CloudZi 公开 2016-06-26 21:21 260 查看
  • 正在编写的程序用的很多Windows下的操作,查了很多资料。看到剪切板的操作时,想起以前想要做的一个小程序,当时也没做,现在正好顺手写完。功能:按printscreen键进行截图的时候,数据保存在剪切板里面,很不方便。比如游戏的时候截一个瞬间的图片,但你不能退出游戏保存图片,不方便多次截图。而我  ... [查看]
    CloudZi 公开 2016-06-26 21:21 302 查看
  • """This module contains code from Think Python by Allen B. Downey http://thinkpython.com Copyright 2012 Allen B. Downey License: GNU GPLv3 http://www.gnu.org/licenses/gpl.html """ import os def walk(dirname): """Finds the names of all files in dirnam  ... [查看]
    CloudZi 公开 2016-06-26 21:21 267 查看
共 51 条记录 123
Lai18.com IT技术文章收藏夹  在信息爆炸的时代,您的知识需要整理,沉淀,积累!Lai18为您提供一个简单实用的文章整理收藏工具,在这里您可以收藏对您有用的技术文章,自由分门别类,在整理的过程中,用心梳理自己的知识!相信,用不了多久,您收藏整理的文章将是您一生的知识宝库!
HTTP://WWW.LAI18.COM    © 2014-2016 · 蜀ICP备15000355号-1