网页抓取

网页抓取

昨天一位顾客请我帮他把一整网站的内容成为MSWORD的文件。我发现了这个网站有一百多的网页,难怪请去安迪牌帮他的忙!当然我不要手动复制网页内容然后在MSWORD粘贴,最后写小程序。

细节

虽然能用requests module但是我发现wget的软件更合适,所以我让wget把每一个网页下载了:

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains example-website.org \
     --no-parent \
         example-website.org

终于有一个文件夹,里面有很多文件夹和.html文件。所以第一个部分就是要从每一个文件夹一步一步的选择文件 (但不要打印和atom网页):

for subdir, dirs, files in os.walk(rootdir):
    for file in files:
        if (file[-4:]=="html" and file[-9:]!="atom.html ...
more ...

树莓牌用中文

在树莓派中安装中文输入方法 (在施工)

树莓派标准版本raspbian系统用英语。 这个instruction从起教怎么安装中文。 你需要win电脑设置SD卡。 看好:虽然在GUI可以用中文,但是命令行和python代码依然用英文!

第一: 从树莓派网站下载最新版的raspbian系统 第二: extractzip 第三: 下载win32diskimager ![win32diskimager](http://www.onlinedown.net/soft/110173.htm) 第四: 把SD卡插进win电脑, 然后把*.img文件写到SD卡。 第五: 把SD卡插进树莓派就启动。 第六:

sudo apt-get install ttf-wqy-zenhei sudo apt-get install scim-pinyin sudo raspi-config 然后选择change_locale,在Default locale for the system environment:中选择zh_CN.UTF-8。然后重启机器,就发现整个环境变成中文的了 ...

more ...

CSV to list

把逗号分隔值的字符串转变python的单子

有一个字符串的里面有词,用逗号来分开,像:

>>>string1 = "bill, ben, jack, james"

我要把这件数据成为python的单子可是python单子要求每一个词应该被引用号围绕。 既然有两百词所以我就不要手动得做,最快写代码让python做! 真巧可以用string.split 的办法:

>>>list1 = string1.split(',')
>>>print list1
>>>["bill", "ben", "jack", "james"]
more ...

树莓派量天气的计划

树莓派天气监控 (在施工)

介绍 - 树莓派量天气的计划

我们英国的朋友常常问我们,你们在中国那边的气候怎么样?为了告诉他们所以我创造一台树莓派天气监测系统。 先我选择了传感器。我上网研究以后找到了DHT22温度和湿度传感器。 这个又便宜又有adafruit python library (adafruit就是个美国电子产品的公司)。 另外选择了BMP085传感器,这个可以量气压和温度。用这个的话我也可以把两个传感器数据算平均得温度。除了温度湿度气压以外,我也要表示空气的质量,因为不一定全国的地方都有污染的问题。量空气的质量很难不过airpi.es 用特别便宜的传感器。虽然这样不太准确 但是能算定性的测量。

一:硬件

树莓派一代modelA USB无线 电源 DHT22传感器 BMP085传感器 电线 来酸奶塑料桶用盒子

二:电路设计图

photo: setup

三:构成软件的基本

因为这个计划比较小,最好的系统就是raspbian-jessie-lite(raspbian小)。

  1. 下载RaspbianJessieLitedownload
  2. 构成无线(输入用户和密码)
  3. 下面的命令安装python啊,传感器需要的drivers啊等等.
sudo apt-get update
sudo ...
more ...