网页结果
按时间搜索
搜索历史
  • python处理抓取中文编码和判断编码

    在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8

    发布时间:2014-02-27 09:55:02
  • python爬虫之Scrapy 使用代理配置

    在爬取网站内容的时候,最常遇到的问题是:网站对IP有限制,会有防抓取功能,最好的办法就是IP轮换抓取(加代理)下面来说一下Scrapy如何配

    发布时间:2014-03-26 19:04:13
  • python拆分中英文混合字符串 - 按中文拆分

    出自群里的提问,试了几次就实现了,现在分享出来。#coding=utf-8import res = 'hi新手oh'.decode('utf-8') #举个栗子是字符串s,为了...

    发布时间:2013-09-10 23:57:29
  • python获取系统时间(时间函数详解)

    import timeprint time.time()输出的结果是:1279578704.6725271但是这样是一连串的数字不是我们想要的结果,我们可以利用time模块的格式...

    发布时间:2013-09-24 18:03:55
  • Uliweb 0.2 发布,灵活易用的Python Web框架

    更新内容修复 auth.models get_href 错误修改 ORM save() 处理,它将保存manytomany数据向 save() 中添加 changed, saved 和 s...

    发布时间:2013-10-13 09:43:51
  • 用python编写的抓京东商品价格的爬虫

    闲着没事尝试抓一下京东的数据,需要使用到的库有:BeautifulSoup,urllib2,在Python2下测试通过fromcreepyimportCrawlerfromBeautifulSou

    发布时间:2014-01-02 09:37:56
  • 使用python和xapian构建高速检索引擎

    首先弄明白几个概念:Documents 、terms and posting在信息检索(IR)中,我们企图要获取的项称之“document”,每一个document是被一个te

    发布时间:2014-01-17 09:41:49
  • python os模块功能和方法总结

    os.sep 可以取代操作系统特定的路径分割符os.linesep 字符串给出当前平台使用的行终止符。例如,Windows使用'\r\n',Linux使...

    发布时间:2013-05-14 09:56:24
  • python算法 - 快速寻找满足条件的两个数

    题目前提是一定存在这样两个数解法一就不写了...一般想不到吧一开始想到的是解法二最后的用hash表(其实是想到创建一个跟target一样大的数...

    发布时间:2013-06-05 10:07:40
  • python多线程编程3: 使用互斥锁同步线程

    问题的提出上一节的例子中,每个线程互相独立,相互之间没有任何关系。现在假设这样一个例子:有一个全局的计数num,每个线程获取这个全局...

    发布时间:2013-04-11 09:55:06