博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
php写爬虫工具
阅读量:4041 次
发布时间:2019-05-24

本文共 565 字,大约阅读时间需要 1 分钟。

以下分析一个代码示例:

偷别的站也是一个道理.关键是方法.小偷就是用ASP,PHP或者其他语言在程序中打开并且处理这些HTML

拿PHP讲

error_reporting(E_ALL&~E_NOTICE);

$url = "http://www.xxx.com/Index/xxx/id/100"; //从此站抓取数据

$fp = @fopen($url, "r") or die("超时"); //打开指定的网页

$fcontents = file_get_contents($fp); //获取网页html源码

$str_html = "/<img src=\"images\/t_01.gif\" width=\"500\" height=\"150\" border=\"0\" ><\/td>(.*)<td width=\"21\" valign=\"top\"><\/td>/ "; //正则表达式

preg_match($str_html, $fcontents, $regs); //检索需要的数据

$regs[1] = str_replace("src=\"..\/images\/", "src=\"http://www.xxxcom\/images\/",  $regs[1]);

echo $regs[1];

转载地址:http://ffadi.baihongyu.com/

你可能感兴趣的文章
8.X版本的node打包时,gulp命令报错 require.extensions.hasownproperty
查看>>
Jenkins 启动命令
查看>>
Maven项目版本继承 – 我必须指定父版本?
查看>>
Maven跳过单元测试的两种方式
查看>>
通过C++反射实现C++与任意脚本(lua、js等)的交互(二)
查看>>
利用清华镜像站解决pip超时问题
查看>>
[leetcode BY python]1两数之和
查看>>
微信小程序开发全线记录
查看>>
PTA:一元多项式的加乘运算
查看>>
CCF 分蛋糕
查看>>
解决python2.7中UnicodeEncodeError
查看>>
小谈python 输出
查看>>
Django objects.all()、objects.get()与objects.filter()之间的区别介绍
查看>>
python:如何将excel文件转化成CSV格式
查看>>
机器学习实战之决策树(一)
查看>>
机器学习实战之决策树二
查看>>
[LeetCode By Python]7 Reverse Integer
查看>>
[leetCode By Python] 14. Longest Common Prefix
查看>>
[LeetCode By Python]118. Pascal's Triangle
查看>>
[LeetCode By Python]121. Best Time to Buy and Sell Stock
查看>>