设为首页 加入收藏

TOP

采集函数之提取文本
2016-12-26 09:35:46 来源: 作者:风之轨迹 【 】 浏览:332次 评论:0
复制正文内容

继续采集的第二部分,上次了解了几个常用的采集函数,点击这里温故下这几个函数,
http://jianming.info/bencandy.php?fid=3&id=69
这次就说说几个提取文本的方法。

1.preg_match()
利用正则表达式对文本查找内容的方法,用模糊的方式匹对内容,这样说不太明白,先上一个例子
<?php
$txt='abcdefg';
preg_match("/ab(.*?)ef/",$txt,$a);
$key=$a[1];
echo $key;
?>
点击查看效果:
http://mywind.sinaapp.com/php/test/01.php
上面代码结果应该是'cd'。
preg_match()有三个参数,用','分开,
"/ab(.*?)ef/"
要匹对的内容
$txt
是被查找的字符
$a
匹对好的内容付给$a,
第一个参数中的'(.*?)'就是要匹对的内容,如何精确到'cd',就靠旁边的字符来精确,左边'ab',右边'ef包围了它,那么'ab'与'ef'这之间的字符就是'cd'了。

2.explode()
剪切文本,这个函数像读屏的选择文本,更好理解使用,给出例子
<?php
$txt='abcdefg';
$a=explode('ab',$txt);
$b=explode('ef',$a[1]);
$key=$b[0];
echo $key;
?>
点击查看效果:
http://mywind.sinaapp.com/php/test/01.php
分割结果是'cd',
explode有两个参数,参数1是要分割的文本,参数2是要被分割的文本,
$a=explode('ab',$txt);
这里首先选择'ab'为开始点,同时把内容付给$a,
$b=explode('ef',$a[1]);
这里继续剪贴'ef',而 '$a[1]'中的'[1']是前一句剪切文本后面的内容,
如果你想到'[1]'变成'[0]'就是剪切文本的前面的内容,恭喜你,理解力不错,这就是编程中常说的数组,大家可以到网上查查相关知识。
$key=$b[0];
这句就选择了'ab'与'ef'之间的字符,就是'cd'。

3.json
json在网页中是对于数组转码后输出的一种网页形式,由于精简的优点,大大方便传输,更大优点是方便了开发,所以许多网站都有json的网页,下面先看看json是如何生成的,再分析是如何还原成数组,代码如下
<?php
$baidu=array("name" => '百度',"url" => 'http://www.baidu.com');
$google=array("name" => '谷歌',"url" => 'http://www.google.com');
$array=array("title" => '搜索引擎',"info" => array($baidu,$google));
$json=json_encode($array);
echo $json;
?>
点击查看效果:
http://mywind.sinaapp.com/php/test/03.php
上面的例子把百度与谷歌的链接编码成json数据输出,
下面的例子我们把json还原回数组,取出搜索引擎的链接
<?php
$txt='{"title":"\u641c\u7d22\u5f15\u64ce","info":[{"name":"\u767e\u5ea6","url":"http:\/\/www.baidu.com"},{"name":"\u8c37\u6b4c","url":"http:\/\/www.google.com"}]}';
//解码
$json=json_decode($txt);

//还原标题
$title=$json->title;
echo "<title>$title</title>";

$info=$json->info;
//还原百度链接
$name=$info[0]->name;
$url=$info[0]->url;
echo "$name<br>$url<br>";

//还原谷歌链接
$name=$info[1]->name;
$url=$info[1]->url;
echo "$name<br>$url<br>";
?>
点击查看效果:
http://mywind.sinaapp.com/php/test/04.php

您看到此篇文章时的感受是:
Tags: 责任编辑:风之轨迹
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到QQ空间
分享到: 
定点下篇如何get与post方式来采集网页 上一篇115网盘分享主页创建方法

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

相关栏目

最新文章

图片主题

热门文章

推荐文章

相关文章

广告位