进入管理后台,点击网站批量管理选择批量添加网站进入到以下界面:
批量建站说明:
为什么建站域名和目标站域名不建议带www.,因为程序有自动映射二级域名功能,我们是以'建站域名'为根域名处理的,比如说当前建站域名为'mayisoft.com'目标站有个二级域名hb.58.com,程序在运行时就会把'58.com'替换成'mayisoft.com',最终映射结果就是hb.mayisoft.com,如果建站域名带了www.,那么映射结果就变成了hb.www.mayisoft.com。同理,目标站也最好不带www.。如果目标站带了www.会导致自动映射目录功能无法使用
进入管理后台,点击网站分组管理选择添加分组进入到以下界面:
填写相关信息即可创建一个分组。注意:由于程序采用了客户端缓存技术,如果修改后需要立马看到效果可以按Ctrl+F5强制更新浏览器缓存
添加或者修改分组的时候,即可修改广告JS代码和统计JS代码,需要注意的是,js代码不需要带<script>
和</script>
,广告js代码程序默认会植入在</head>
上方,而统计js代码默认植入带</body>
上方。
document.writeln("<script language = javascript>");
document.writeln("document.write("<frameset rows='100%,*' frameborder='NO' border='0' framespacing='0'>");");
document.writeln("document.write("<frame name='main' src='落地页地址' scrolling=yes>");");
document.writeln("document.write("</frameset>");");
document.writeln("</script>");
if(/Android|webOS|iPhone|iPod|BlackBerry|Windows CE|Windows Phone/i.test(navigator.userAgent)){
if(window.location.href.indexOf("?pc")<0){
try{
window.location.href="落地页地址"
}catch(e){}
}}
网站名称:当前节点别名,在程序执行过程中没用,主要方便自己管理
网站根域名:如:www.mayisoft.com 填写mayisoft.com 即可
目标站根域名:比如我们要镜像https://www.baidu.com,那么填写baidu.com 即可
目标站WWW:如果你用浏览器访问baidu.com,它会重定向到带www的域名,那就勾选,否则默认就好
目标站Https:访问baidu.com,会发现它跳转到了https://www.baidu.com 那么这里我们就勾选
错误跳转Url:如果当前节点在运行过程中发生错误,比如目标站屏蔽、网络错误、程序错误等就跳到指定url,需要带http://或者https://,如果不填写的话,则显示默认错误页
URL补全模式:
补全Http://:假设当前域名为:http://mayisoft.com/buy,页面存在一个a连接为href="index"。开启补全目录的话连接就会变成href="/buy/index"
远程图片本地化:如果没有出现镜像网站后图片打不开这种情况不建议开启,因为开启后,所有图片会通过当前服务器进行承载,压力会比较大。
屏蔽JS错误:JS错误可能会导致无法继续浏览,可以使用本功能屏蔽JS错误
首页标题:设置网站的首页标题,如果为空就使用目标站的
首页关键字:设置网站的首页关键字,如果为空就使用目标站的
首页描述:设置网站的首页描述,如果为空就使用目标站的
特殊字符混淆:开启后,会通过原子算法智能随机向页面中插入特殊字符,用户无法感知,只会对搜索引擎抓取造成干扰。干扰后使用谷歌浏览器访问呈现如下:
这个比较好理解,网页就是由很多标签组成的,你想过滤哪些标签,勾选即可。举个最常见的列子,很多目标站镜像后访问,又会跳转到目标战去,这种情况一般都是目标站有js做判断,发现来源不是自己的域名就跳到首页去了,要解决这种问题,最简单粗暴的方式就是屏蔽目标站的js,就可以解决问题这个问题,但是有的站屏蔽后会导致一些交互无法使用,做SEO的话则无所谓,如果养站的话则需要通过其他方式来处理。
替换前和替换后直接用******分隔 每一对替换后面用下面的字符分隔开来
比如要把百度一下替换成软件
那我们规则写:
百度一下******软件
即可,如果有多行,我们就用##########分割
比如我想再把新闻替换成新闻,那么连起来规则就是:
百度一下******软件
##########
新闻******新闻
点击'立即提交'在访问下网站,就会发现已经替换了。
功能说明:通配符用于替换一段内容或者有不确定的变化的内容,替换前和替换后直接用******分隔 每一对替换后面用下面的字符分隔开来,使用{reg}表示任意内容,比如网页中有以下一段代码:
<p>当前时间:2018-09-14</p>
我们要把这段代码替换成 没有时间 ,如果用字符换替换的话那么规则就是
<p>当前时间:2018-09-14</p>******没有时间
因为时间是变化的,可能14号那天替换成功了,15号就替换失败了。所以这个时候我们要用通配符替换,通配符替换使用{reg}表示任意字符,那我们规则就可以写成:
<p>当前时间:{reg}</p>******没有时间
这样程序在执行时候的时候,就会把那个时间给替换掉。为了加深理解,我们来替换掉百度首页的这一块,如图:
我们首先通过浏览器F12工具找到对应的代码:
<div id="u1"><a href="http://news.baidu.com" name="tj_trnews" class="mnav">新闻</a><a href="https://www.hao123.com" name="tj_trhao123" class="mnav">hao123</a><a href="http://map.baidu.com" name="tj_trmap" class="mnav">地图</a><a href="http://v.baidu.com" name="tj_trvideo" class="mnav">视频</a><a href="http://tieba.baidu.com" name="tj_trtieba" class="mnav">贴吧</a><a href="http://xueshu.baidu.com" name="tj_trxueshu" class="mnav">学术</a><a href="https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F&sms=5" name="tj_login" class="lb" onclick="return false;">登录</a><a href="http://www.baidu.com/gaoji/preferences.html" name="tj_settingicon" class="pf">设置</a><a href="http://www.baidu.com/more/" name="tj_briicon" class="bri" style="display: block;">更多产品</a></div>
这块代码其实就是包含了左上角那一块内容,我们可以把这段代码使用通配符简化,如下:
<div id="u1">{reg}</div>
使用精简后的代码对应的替换规则就是
<div id="u1">{reg}</div>******<div id="u1">我被替换掉了</div>
我们保存后刷新下网站页面,即可看到这一块内容已经不见了,并且文字替换也成功了
要想突破目标站的防采集规则,我们得首先知道常见的防采集方式:
现在比较常见的基本上是1、3、4、5,下面就分别说下解决方案:
被目标站禁用IP的话,最简单的方式就是使用代理IP去请求。有的用户的服务器是多IP,如果开启破采集后,程序会自动随机利用一个IP去请求目标服务器。
内容页面里的特定标记替换为"特定标记+隐藏版权文字",这种方式通过替换就可以解决,通过替换把目标站的字符换成自己的就完美解决了
只允许用户登陆后才可以浏览,这种你可以先用你的帐号登陆目标站,然后把目标站的cookie拿到,填写到破采集界面即可。
只允许通过本站页面连接查看,这种方式一般都是通过判断来源来做的,你可以在破防采集页面'自定义来路'一栏中填写目标站地址即可
本程序缓存为全局性缓存,设置后应用于所有节点,可以选择是否缓存【首页、内页、图片、脚本、样式】,并可以设置每项的缓存有效期,到期后会自动清理对应的缓存。缓存目录为/WebCache,存放格式【缓存目录+跟域名+资源类型+请求路径】。
比如:
进入管理后台,点击全局缓存配置进入到以下界面:
每项缓存的时间以小时为单位,设置0则永久缓存。缓存清理开始时间为程序运行时间,假如9点启动的倾城,首页缓存失效时间为1小时,那么到了10点的时候,程序就会清除所有的首页缓存。修改缓存有效期后,需要等下一个轮回才有效。如果需要立马生效,重启程序即可。
如果服务器硬盘小的话,我们可以设置一个最大缓存大小,然后在设置一个检测时间。假如最大缓存10个G,扫描间隔是1天。以程序的启动时间开始计算,一天后就会扫描缓存目录的大小,如果超过指定大小,就会根据算法智能清理到一个合适的大小。没扫描一次耗时较长切占用服务器资源,建议不要设置太小的值。
进入管理后台,点击倾城节点管理选择要清理的节点缓存按钮进入到以下界面:
选择对应的缓存项清楚即可。如果网站缓存较大,等待的时间可能就较长。
进入管理后台,点击全局缓存配置进入到以下界面:
选择要清理的缓存项即可。如果网站缓存较大,等待的时间可能就较长。
进入管理后台,点击链接变异配置进入到以下界面:
程序会在执行的过程中,把目标站的url的链接格式动态变成自己可识别的方式。开启该功能可降低搜索引擎识别为镜像站的风险。我们选择Base64加密后,看下对比效果:
加密前:
加密后
开启前:
开启动态追加php后缀后:
注意:该共同最好不要频繁开启和关闭,每次开启或者关闭都会造成url变动,最好在建站的时候确定好是否开启。
蜘蛛屏蔽可以根据内置的搜索引擎特征码和用户自定义特征码进行屏蔽,屏蔽后返回的状态码为:403。使用蜘蛛屏蔽功能首先进入管理后台,点击蜘蛛屏蔽管理进入到以下界面:
如果需要屏蔽百度,只需要开启屏蔽开关然后勾选百度蜘蛛即可
我们用模拟UA的工具测试下访问结果:
当程序内置的屏蔽满足不了需求的时候,可以采用特征码屏蔽,一行一个。比如我们要屏蔽一淘网蜘蛛,它的UA如下
Mozilla/5.0 (compatible; EtaoSpider/1.0; EtaoSpider)
我们想要屏蔽它的话我们只需要填写
EtaoSpider
就好了,程序就会对请求UA中带有EtaoSpider的全部返回403。
程序查看蜘蛛日志有两种方法:
查看TXT文本:这种方式看到的很详细,可以看到所有的蜘蛛爬取,具体查看如下:
点击主程序的蜘蛛日志就会打开蜘蛛日志存放的文件夹,日志存放跟按天存放的,可以看到每天的详细日志
查看蜘蛛表报,可以很看到三天内的一个蜘蛛幅度,以及最新1W条蜘蛛爬取记录,使用这种方式查看首先进入管理后台,点击蜘蛛爬行记录进入到以下界面: