VIPnytt bot VIPnytt bot

蜘蛛/爬虫名称
VIPnytt bot
开发商
VIP nytt AS
官网
vipnytt.no
当前状态
活动
  • RobotsTxtParser-VIPnytt/2.1
  • RobotsTxtParser-VIPnytt/2.0
  • SitemapParser-VIPnytt/1.0
  • jpg-newsbot/2.0
用户代理字符串
RobotsTxtParser-VIPnytt/2.1 (+https://github.com/VIPnytt/RobotsTxtParser/blob/master/README.md)
类型
首次出现
2021-10-30 20:31:37
最后出现
2024-11-07 17:51:23
遵循robots.txt
IP地址
2
来源
IP地址 服务器名称 所属国家
195.154.133.41 195-154-133-41.rev.poneytelecom.eu FR
52.59.102.78 ec2-52-59-102-78.eu-central-1.compute.amazonaws.com DE
用户代理字符串
RobotsTxtParser-VIPnytt/2.0 (+https://github.com/VIPnytt/RobotsTxtParser/blob/master/README.md)
类型
首次出现
2018-08-29 01:23:19
最后出现
2021-11-02 17:35:31
遵循robots.txt
IP地址
2
来源
IP地址 服务器名称 所属国家
3.127.119.2 ec2-3-127-119-2.eu-central-1.compute.amazonaws.com DE
62.138.3.191 astra4433.startdedicated.de FR
用户代理字符串
SitemapParser-VIPnytt/1.0 (+https://github.com/VIPnytt/SitemapParser/blob/master/README.md)
类型
首次出现
2018-04-04 15:08:00
最后出现
2018-04-04 15:08:00
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
104.207.143.191 ? US
用户代理字符串
Mozilla/5.0 (compatible; jpg-newsbot/2.0; +http://vipnytt.no/bot.html)
类型
信息流
首次出现
2015-12-10 08:05:00
最后出现
2016-04-20 23:57:21
遵循robots.txt
IP地址
3
来源
IP地址 服务器名称 所属国家
212.251.196.81 ? NO
84.202.187.83 ? NO
95.34.60.49 49.60.34.95.customer.cdi.no NO

一个易于使用、可扩展的 robots.txt 解析器库,完全支持互联网上的所有指令和规范。

用例:

  • 权限检查
  • 抓取爬虫规则
  • 发现网站地图
  • 主机偏好
  • 动态URL参数发现
  • robots.txt 渲染

优势

(与大多数其他 robots.txt 库相比)

  • 自动下载robots.txt 。(可选)
  • 集成缓存系统。(可选)
  • 抓取延迟处理程序
  • 可用的文档
  • 支持字面上的每一个指令,来自每一个规范。
  • HTTP状态代码处理程序,根据谷歌的规范。
  • 专用的用User-Agent分析器和组确定器库,以获得最大的准确性。
  • 提供额外的数据,如首选主机、动态URL参数、网站地图位置等。
  • 支持的协议:HTTP, HTTPS, FTP, SFTP 和 FTP/S.

要求:

安装

The recommended way to install the robots.txt parser is through Composer. Add this to your composer.json file:

安装 robots.txt 解析器的推荐方式是通过 Composer。在你的 composer.json文件中加入以下内容。

{
"require": {
"vipnytt/robotstxtparser": "^2.1"
}
}

然后运行: php composer update

开始使用

基本使用范例

<?php
$client = new vipnytt\RobotsTxtParser\UriClient('http://example.com');
if ($client->userAgent('MyBot')->isAllowed('http://example.com/somepage.html')) {
// Access is granted
}
if ($client->userAgent('MyBot')->isDisallowed('http://example.com/admin')) {
// Access is denied
}

基本方法的一个小节选

<?php
// Syntax: $baseUri, [$statusCode:int|null], [$robotsTxtContent:string], [$encoding:string], [$byteLimit:int|null]
$client = new vipnytt\RobotsTxtParser\TxtClient('http://example.com', 200, $robotsTxtContent);
// Permission checks
$allowed = $client->userAgent('MyBot')->isAllowed('http://example.com/somepage.html'); // bool
$denied = $client->userAgent('MyBot')->isDisallowed('http://example.com/admin'); // bool
// Crawl delay rules
$crawlDelay = $client->userAgent('MyBot')->crawlDelay()->getValue(); // float | int
// Dynamic URL parameters
$cleanParam = $client->cleanParam()->export(); // array
// Preferred host
$host = $client->host()->export(); // string | null
$host = $client->host()->getWithUriFallback(); // string
$host = $client->host()->isPreferred(); // bool
// XML Sitemap locations
$host = $client->sitemap()->export(); // array

以上只是一个基本的尝试,还有一大堆更高级和/或专门的方法,几乎可以用于任何目的。请访问小抄以了解技术细节。

请访问文档以了解更多信息。

常见问题

FAQs
查看更多 >