# -*- coding: utf-8 -*- """ Created on 2017-01-03 16:06 --------- @summary: parser æŽ§åˆ¶ç±» --------- @author: Boris @email: [email protected] """ import random import threading import time from collections.abc import Iterable import feapder.setting as setting import feapder.utils.tools as tools from feapder.buffer.item_buffer import ItemBuffer from feapder.db.memory_db import MemoryDB from feapder.network.item import Item from feapder.network.request import Request from feapder.utils import metrics from feapder.utils.log import log class PaserControl(threading.Thread): DOWNLOAD_EXCEPTION = "download_exception" DOWNLOAD_SUCCESS = "download_success" DOWNLOAD_TOTAL = "download_total" PAESERS_EXCEPTION = "parser_exception" is_show_tip = False # å®žæ—¶ç»Ÿè®¡å·²åšä»»åŠ¡æ•°åŠå¤±è´¥ä»»åŠ¡æ•°ï¼Œè‹¥å¤±è´¥ä»»åŠ¡æ•°/å·²åšä»»åŠ¡æ•°>0.5 åˆ™æŠ¥è¦ _success_task_count = 0 _failed_task_count = 0 def __init__(self, collector, redis_key, request_buffer, item_buffer): super(PaserControl, self).__init__() self._parsers = [] self._collector = collector self._redis_key = redis_key self._request_buffer = request_buffer self._item_buffer = item_buffer self._thread_stop = False self._wait_task_time = 0 def run(self): self._thread_stop = False while not self._thread_stop: try: requests = self._collector.get_requests(setting.SPIDER_TASK_COUNT) if not requests: if not self.is_show_tip: log.debug("parser ç‰å¾…ä»»åŠ¡...") self.is_show_tip = True # log.debug('parser ç‰å¾…ä»»åŠ¡{}...'.format(tools.format_seconds(self._wait_task_time))) time.sleep(1) self._wait_task_time += 1 continue self.is_show_tip = False self.deal_requests(requests) except Exception as e: log.exception(e) time.sleep(3) def is_not_task(self): return self.is_show_tip @classmethod def get_task_status_count(cls): return cls._failed_task_count, cls._success_task_count def deal_requests(self, requests): for request in requests: response = None request_redis = request["request_redis"] request = request["request_obj"] del_request_redis_after_item_to_db = False del_request_redis_after_request_to_db = False for parser in self._parsers: if parser.name == request.parser_name: used_download_midware_enable = False try: # è®°å½•éœ€ä¸‹è½½çš„æ–‡æ¡£ self.record_download_status( PaserControl.DOWNLOAD_TOTAL, parser.name ) # è§£æžrequest if request.auto_request: request_temp = None response = None # ä¸‹è½½ä¸é—´ä»¶ if request.download_midware: if isinstance(request.download_midware, (list, tuple)): request_temp = request for download_midware in request.download_midware: download_midware = ( download_midware if callable(download_midware) else tools.get_method( parser, download_midware ) ) request_temp = download_midware(request_temp) else: download_midware = ( request.download_midware if callable(request.download_midware) else tools.get_method( parser, request.download_midware ) ) request_temp = download_midware(request) elif request.download_midware != False: request_temp = parser.download_midware(request) # è¯·æ±‚ if request_temp: if ( isinstance(request_temp, (tuple, list)) and len(request_temp) == 2 ): request_temp, response = request_temp if not isinstance(request_temp, Request): raise Exception( "download_midware need return a request, but received type: {}".format( type(request_temp) ) ) used_download_midware_enable = True if not response: response = ( request_temp.get_response() if not setting.RESPONSE_CACHED_USED else request_temp.get_response_from_cached( save_cached=False ) ) else: response = ( request.get_response() if not setting.RESPONSE_CACHED_USED else request.get_response_from_cached( save_cached=False ) ) if response == None: raise Exception( "è¿žæŽ¥è¶…æ—¶ url: %s" % (request.url or request_temp.url) ) else: response = None # æ ¡éªŒ if parser.validate(request, response) == False: continue if request.callback: # å¦‚æžœæœ‰parserçš„å›žè°ƒå‡½æ•°ï¼Œåˆ™ç”¨å›žè°ƒå¤„ç† callback_parser = ( request.callback if callable(request.callback) else tools.get_method(parser, request.callback) ) results = callback_parser(request, response) else: # å¦åˆ™é»˜è®¤ç”¨parserå¤„ç† results = parser.parse(request, response) if results and not isinstance(results, Iterable): raise Exception( "%s.%sè¿”å›žå€¼å¿…é¡»å¯è¿ä»£" % (parser.name, request.callback or "parse") ) # æ ‡è¯†ä¸Šä¸€ä¸ªresultæ˜¯ä»€ä¹ˆ result_type = 0 # 0\1\2 (åˆå§‹å€¼\request\item) # æ¤å¤„åˆ¤æ–æ˜¯request è¿˜æ˜¯ item for result in results or []: if isinstance(result, Request): result_type = 1 # ç»™requestçš„ parser_name èµ‹å€¼ result.parser_name = result.parser_name or parser.name # åˆ¤æ–æ˜¯åŒæ¥çš„callbackè¿˜æ˜¯å¼‚æ¥çš„ if result.request_sync: # åŒæ¥ request_dict = { "request_obj": result, "request_redis": None, } requests.append(request_dict) else: # å¼‚æ¥ # å°†next_request å…¥åº“ self._request_buffer.put_request(result) del_request_redis_after_request_to_db = True elif isinstance(result, Item): result_type = 2 # å°†itemå…¥åº“ self._item_buffer.put_item(result) # éœ€åˆ é™¤æ£åœ¨åšçš„request del_request_redis_after_item_to_db = True elif callable(result): # resultä¸ºå¯æ‰§è¡Œçš„æ— å‚å‡½æ•° if ( result_type == 2 ): # item çš„ callbackï¼Œbufferé‡Œçš„itemå‡å…¥åº“åŽå†æ‰§è¡Œ self._item_buffer.put_item(result) del_request_redis_after_item_to_db = True else: # result_type == 1: # request çš„ callbackï¼Œbufferé‡Œçš„requestå‡å…¥åº“åŽå†æ‰§è¡Œã€‚å¯èƒ½æœ‰çš„parserç›´æŽ¥è¿”å›žcallback self._request_buffer.put_request(result) del_request_redis_after_request_to_db = True elif result is not None: function_name = "{}.{}".format( parser.name, ( request.callback and callable(request.callback) and getattr(request.callback, "__name__") or request.callback ) or "parse", ) raise TypeError( f"{function_name} result expect Requestã€Item or callback, bug get type: {type(result)}" ) except Exception as e: exception_type = ( str(type(e)).replace("", "") ) if exception_type.startswith("requests"): # è®°å½•ä¸‹è½½å¤±è´¥çš„æ–‡æ¡£ self.record_download_status( PaserControl.DOWNLOAD_EXCEPTION, parser.name ) else: # è®°å½•è§£æžç¨‹åºå¼‚å¸¸ self.record_download_status( PaserControl.PAESERS_EXCEPTION, parser.name ) if setting.LOG_LEVEL == "DEBUG": # åªæœ‰debugæ¨¡å¼ä¸‹æ‰“å°ï¼Œ è¶…æ—¶çš„å¼‚å¸¸ç¯‡å¹…å¤ªå¤š log.exception(e) log.error( """ -------------- %s.%s error ------------- error %s response %s deal request %s """ % ( parser.name, ( request.callback and callable(request.callback) and getattr(request.callback, "__name__") or request.callback ) or "parse", str(e), response, tools.dumps_json(request.to_dict, indent=28) if setting.LOG_LEVEL == "DEBUG" else request, ) ) request.error_msg = "%s: %s" % (exception_type, e) request.response = str(response) if "Invalid URL" in str(e): request.is_abandoned = True requests = parser.exception_request(request, response) or [ request ] if not isinstance(requests, Iterable): raise Exception( "%s.%sè¿”å›žå€¼å¿…é¡»å¯è¿ä»£" % (parser.name, "exception_request") ) for request in requests: if callable(request): self._request_buffer.put_request(request) continue if not isinstance(request, Request): raise Exception("exception_request éœ€ yield request") if ( request.retry_times + 1 > setting.SPIDER_MAX_RETRY_TIMES or request.is_abandoned ): self.__class__._failed_task_count += 1 # è®°å½•å¤±è´¥ä»»åŠ¡æ•° # å¤„ç†failed_requestçš„è¿”å›žå€¼ request æˆ– func results = parser.failed_request(request, response) or [ request ] if not isinstance(results, Iterable): raise Exception( "%s.%sè¿”å›žå€¼å¿…é¡»å¯è¿ä»£" % (parser.name, "failed_request") ) for result in results: if isinstance(result, Request): if setting.SAVE_FAILED_REQUEST: if used_download_midware_enable: # åŽ»æŽ‰download_midware æ·»åŠ çš„å±žæ€§ original_request = ( Request.from_dict( eval(request_redis) ) if request_redis else result ) original_request.error_msg = ( request.error_msg ) original_request.response = ( request.response ) self._request_buffer.put_failed_request( original_request ) else: self._request_buffer.put_failed_request( result ) elif callable(result): self._request_buffer.put_request(result) elif isinstance(result, Item): self._item_buffer.put_item(result) del_request_redis_after_request_to_db = True else: # å°† requests é‡æ–°å…¥åº“ çˆ¬å– request.retry_times += 1 request.filter_repeat = False log.info( """ å…¥åº“ ç‰å¾…é‡è¯• url %s é‡è¯•æ¬¡æ•° %s æœ€å¤§å…è®¸é‡è¯•æ¬¡æ•° %s""" % ( request.url, request.retry_times, setting.SPIDER_MAX_RETRY_TIMES, ) ) if used_download_midware_enable: # åŽ»æŽ‰download_midware æ·»åŠ çš„å±žæ€§ ä½¿ç”¨åŽŸæ¥çš„requests original_request = ( Request.from_dict(eval(request_redis)) if request_redis else request ) if hasattr(request, "error_msg"): original_request.error_msg = request.error_msg if hasattr(request, "response"): original_request.response = request.response original_request.retry_times = request.retry_times original_request.filter_repeat = ( request.filter_repeat ) self._request_buffer.put_request(original_request) else: self._request_buffer.put_request(request) del_request_redis_after_request_to_db = True else: # è®°å½•ä¸‹è½½æˆåŠŸçš„æ–‡æ¡£ self.record_download_status( PaserControl.DOWNLOAD_SUCCESS, parser.name ) # è®°å½•æˆåŠŸä»»åŠ¡æ•° self.__class__._success_task_count += 1 # ç¼“å˜ä¸‹è½½æˆåŠŸçš„æ–‡æ¡£ if setting.RESPONSE_CACHED_ENABLE: request.save_cached( response=response, expire_time=setting.RESPONSE_CACHED_EXPIRE_TIME, ) finally: # é‡Šæ”¾æµè§ˆå™¨ if response and hasattr(response, "browser"): request._webdriver_pool.put(response.browser) break # åˆ é™¤æ£åœ¨åšçš„request è·Ÿéšitemä¼˜å…ˆ if request_redis: if del_request_redis_after_item_to_db: self._item_buffer.put_item(request_redis) elif del_request_redis_after_request_to_db: self._request_buffer.put_del_request(request_redis) else: self._request_buffer.put_del_request(request_redis) if setting.SPIDER_SLEEP_TIME: if ( isinstance(setting.SPIDER_SLEEP_TIME, (tuple, list)) and len(setting.SPIDER_SLEEP_TIME) == 2 ): sleep_time = random.randint( int(setting.SPIDER_SLEEP_TIME[0]), int(setting.SPIDER_SLEEP_TIME[1]) ) time.sleep(sleep_time) else: time.sleep(setting.SPIDER_SLEEP_TIME) def record_download_status(self, status, spider): """ è®°å½•htmlç‰æ–‡æ¡£ä¸‹è½½çŠ¶æ€ @return: """ metrics.emit_counter(f"{spider}:{status}", 1, classify="document") def stop(self): self._thread_stop = True self._started.clear() def add_parser(self, parser): self._parsers.append(parser) class AirSpiderParserControl(PaserControl): is_show_tip = False # å®žæ—¶ç»Ÿè®¡å·²åšä»»åŠ¡æ•°åŠå¤±è´¥ä»»åŠ¡æ•°ï¼Œè‹¥å¤±è´¥ä»»åŠ¡æ•°/å·²åšä»»åŠ¡æ•°>0.5 åˆ™æŠ¥è¦ _success_task_count = 0 _failed_task_count = 0 def __init__(self, memory_db: MemoryDB, item_buffer: ItemBuffer): super(PaserControl, self).__init__() self._parsers = [] self._memory_db = memory_db self._thread_stop = False self._wait_task_time = 0 self._item_buffer = item_buffer def run(self): while not self._thread_stop: try: requests = self._memory_db.get() if not requests: if not self.is_show_tip: log.debug("parser ç‰å¾…ä»»åŠ¡...") self.is_show_tip = True time.sleep(1) self._wait_task_time += 1 continue self.is_show_tip = False self.deal_requests([requests]) except Exception as e: log.exception(e) time.sleep(3) def deal_requests(self, requests): for request in requests: response = None for parser in self._parsers: if parser.name == request.parser_name: try: # è®°å½•éœ€ä¸‹è½½çš„æ–‡æ¡£ self.record_download_status( PaserControl.DOWNLOAD_TOTAL, parser.name ) # è§£æžrequest if request.auto_request: request_temp = None response = None # ä¸‹è½½ä¸é—´ä»¶ if request.download_midware: if isinstance(request.download_midware, (list, tuple)): request_temp = request for download_midware in request.download_midware: download_midware = ( download_midware if callable(download_midware) else tools.get_method( parser, download_midware ) ) request_temp = download_midware(request_temp) else: download_midware = ( request.download_midware if callable(request.download_midware) else tools.get_method( parser, request.download_midware ) ) request_temp = download_midware(request) elif request.download_midware != False: request_temp = parser.download_midware(request) # è¯·æ±‚ if request_temp: if ( isinstance(request_temp, (tuple, list)) and len(request_temp) == 2 ): request_temp, response = request_temp if not isinstance(request_temp, Request): raise Exception( "download_midware need return a request, but received type: {}".format( type(request_temp) ) ) request = request_temp if not response: response = ( request.get_response() if not setting.RESPONSE_CACHED_USED else request.get_response_from_cached( save_cached=False ) ) else: response = None # æ ¡éªŒ if parser.validate(request, response) == False: continue if request.callback: # å¦‚æžœæœ‰parserçš„å›žè°ƒå‡½æ•°ï¼Œåˆ™ç”¨å›žè°ƒå¤„ç† callback_parser = ( request.callback if callable(request.callback) else tools.get_method(parser, request.callback) ) results = callback_parser(request, response) else: # å¦åˆ™é»˜è®¤ç”¨parserå¤„ç† results = parser.parse(request, response) if results and not isinstance(results, Iterable): raise Exception( "%s.%sè¿”å›žå€¼å¿…é¡»å¯è¿ä»£" % (parser.name, request.callback or "parse") ) # æ¤å¤„åˆ¤æ–æ˜¯request è¿˜æ˜¯ item for result in results or []: if isinstance(result, Request): # ç»™requestçš„ parser_name èµ‹å€¼ result.parser_name = result.parser_name or parser.name # åˆ¤æ–æ˜¯åŒæ¥çš„callbackè¿˜æ˜¯å¼‚æ¥çš„ if result.request_sync: # åŒæ¥ requests.append(result) else: # å¼‚æ¥ # å°†next_request å…¥åº“ self._memory_db.add(result) elif isinstance(result, Item): self._item_buffer.put_item(result) elif result is not None: function_name = "{}.{}".format( parser.name, ( request.callback and callable(request.callback) and getattr(request.callback, "__name__") or request.callback ) or "parse", ) raise TypeError( f"{function_name} result expect Request or Item, bug get type: {type(result)}" ) except Exception as e: exception_type = ( str(type(e)).replace("", "") ) if exception_type.startswith("requests"): # è®°å½•ä¸‹è½½å¤±è´¥çš„æ–‡æ¡£ self.record_download_status( PaserControl.DOWNLOAD_EXCEPTION, parser.name ) else: # è®°å½•è§£æžç¨‹åºå¼‚å¸¸ self.record_download_status( PaserControl.PAESERS_EXCEPTION, parser.name ) if setting.LOG_LEVEL == "DEBUG": # åªæœ‰debugæ¨¡å¼ä¸‹æ‰“å°ï¼Œ è¶…æ—¶çš„å¼‚å¸¸ç¯‡å¹…å¤ªå¤š log.exception(e) log.error( """ -------------- %s.%s error ------------- error %s response %s deal request %s """ % ( parser.name, ( request.callback and callable(request.callback) and getattr(request.callback, "__name__") or request.callback ) or "parse", str(e), response, tools.dumps_json(request.to_dict, indent=28) if setting.LOG_LEVEL == "DEBUG" else request, ) ) request.error_msg = "%s: %s" % (exception_type, e) request.response = str(response) if "Invalid URL" in str(e): request.is_abandoned = True requests = parser.exception_request(request, response) or [ request ] if not isinstance(requests, Iterable): raise Exception( "%s.%sè¿”å›žå€¼å¿…é¡»å¯è¿ä»£" % (parser.name, "exception_request") ) for request in requests: if not isinstance(request, Request): raise Exception("exception_request éœ€ yield request") if ( request.retry_times + 1 > setting.SPIDER_MAX_RETRY_TIMES or request.is_abandoned ): self.__class__._failed_task_count += 1 # è®°å½•å¤±è´¥ä»»åŠ¡æ•° # å¤„ç†failed_requestçš„è¿”å›žå€¼ request æˆ– func results = parser.failed_request(request, response) or [ request ] if not isinstance(results, Iterable): raise Exception( "%s.%sè¿”å›žå€¼å¿…é¡»å¯è¿ä»£" % (parser.name, "failed_request") ) log.info( """ ä»»åŠ¡è¶…è¿‡æœ€å¤§é‡è¯•æ¬¡æ•°ï¼Œä¸¢å¼ƒ url %s é‡è¯•æ¬¡æ•° %s æœ€å¤§å…è®¸é‡è¯•æ¬¡æ•° %s""" % ( request.url, request.retry_times, setting.SPIDER_MAX_RETRY_TIMES, ) ) else: # å°† requests é‡æ–°å…¥åº“ çˆ¬å– request.retry_times += 1 request.filter_repeat = False log.info( """ å…¥åº“ ç‰å¾…é‡è¯• url %s é‡è¯•æ¬¡æ•° %s æœ€å¤§å…è®¸é‡è¯•æ¬¡æ•° %s""" % ( request.url, request.retry_times, setting.SPIDER_MAX_RETRY_TIMES, ) ) self._memory_db.add(request) else: # è®°å½•ä¸‹è½½æˆåŠŸçš„æ–‡æ¡£ self.record_download_status( PaserControl.DOWNLOAD_SUCCESS, parser.name ) # è®°å½•æˆåŠŸä»»åŠ¡æ•° self.__class__._success_task_count += 1 # ç¼“å˜ä¸‹è½½æˆåŠŸçš„æ–‡æ¡£ if setting.RESPONSE_CACHED_ENABLE: request.save_cached( response=response, expire_time=setting.RESPONSE_CACHED_EXPIRE_TIME, ) finally: # é‡Šæ”¾æµè§ˆå™¨ if response and hasattr(response, "browser"): request._webdriver_pool.put(response.browser) break if setting.SPIDER_SLEEP_TIME: if ( isinstance(setting.SPIDER_SLEEP_TIME, (tuple, list)) and len(setting.SPIDER_SLEEP_TIME) == 2 ): sleep_time = random.randint( int(setting.SPIDER_SLEEP_TIME[0]), int(setting.SPIDER_SLEEP_TIME[1]) ) time.sleep(sleep_time) else: time.sleep(setting.SPIDER_SLEEP_TIME)