ebay-ml-lister/scrape_ids.py

from bs4 import BeautifulSoup as b
import re
import json
import requests
import concurrent.futures
import config as cfg

def get_isurl(category_id): # "get itemSearchURL"

    '''
    Gets raw JSON data fom FindingApi service call. Currently being used to
    get itemIDs from categories;
    '''

    params = {
        "OPERATION-NAME":'findItemsByCategory',
        "SECURITY-APPNAME":cfg.sec['SECURITY-APPNAME'],
        "SERVICE-VERSION":"1.13.0",
        "RESPONSE-DATA-FORMAT":"JSON",
        "categoryId":category_id,
        "paginationInput.entriesPerPage":"1",
        "paginationInput.PageNumber":1,
        "itemFilter(0).name":"Condition",
        "itemFilter(0).value":"Used",
        "itemFilter.name":"HideDuplicateItems",
        "itemFilter.value":"true",
        }
    
    try:
        response = requests.get("https://svcs.ebay.com/services/search/FindingService/v1",
            params=params, timeout=24)
        response.raise_for_status()

    except requests.exceptions.RequestException:
        print('connection error')
        return url
    try:
        data = response.json()
        print(data)
        # NOTE approx 220 pages of listings per cat @ 35 items per page
        item_cond = "&rt=nc&LH_ItemCondition=3000&mag=1" # preowned
        item_cond_new = '&LH_ItemCondition=3'
        urls = []
        base_url = data['findItemsByCategoryResponse'][0]['itemSearchURL'][0] 
        for pg in list(range(1,34)): # No results after around page 32
            url = base_url+"&_pgn="+str(pg)+item_cond
            print(url)
            urls.append(url)
            
    except (AttributeError, KeyError):
        print('AttributeError or KeyError. Exiting')

    return urls

def threaded_urls():

    urls = []
    with open('cat_list.txt') as jf:
        cat_list = json.load(jf)

    with concurrent.futures.ThreadPoolExecutor() as executor:
        for future in executor.map(get_isurl, cat_list):
            urls.extend(future)

    return urls

def get_ids(url):
    '''
    Scrapes listing links for item ID in url
    '''
    html = requests.get(url).text
    soup = b(html, "html.parser")
    print(soup)
    ids = list(soup.find_all(href=re.compile(r"[\d]+(?=\?hash)")))
    ids = [id['href'] for id in ids]
    ids = [re.findall(r"[\d]+(?=\?)", id)[0] for id in ids]
    print(ids)

    return ids

def threaded_get_ids(urls):
    '''
    Runs get_ids() w/in ThreadPoolExecutor() for multi threaded requests.
    Constructs and saves unique ids and 20_itemIDs for use with ebay_api
    methods
   ''' 
    try:
        with open('ids.txt') as f:
            ids = json.load(f)
    except FileNotFoundError:
        ids = []

    with concurrent.futures.ThreadPoolExecutor() as executor:
        for future in executor.map(get_ids, urls):
            ids.extend(future)

    ids = list(set(ids)) # necessary; two links are returned with pattern match
    item_id_results = [','.join(ids[n:n+20]) for n in list(range(0,
    len(ids), 20))] # 20-ItemID list created to maximize dataset/decrease calls given call constraints

    with open('ids.txt', 'w') as f:
        json.dump(ids,f)

    with open('item_id_results.txt', 'w') as f:
        json.dump(item_id_results, f)

    return item_id_results

def  id_count():
    '''
    Counts Unique IDs of item_id_results for testing
    '''
    with open('item_id_results.txt') as f:
        item_id_results = json.load(f)
    
    ids = ','.join(item_id_results)
    ids = ids.split(',')
    uniq = len(list(set(ids)))
    print('{} Unique IDs'.format(uniq))

    return ids

def main():
    urls = threaded_urls()
    item_id_results = threaded_get_ids(urls)
    return item_id_results

if __name__=="__main__":
    main()
traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00			`from bs4 import BeautifulSoup as b`
			`import re`
			`import json`
			`import requests`
			`import concurrent.futures`
			`import config as cfg`

			`def get_isurl(category_id): # "get itemSearchURL"`

			`'''`
			`Gets raw JSON data fom FindingApi service call. Currently being used to`
			`get itemIDs from categories;`
			`'''`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00
traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00			`params = {`
			`"OPERATION-NAME":'findItemsByCategory',`
			`"SECURITY-APPNAME":cfg.sec['SECURITY-APPNAME'],`
			`"SERVICE-VERSION":"1.13.0",`
			`"RESPONSE-DATA-FORMAT":"JSON",`
			`"categoryId":category_id,`
			`"paginationInput.entriesPerPage":"1",`
			`"paginationInput.PageNumber":1,`
			`"itemFilter(0).name":"Condition",`
			`"itemFilter(0).value":"Used",`
			`"itemFilter.name":"HideDuplicateItems",`
			`"itemFilter.value":"true",`
			`}`

			`try:`
			`response = requests.get("https://svcs.ebay.com/services/search/FindingService/v1",`
			`params=params, timeout=24)`
			`response.raise_for_status()`

			`except requests.exceptions.RequestException:`
			`print('connection error')`
			`return url`
			`try:`
			`data = response.json()`
unique ids fix 2021-12-01 20:43:14 +00:00			`print(data)`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`# NOTE approx 220 pages of listings per cat @ 35 items per page`
traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00			`item_cond = "&rt=nc&LH_ItemCondition=3000&mag=1" # preowned`
unique ids fix 2021-12-01 20:43:14 +00:00			`item_cond_new = '&LH_ItemCondition=3'`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`urls = []`
unique ids fix 2021-12-01 20:43:14 +00:00			`base_url = data['findItemsByCategoryResponse'][0]['itemSearchURL'][0]`
			`for pg in list(range(1,34)): # No results after around page 32`
			`url = base_url+"&_pgn="+str(pg)+item_cond`
			`print(url)`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`urls.append(url)`

traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00			`except (AttributeError, KeyError):`
			`print('AttributeError or KeyError. Exiting')`

scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`return urls`
traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`def threaded_urls():`
traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00
			`urls = []`
			`with open('cat_list.txt') as jf:`
			`cat_list = json.load(jf)`

			`with concurrent.futures.ThreadPoolExecutor() as executor:`
			`for future in executor.map(get_isurl, cat_list):`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`urls.extend(future)`
traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00
			`return urls`

scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`def get_ids(url):`
saves list of 20_itemids instead of list of ids 2021-11-30 19:43:37 +00:00			`'''`
			`Scrapes listing links for item ID in url`
			`'''`
traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00			`html = requests.get(url).text`
			`soup = b(html, "html.parser")`
unique ids fix 2021-12-01 20:43:14 +00:00			`print(soup)`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`ids = list(soup.find_all(href=re.compile(r"[\d]+(?=\?hash)")))`
traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00			`ids = [id['href'] for id in ids]`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`ids = [re.findall(r"[\d]+(?=\?)", id)[0] for id in ids]`
unique ids fix 2021-12-01 20:43:14 +00:00			`print(ids)`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00
			`return ids`

			`def threaded_get_ids(urls):`
unique ids fix 2021-12-01 20:43:14 +00:00			`'''`
			`Runs get_ids() w/in ThreadPoolExecutor() for multi threaded requests.`
			`Constructs and saves unique ids and 20_itemIDs for use with ebay_api`
			`methods`
			`'''`
change master 2021-12-01 01:32:01 +00:00			`try:`
unique ids fix 2021-12-01 20:43:14 +00:00			`with open('ids.txt') as f:`
change master 2021-12-01 01:32:01 +00:00			`ids = json.load(f)`
			`except FileNotFoundError:`
			`ids = []`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00
			`with concurrent.futures.ThreadPoolExecutor() as executor:`
			`for future in executor.map(get_ids, urls):`
			`ids.extend(future)`
change master 2021-12-01 01:32:01 +00:00
unique ids fix 2021-12-01 20:43:14 +00:00			`ids = list(set(ids)) # necessary; two links are returned with pattern match`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`item_id_results = [','.join(ids[n:n+20]) for n in list(range(0,`
saves list of 20_itemids instead of list of ids 2021-11-30 19:43:37 +00:00			`len(ids), 20))] # 20-ItemID list created to maximize dataset/decrease calls given call constraints`
change master 2021-12-01 01:32:01 +00:00
unique ids fix 2021-12-01 20:43:14 +00:00			`with open('ids.txt', 'w') as f:`
			`json.dump(ids,f)`

change master 2021-12-01 01:32:01 +00:00			`with open('item_id_results.txt', 'w') as f:`
			`json.dump(item_id_results, f)`
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00
			`return item_id_results`
change master 2021-12-01 01:32:01 +00:00
unique ids fix 2021-12-01 20:43:14 +00:00			`def id_count():`
			`'''`
			`Counts Unique IDs of item_id_results for testing`
			`'''`
			`with open('item_id_results.txt') as f:`
			`item_id_results = json.load(f)`

			`ids = ','.join(item_id_results)`
			`ids = ids.split(',')`
			`uniq = len(list(set(ids)))`
			`print('{} Unique IDs'.format(uniq))`

			`return ids`

scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`def main():`
			`urls = threaded_urls()`
			`item_id_results = threaded_get_ids(urls)`
			`return item_id_results`
traditional id scraper with BeautifulSoup 2021-11-26 01:31:54 +00:00
scrape_ids working. Added function to conky in ebay_api 2021-11-27 01:46:51 +00:00			`if __name__=="__main__":`
			`main()`