chatbot/scraper_functions.py

import requests
from bs4 import BeautifulSoup
from urllib.parse import quote

def getSoup(base_url, query = ""):
    page = requests.get(base_url + quote(query))
    soup = BeautifulSoup(page.content, "html.parser")
    return soup

def query_external_website(base_url, query):
    try:
        soup = getSoup(base_url, query)
        title = soup.find(id="firstHeading").text
        mainContentElement = soup.find(id="mw-content-text")
        if "This page is a redirect" in mainContentElement.text:
            redirectLink = mainContentElement.find(class_="redirectMsg").find_all("a")[0]["href"]
            return query_external_website(base_url, redirectLink)
        content = next((paragraph for paragraph in mainContentElement.select("p") if not paragraph.has_attr("class")), None)
        if content == None:
            raise Exception("Can't parse search result :(")
        return "\nTITLE:\n" + title + "\n\nCONTENT:\n" + content.text + "\n\nFULL LINK:\n" + base_url + quote(query)
    except Exception as e:
        return e

def getDmzTasks(url):
    try:
        soup = getSoup(url)
        tasks = soup.find_all(class_="task")
        result = "\nActive tasks:\n"
        for task in tasks:
            taskIndex = task.select("div")[0].text
            taskTitle = task.select("div")[1].text
            result += taskIndex + " " + taskTitle
            taskSoup = getSoup(url + task.find("a")["href"][1:])
            description = taskSoup.find("main").select("section")[0].find("p").text
            result += "\n\tDescription:\n" + "\t\t" + description + "\n"
            result += "\tAssigned users:\n" + "\t\t"
            assignedUsers = taskSoup.find_all(class_="user-info-wrap")
            if len(assignedUsers) == 0:
                result += "None! Be the first :)\n"
                result += "\tLink: " + url + task.find("a")["href"][1:] + "\n\n"
                continue
            usersList = ""
            for user in assignedUsers:
                usersList += user.find("div").text.split(": ")[1] + ", "
            result += usersList[:-2] + "\n\n"
        return result
    except Exception as e:
        return e
Added scraper function 2024-02-06 01:21:53 +00:00			`import requests`
			`from bs4 import BeautifulSoup`
Correct url link from multiword wiki query 2024-02-06 01:58:45 +00:00			`from urllib.parse import quote`
Added scraper function 2024-02-06 01:21:53 +00:00
Added more info for dmz tasks 2024-02-06 21:06:06 +00:00			`def getSoup(base_url, query = ""):`
			`page = requests.get(base_url + quote(query))`
			`soup = BeautifulSoup(page.content, "html.parser")`
			`return soup`

Added scraper function 2024-02-06 01:21:53 +00:00			`def query_external_website(base_url, query):`
Added try catch for scraper functions 2024-02-06 01:37:19 +00:00			`try:`
Added more info for dmz tasks 2024-02-06 21:06:06 +00:00			`soup = getSoup(base_url, query)`
Better heading selector 2024-02-06 02:46:17 +00:00			`title = soup.find(id="firstHeading").text`
Better wiki redirect 2024-02-06 10:39:10 +00:00			`mainContentElement = soup.find(id="mw-content-text")`
			`if "This page is a redirect" in mainContentElement.text:`
			`redirectLink = mainContentElement.find(class_="redirectMsg").find_all("a")[0]["href"]`
			`return query_external_website(base_url, redirectLink)`
			`content = next((paragraph for paragraph in mainContentElement.select("p") if not paragraph.has_attr("class")), None)`
Raise exception on None content 2024-02-06 02:37:26 +00:00			`if content == None:`
Better wiki redirect 2024-02-06 10:39:10 +00:00			`raise Exception("Can't parse search result :(")`
Get first available paragraph from query 2024-02-06 02:34:43 +00:00			`return "\nTITLE:\n" + title + "\n\nCONTENT:\n" + content.text + "\n\nFULL LINK:\n" + base_url + quote(query)`
Better wiki redirect 2024-02-06 10:39:10 +00:00			`except Exception as e:`
			`return e`
Added tasks integration 2024-02-06 20:17:49 +00:00
Added link to tasks 2024-02-06 20:24:04 +00:00			`def getDmzTasks(url):`
Added tasks integration 2024-02-06 20:17:49 +00:00			`try:`
Added more info for dmz tasks 2024-02-06 21:06:06 +00:00			`soup = getSoup(url)`
Added tasks integration 2024-02-06 20:17:49 +00:00			`tasks = soup.find_all(class_="task")`
			`result = "\nActive tasks:\n"`
			`for task in tasks:`
			`taskIndex = task.select("div")[0].text`
			`taskTitle = task.select("div")[1].text`
Added more info for dmz tasks 2024-02-06 21:06:06 +00:00			`result += taskIndex + " " + taskTitle`
			`taskSoup = getSoup(url + task.find("a")["href"][1:])`
			`description = taskSoup.find("main").select("section")[0].find("p").text`
			`result += "\n\tDescription:\n" + "\t\t" + description + "\n"`
			`result += "\tAssigned users:\n" + "\t\t"`
			`assignedUsers = taskSoup.find_all(class_="user-info-wrap")`
			`if len(assignedUsers) == 0:`
			`result += "None! Be the first :)\n"`
			`result += "\tLink: " + url + task.find("a")["href"][1:] + "\n\n"`
			`continue`
			`usersList = ""`
			`for user in assignedUsers:`
			`usersList += user.find("div").text.split(": ")[1] + ", "`
			`result += usersList[:-2] + "\n\n"`
Added tasks integration 2024-02-06 20:17:49 +00:00			`return result`
			`except Exception as e:`
			`return e`