tubearchivist/tubearchivist/home/src/index/generic.py

"""
functionality:
- generic base class to inherit from for video, channel and playlist
"""

import math

from home.src.download.yt_dlp_base import YtWrap
from home.src.es.connect import ElasticWrap
from home.src.ta.config import AppConfig
from home.src.ta.ta_redis import RedisArchivist


class YouTubeItem:
    """base class for youtube"""

    es_path = False
    index_name = False
    yt_base = False
    yt_obs = {
        "skip_download": True,
        "noplaylist": True,
    }

    def __init__(self, youtube_id):
        self.youtube_id = youtube_id
        self.config = AppConfig().config
        self.app_conf = self.config["application"]
        self.youtube_meta = False
        self.json_data = False

    def get_from_youtube(self):
        """use yt-dlp to get meta data from youtube"""
        print(f"{self.youtube_id}: get metadata from youtube")
        url = self.yt_base + self.youtube_id
        response = YtWrap(self.yt_obs, self.config).extract(url)

        self.youtube_meta = response

    def get_from_es(self):
        """get indexed data from elastic search"""
        print(f"{self.youtube_id}: get metadata from es")
        response, _ = ElasticWrap(f"{self.es_path}").get()
        source = response.get("_source")
        self.json_data = source

    def upload_to_es(self):
        """add json_data to elastic"""
        _, _ = ElasticWrap(self.es_path).put(self.json_data, refresh=True)

    def deactivate(self):
        """deactivate document in es"""
        print(f"{self.youtube_id}: deactivate document")
        key_match = {
            "ta_video": "active",
            "ta_channel": "channel_active",
            "ta_playlist": "playlist_active",
        }
        path = f"{self.index_name}/_update/{self.youtube_id}?refresh=true"
        data = {
            "script": f"ctx._source.{key_match.get(self.index_name)} = false"
        }
        _, _ = ElasticWrap(path).post(data)

    def del_in_es(self):
        """delete item from elastic search"""
        print(f"{self.youtube_id}: delete from es")
        _, _ = ElasticWrap(self.es_path).delete(refresh=True)


class Pagination:
    """
    figure out the pagination based on page size and total_hits
    """

    def __init__(self, request):
        self.request = request
        self.page_get = False
        self.params = False
        self.get_params()
        self.page_size = self.get_page_size()
        self.pagination = self.first_guess()

    def get_params(self):
        """process url query parameters"""
        query_dict = self.request.GET.copy()
        self.page_get = int(query_dict.get("page", 0))

        _ = query_dict.pop("page", False)
        self.params = query_dict.urlencode()

    def get_page_size(self):
        """get default or user modified page_size"""
        key = f"{self.request.user.id}:page_size"
        page_size = RedisArchivist().get_message(key)["status"]
        if not page_size:
            config = AppConfig().config
            page_size = config["archive"]["page_size"]

        return page_size

    def first_guess(self):
        """build first guess before api call"""
        page_get = self.page_get
        if page_get in [0, 1]:
            page_from = 0
            prev_pages = False
        elif page_get > 1:
            page_from = (page_get - 1) * self.page_size
            prev_pages = [
                i for i in range(page_get - 1, page_get - 6, -1) if i > 1
            ]
            prev_pages.reverse()
        pagination = {
            "page_size": self.page_size,
            "page_from": page_from,
            "prev_pages": prev_pages,
            "current_page": page_get,
            "max_hits": False,
            "params": self.params,
        }

        return pagination

    def validate(self, total_hits):
        """validate pagination with total_hits after making api call"""
        page_get = self.page_get
        max_pages = math.ceil(total_hits / self.page_size)
        if total_hits >= 10000:
            # es returns maximal 10000 results
            self.pagination["max_hits"] = True
            max_pages = max_pages - 1

        if page_get < max_pages and max_pages > 1:
            self.pagination["last_page"] = max_pages
        else:
            self.pagination["last_page"] = False
        next_pages = [
            i for i in range(page_get + 1, page_get + 6) if 1 < i < max_pages
        ]

        self.pagination["next_pages"] = next_pages
        self.pagination["total_hits"] = total_hits
update doc strings to represent new module structure 2022-01-23 12:32:08 +00:00			`"""`
			`functionality:`
			`- generic base class to inherit from for video, channel and playlist`
			`"""`
major refactor, split up modules 2022-01-22 15:13:37 +00:00
			`import math`

implement new YtBase class for index classes 2022-05-24 03:01:30 +00:00			`from home.src.download.yt_dlp_base import YtWrap`
major refactor, split up modules 2022-01-22 15:13:37 +00:00			`from home.src.es.connect import ElasticWrap`
			`from home.src.ta.config import AppConfig`
			`from home.src.ta.ta_redis import RedisArchivist`


			`class YouTubeItem:`
			`"""base class for youtube"""`

			`es_path = False`
			`index_name = False`
			`yt_base = False`
			`yt_obs = {`
			`"skip_download": True,`
			`"noplaylist": True,`
			`}`

			`def __init__(self, youtube_id):`
			`self.youtube_id = youtube_id`
			`self.config = AppConfig().config`
			`self.app_conf = self.config["application"]`
refactor use cookie io_stream 2022-05-24 08:51:58 +00:00			`self.youtube_meta = False`
			`self.json_data = False`
major refactor, split up modules 2022-01-22 15:13:37 +00:00
			`def get_from_youtube(self):`
			`"""use yt-dlp to get meta data from youtube"""`
			`print(f"{self.youtube_id}: get metadata from youtube")`
refactor use cookie io_stream 2022-05-24 08:51:58 +00:00			`url = self.yt_base + self.youtube_id`
			`response = YtWrap(self.yt_obs, self.config).extract(url)`
major refactor, split up modules 2022-01-22 15:13:37 +00:00
			`self.youtube_meta = response`

			`def get_from_es(self):`
			`"""get indexed data from elastic search"""`
			`print(f"{self.youtube_id}: get metadata from es")`
			`response, _ = ElasticWrap(f"{self.es_path}").get()`
			`source = response.get("_source")`
			`self.json_data = source`

			`def upload_to_es(self):`
			`"""add json_data to elastic"""`
			`_, _ = ElasticWrap(self.es_path).put(self.json_data, refresh=True)`

			`def deactivate(self):`
			`"""deactivate document in es"""`
fix reindex and deactivate error 2022-02-13 03:05:08 +00:00			`print(f"{self.youtube_id}: deactivate document")`
major refactor, split up modules 2022-01-22 15:13:37 +00:00			`key_match = {`
fix reindex and deactivate error 2022-02-13 03:05:08 +00:00			`"ta_video": "active",`
			`"ta_channel": "channel_active",`
			`"ta_playlist": "playlist_active",`
major refactor, split up modules 2022-01-22 15:13:37 +00:00			`}`
fix channel deactivation, take 2 2022-11-22 03:17:44 +00:00			`path = f"{self.index_name}/_update/{self.youtube_id}?refresh=true"`
major refactor, split up modules 2022-01-22 15:13:37 +00:00			`data = {`
			`"script": f"ctx._source.{key_match.get(self.index_name)} = false"`
			`}`
fix channel deactivation, take 2 2022-11-22 03:17:44 +00:00			`_, _ = ElasticWrap(path).post(data)`
major refactor, split up modules 2022-01-22 15:13:37 +00:00
			`def del_in_es(self):`
			`"""delete item from elastic search"""`
			`print(f"{self.youtube_id}: delete from es")`
refresh for PendingInteract delete to avoid race condition, #217 2022-05-02 11:20:56 +00:00			`_, _ = ElasticWrap(self.es_path).delete(refresh=True)`
major refactor, split up modules 2022-01-22 15:13:37 +00:00

			`class Pagination:`
			`"""`
			`figure out the pagination based on page size and total_hits`
			`"""`

append query parameters to pagination 2022-10-17 11:40:20 +00:00			`def __init__(self, request):`
			`self.request = request`
			`self.page_get = False`
			`self.params = False`
			`self.get_params()`
major refactor, split up modules 2022-01-22 15:13:37 +00:00			`self.page_size = self.get_page_size()`
			`self.pagination = self.first_guess()`

append query parameters to pagination 2022-10-17 11:40:20 +00:00			`def get_params(self):`
			`"""process url query parameters"""`
			`query_dict = self.request.GET.copy()`
			`self.page_get = int(query_dict.get("page", 0))`

			`_ = query_dict.pop("page", False)`
			`self.params = query_dict.urlencode()`

major refactor, split up modules 2022-01-22 15:13:37 +00:00			`def get_page_size(self):`
			`"""get default or user modified page_size"""`
append query parameters to pagination 2022-10-17 11:40:20 +00:00			`key = f"{self.request.user.id}:page_size"`
major refactor, split up modules 2022-01-22 15:13:37 +00:00			`page_size = RedisArchivist().get_message(key)["status"]`
			`if not page_size:`
			`config = AppConfig().config`
			`page_size = config["archive"]["page_size"]`

			`return page_size`

			`def first_guess(self):`
			`"""build first guess before api call"""`
			`page_get = self.page_get`
			`if page_get in [0, 1]:`
			`page_from = 0`
			`prev_pages = False`
			`elif page_get > 1:`
			`page_from = (page_get - 1) * self.page_size`
			`prev_pages = [`
			`i for i in range(page_get - 1, page_get - 6, -1) if i > 1`
			`]`
			`prev_pages.reverse()`
			`pagination = {`
			`"page_size": self.page_size,`
			`"page_from": page_from,`
			`"prev_pages": prev_pages,`
			`"current_page": page_get,`
fix last page error for more than 10k results, #156 2022-01-27 16:39:07 +00:00			`"max_hits": False,`
append query parameters to pagination 2022-10-17 11:40:20 +00:00			`"params": self.params,`
major refactor, split up modules 2022-01-22 15:13:37 +00:00			`}`
append query parameters to pagination 2022-10-17 11:40:20 +00:00
major refactor, split up modules 2022-01-22 15:13:37 +00:00			`return pagination`

			`def validate(self, total_hits):`
			`"""validate pagination with total_hits after making api call"""`
			`page_get = self.page_get`
			`max_pages = math.ceil(total_hits / self.page_size)`
fix last page pagination link building error, #221 2022-04-14 09:04:21 +00:00			`if total_hits >= 10000:`
fix last page error for more than 10k results, #156 2022-01-27 16:39:07 +00:00			`# es returns maximal 10000 results`
			`self.pagination["max_hits"] = True`
			`max_pages = max_pages - 1`

major refactor, split up modules 2022-01-22 15:13:37 +00:00			`if page_get < max_pages and max_pages > 1:`
			`self.pagination["last_page"] = max_pages`
			`else:`
			`self.pagination["last_page"] = False`
			`next_pages = [`
			`i for i in range(page_get + 1, page_get + 6) if 1 < i < max_pages`
			`]`

			`self.pagination["next_pages"] = next_pages`
API: add pagination 2022-04-20 15:43:07 +00:00			`self.pagination["total_hits"] = total_hits`