upd

2026-05-03 13:37:21 +03:00
parent 2cb244d973
commit bb6f2d67d8
7 changed files with 282 additions and 6 deletions
--- a/src/api.py
+++ b/src/api.py
@@ -682,6 +682,12 @@ async def refresh_meta(url: str, current_user: dict = Depends(get_current_user))
 def _patch_meta_sync(manga: dict, chapters: list, chapters_total: int, pub_status: str) -> tuple[int, int]:
    updated = failed = 0
    url = manga["url"]
+    summary = manga.get("description") or ""
+    tags_raw = manga.get("tags") or ""
+    try:
+        tags_str = ", ".join(json.loads(tags_raw)) if tags_raw else ""
+    except Exception:
+        tags_str = ""
    for ch in chapters:
        for fmt_col in ("output_cbz", "output_pdf", "output_epub"):
            fpath = ch.get(fmt_col)
@@ -699,6 +705,8 @@ def _patch_meta_sync(manga: dict, chapters: list, chapters_total: int, pub_statu
                chapters_total=chapters_total,
                pub_status=pub_status,
                source_url=url,
+                summary=summary,
+                tags=tags_str,
            )
            if patch_meta(p, meta):
                updated += 1
@@ -706,6 +714,43 @@ def _patch_meta_sync(manga: dict, chapters: list, chapters_total: int, pub_statu
                failed += 1
    return updated, failed

+def _refresh_cover_sync(manga: dict, manga_dir: Path) -> None:
+    """Скачивает или обновляет обложку через urllib (синхронно, для asyncio.to_thread)."""
+    import urllib.request as _urllib_req
+    import re as _re
+
+    cover_url = manga.get("cover_url") or ""
+    if not cover_url:
+        return
+
+    # Определяем Referer по URL обложки (MangaLib CDN — cdnlibs / mangalib)
+    if any(pat in cover_url for pat in ("mangalib", "cdnlibs", "imglib")):
+        referer = "https://mangalib.me/"
+    else:
+        from urllib.parse import urlparse as _up
+        parsed = _up(manga.get("url") or "")
+        referer = f"{parsed.scheme}://{parsed.netloc}/" if parsed.netloc else "https://readmanga.ru/"
+
+    try:
+        req = _urllib_req.Request(cover_url, headers={
+            "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 Chrome/124.0.0.0",
+            "Referer": referer,
+            "Accept": "image/png,image/jpeg,image/webp,image/*,*/*",
+        })
+        with _urllib_req.urlopen(req, timeout=30) as resp:
+            body = resp.read()
+        if len(body) < 500:
+            logger.warning("refresh_cover: слишком малый ответ ({} байт)", len(body))
+            return
+        m = _re.search(r"\.(jpg|jpeg|png|webp)(\?|$)", cover_url, _re.IGNORECASE)
+        ext = ("." + (m.group(1).lower() if m else "jpg")).replace(".jpeg", ".jpg")
+        cover_path = manga_dir / f"cover{ext}"
+        cover_path.write_bytes(body)
+        logger.info("Обложка обновлена: {} ({} байт)", cover_path.name, len(body))
+    except Exception as e:
+        logger.warning("refresh_cover error {}: {}", cover_url, e)
+
+
 async def _do_refresh_meta(url: str):
    db = StateDB()
    try:
@@ -721,6 +766,14 @@ async def _do_refresh_meta(url: str):
        await ws_manager.broadcast({"type": "meta_refresh_started", "url": url})
        updated, failed = await asyncio.to_thread(_patch_meta_sync, manga, chapters, chapters_total, pub_status)
        logger.info("refresh_meta {}: обновлено {}, ошибок {}", url, updated, failed)
+
+        # Обновляем обложку если у манги формат cbz
+        manga_fmt = manga.get("format", "cbz") or "cbz"
+        if manga_fmt in ("cbz", "all") and manga.get("cover_url"):
+            manga_dir = _manga_folder(manga)
+            if manga_dir.exists():
+                await asyncio.to_thread(_refresh_cover_sync, manga, manga_dir)
+
        await ws_manager.broadcast({"type": "meta_refreshed", "url": url,
                                    "updated": updated, "failed": failed})
    except Exception as e:
--- a/src/exporter.py
+++ b/src/exporter.py
@@ -26,6 +26,7 @@ class MangaMeta:
    language: str = "ru"
    summary: str = ""           # Описание/синопсис серии
    genre: str = ""             # Жанры через запятую (для ComicInfo Genre)
+    tags: str = ""              # Теги через запятую (для ComicInfo Tags)
    series_group: str = ""      # Группа/коллекция (для ComicInfo SeriesGroup)


@@ -89,6 +90,7 @@ def _make_comic_info(meta: MangaMeta) -> str:
        add("Count", meta.chapters_total)

    add("Genre", meta.genre)
+    add("Tags", meta.tags)
    add("LanguageISO", meta.language)

    # Manga = YesAndRightToLeft — стандартная японская манга
--- a/src/sources/base.py
+++ b/src/sources/base.py
@@ -37,6 +37,8 @@ class MangaInfo:
    title_full: str = ""
    description: str = ""
    genres: list[str] = field(default_factory=list)
+    tags: list[str] = field(default_factory=list)
+    cover_url: str = ""


 # ──────────────────────────────────────────────
--- a/src/sources/mangalib.py
+++ b/src/sources/mangalib.py
@@ -134,6 +134,18 @@ class MangalibSource:
        description = await _extract_description(page)
        genres = await _extract_genres(page)

+        # Получаем обложку, описание и теги из API
+        async with lock:
+            manga_meta_for_extras = dict(manga_api_data)
+
+        cover_url, extra_description, tags = await _fetch_extra_meta(
+            page, manga_meta_for_extras, url, self.auth_token
+        )
+        if extra_description:
+            description = extra_description
+        if not description:
+            description = await _extract_description(page)
+
        async with lock:
            raw_chapters = list(chapters_api_data)

@@ -154,6 +166,8 @@ class MangalibSource:
            title_full=title_full,
            description=description,
            genres=genres,
+            tags=tags,
+            cover_url=cover_url,
        )

    # ──────────────────────────────────────────────
@@ -611,6 +625,85 @@ async def _extract_genres(page: Page) -> list[str]:
        return []


+def _parse_summary_doc(doc) -> str:
+    """Конвертирует ProseMirror JSON-документ в plain text."""
+    if not doc or not isinstance(doc, dict):
+        return ""
+    if doc.get("type") == "text":
+        return doc.get("text", "")
+    parts = []
+    for node in doc.get("content", []):
+        text = _parse_summary_doc(node)
+        if text:
+            parts.append(text)
+    return " ".join(parts)
+
+
+async def _fetch_extra_meta(
+    page: Page,
+    manga_api_data: dict,
+    manga_url: str,
+    auth_token: str | None,
+) -> tuple[str, str, list[str]]:
+    """
+    Возвращает (cover_url, description, tags) из уже полученных данных API или,
+    если нужных полей нет, делает явный supplementary-запрос к API.
+    """
+    def _extract_from_data(data: dict) -> tuple[str, str, list[str]]:
+        cover_url = ""
+        cover_obj = data.get("cover")
+        if isinstance(cover_obj, dict):
+            cover_url = cover_obj.get("default") or cover_obj.get("thumbnail") or ""
+
+        description = ""
+        summary = data.get("summary")
+        if summary:
+            if isinstance(summary, dict):
+                description = _parse_summary_doc(summary).strip()
+            elif isinstance(summary, str):
+                description = summary.strip()
+
+        tags: list[str] = []
+        for t in data.get("tags") or []:
+            name = (t.get("name") or t.get("label") or "").strip()
+            if name:
+                tags.append(name)
+
+        return cover_url, description, tags
+
+    cover_url, description, tags = _extract_from_data(manga_api_data)
+
+    # Если хотя бы одного поля нет — делаем явный supplementary-запрос
+    if not cover_url or not description or not tags:
+        slug = _manga_slug_from_url(manga_url)
+        referer = _base_url(manga_url) + "/"
+        api_url = (
+            f"https://api.cdnlibs.org/api/manga/{slug}"
+            "?fields[]=summary&fields[]=tags&fields[]=cover"
+        )
+        try:
+            headers: dict = {"Referer": referer, "Accept": "application/json"}
+            if auth_token:
+                headers["Authorization"] = f"Bearer {auth_token}"
+            resp = await page.context.request.get(api_url, headers=headers)
+            if resp.ok:
+                body = await resp.body()
+                data = _json.loads(body).get("data", {})
+                extra_cover, extra_desc, extra_tags = _extract_from_data(data)
+                if not cover_url:
+                    cover_url = extra_cover
+                if not description:
+                    description = extra_desc
+                if not tags:
+                    tags = extra_tags
+                logger.debug("Supplementary API: cover={}, desc_len={}, tags={}",
+                             bool(cover_url), len(description), len(tags))
+        except Exception as e:
+            logger.debug("Supplementary API error: {}", e)
+
+    return cover_url, description, tags
+
+
 async def _detect_server(page: Page, servers_list: list[str]) -> str:
    """Определяет CDN-сервер из img src на странице или из constants API."""
    try:
--- a/src/sources/readmanga.py
+++ b/src/sources/readmanga.py
@@ -47,6 +47,8 @@ class ReadmangaSource:

        description = await _extract_description(page)
        genres = await _extract_genres(page)
+        tags = await _extract_tags(page)
+        cover_url = await _get_cover_url(page)

        await _expand_chapters(page)
        chapters = await _extract_chapters(page)
@@ -63,6 +65,8 @@ class ReadmangaSource:
            title_full=title_full,
            description=description,
            genres=genres,
+            tags=tags,
+            cover_url=cover_url,
        )

    # ──────────────────────────────────────────────
@@ -474,6 +478,18 @@ async def _extract_description(page: Page) -> str:
    try:
        result = await page.evaluate("""
            () => {
+                // Приоритетный селектор — новый сайт ReadManga
+                const crDesc = document.querySelector('.cr-description__content');
+                if (crDesc) {
+                    const parts = [];
+                    crDesc.querySelectorAll('p, span, div').forEach(el => {
+                        const t = el.textContent.trim();
+                        if (t) parts.push(t);
+                    });
+                    if (parts.length) return parts.join(' ');
+                    const t = crDesc.textContent.trim();
+                    if (t) return t;
+                }
                const selectors = [
                    '.manga-description', '.elem_descr .value',
                    '#tab-description .description-text', '.description',
@@ -491,6 +507,42 @@ async def _extract_description(page: Page) -> str:
        return ""


+async def _extract_tags(page: Page) -> list[str]:
+    try:
+        result = await page.evaluate("""
+            () => {
+                const crTags = document.querySelector('.cr-tags');
+                if (crTags) {
+                    const els = crTags.querySelectorAll('a, span, li');
+                    if (els.length) return Array.from(els).map(e => e.textContent.trim()).filter(Boolean);
+                    const t = crTags.textContent.trim();
+                    if (t) return t.split(/[,;]/).map(s => s.trim()).filter(Boolean);
+                }
+                return [];
+            }
+        """)
+        return result or []
+    except Exception:
+        return []
+
+
+async def _get_cover_url(page: Page) -> str:
+    try:
+        result = await page.evaluate("""
+            () => {
+                const wrapper = document.querySelector('.cr-hero-poster-wrapper');
+                if (wrapper) {
+                    const img = wrapper.querySelector('img');
+                    if (img) return img.src || img.dataset.src || '';
+                }
+                return '';
+            }
+        """)
+        return (result or "").strip()
+    except Exception:
+        return ""
+
+
 async def _extract_genres(page: Page) -> list[str]:
    try:
        result = await page.evaluate("""
--- a/src/state.py
+++ b/src/state.py
@@ -160,6 +160,9 @@ class StateDB:
            ("mangas",   "added_by",       "INTEGER REFERENCES users(id)"),
            ("mangas",   "last_error",     "TEXT"),
            ("users",    "is_env_admin",   "INTEGER NOT NULL DEFAULT 0"),
+            ("mangas",   "description",    "TEXT"),
+            ("mangas",   "tags",           "TEXT"),
+            ("mangas",   "cover_url",      "TEXT"),
        ]
        for table, col, typedef in migrations:
            try:
@@ -370,11 +373,16 @@ class StateDB:

    def update_manga_info(self, url: str, title: str, chapters_total: int,
                          title_ru: str = "", title_full: str = "",
-                          pub_status: str = "unknown"):
+                          pub_status: str = "unknown",
+                          description: str = "", tags: str = "",
+                          cover_url: str = ""):
        self.conn.execute("""
            UPDATE mangas SET title=?, title_ru=?, title_full=?, pub_status=?,
-                chapters_total=?, updated_at=? WHERE url=?
-        """, (title, title_ru, title_full, pub_status, chapters_total, _now(), url))
+                chapters_total=?, updated_at=?,
+                description=?, tags=?, cover_url=?
+            WHERE url=?
+        """, (title, title_ru, title_full, pub_status, chapters_total, _now(),
+              description or None, tags or None, cover_url or None, url))
        self.conn.commit()

    def set_folder_name(self, url: str, folder_name: str):
--- a/src/worker.py
+++ b/src/worker.py
@@ -91,14 +91,15 @@ async def download_manga(
                await emit({"type": "auth_required", "url": url,
                            "source_slug": e.source_slug, "finished_at": finished_ts})
                return
-            await info_page.close()

            if not manga:
+                await info_page.close()
                await db_call(db.update_manga_status, url, "failed")
                await emit({"type": "manga_failed", "url": url,
                            "error": "Не удалось получить информацию о манге"})
                return

+            import json as _json_mod
            await db_call(
                db.update_manga_info,
                url,
@@ -107,6 +108,9 @@ async def download_manga(
                title_ru=manga.title_ru,
                title_full=manga.title_full,
                pub_status=manga.pub_status,
+                description=manga.description,
+                tags=_json_mod.dumps(manga.tags, ensure_ascii=False) if manga.tags else "",
+                cover_url=manga.cover_url,
            )
            await emit({
                "type": "manga_info",
@@ -127,6 +131,12 @@ async def download_manga(
            manga_dir = output_dir / folder_name
            manga_dir.mkdir(parents=True, exist_ok=True)

+            # Скачиваем обложку для CBZ-формата (info_page ещё открыта — контекст браузера жив)
+            if manga.cover_url and fmt in ("cbz", "all"):
+                await _download_cover(manga.cover_url, manga_dir, url, info_page)
+
+            await info_page.close()
+
            for ch in manga.chapters:
                await db_call(db.upsert_chapter, url, ch.url, ch.title, ch.number, ch.volume)

@@ -250,6 +260,7 @@ async def download_manga(
                                source_url=url,
                                summary=manga.description,
                                genre=", ".join(manga.genres) if manga.genres else "",
+                                tags=", ".join(manga.tags) if manga.tags else "",
                            )
                            for f in formats:
                                out_file = manga_dir / f"{ch_name}.{f}"
@@ -350,6 +361,43 @@ async def download_manga(
        db.close()


+def _cover_ext_from_url(url: str) -> str:
+    import re as _re
+    m = _re.search(r"\.(jpg|jpeg|png|webp)(\?|$)", url, _re.IGNORECASE)
+    if m:
+        ext = m.group(1).lower()
+        return ".jpg" if ext == "jpeg" else f".{ext}"
+    return ".jpg"
+
+
+async def _download_cover(cover_url: str, manga_dir: Path, manga_url: str, page) -> Optional[Path]:
+    """Скачивает обложку в manga_dir/cover.{ext}. Использует существующий Playwright page."""
+    from urllib.parse import urlparse as _urlparse
+    try:
+        parsed = _urlparse(manga_url)
+        referer = f"{parsed.scheme}://{parsed.netloc}/"
+        headers = {
+            "Accept": "image/png,image/jpeg,image/webp,image/*,*/*",
+            "Referer": referer,
+        }
+        response = await page.context.request.get(cover_url, headers=headers)
+        if not response.ok:
+            logger.warning("Обложка: HTTP {} для {}", response.status, cover_url)
+            return None
+        body = await response.body()
+        if len(body) < 500:
+            logger.warning("Обложка: слишком малый ответ ({} байт)", len(body))
+            return None
+        ext = _cover_ext_from_url(cover_url)
+        cover_path = manga_dir / f"cover{ext}"
+        cover_path.write_bytes(body)
+        logger.info("Обложка сохранена: {} ({} байт)", cover_path.name, len(body))
+        return cover_path
+    except Exception as e:
+        logger.warning("Ошибка скачивания обложки {}: {}", cover_url, e)
+        return None
+
+
 async def check_for_updates(
    url: str,
    on_event: Optional[Callable] = None,
@@ -390,11 +438,12 @@ async def check_for_updates(
        async with BrowserManager(headless=True) as bm:
            _, page = await bm.new_page()
            manga = await source.get_manga_info(page, url)
-            await page.close()
            if not manga:
+                await page.close()
                return []

-            # Обновляем pub_status и количество глав
+            import json as _json_mod
+            # Обновляем pub_status, количество глав и мета-поля
            await db_call(
                db.update_manga_info,
                url,
@@ -403,8 +452,25 @@ async def check_for_updates(
                title_ru=manga.title_ru,
                title_full=manga.title_full,
                pub_status=manga.pub_status,
+                description=manga.description,
+                tags=_json_mod.dumps(manga.tags, ensure_ascii=False) if manga.tags else "",
+                cover_url=manga.cover_url,
            )

+            # Обновляем обложку если манга сохраняется как cbz
+            manga_row = await db_call(db.get_manga, url)
+            manga_fmt = (manga_row or {}).get("format", "cbz")
+            if manga.cover_url and manga_fmt in ("cbz", "all"):
+                folder_name = (
+                    (manga_row.get("folder_name") if manga_row else None)
+                    or safe_name(manga.title_ru or manga.title)
+                )
+                manga_dir = OUTPUT_DIR / folder_name
+                if manga_dir.exists():
+                    await _download_cover(manga.cover_url, manga_dir, url, page)
+
+            await page.close()
+
            # Находим главы которых ещё нет в БД
            known = {ch["chapter_url"] for ch in await db_call(db.get_all_chapters, url)}
            new_chapters = [ch for ch in manga.chapters if ch.url not in known]