optimization

2026-05-03 14:50:37 +03:00
parent ebc1825794
commit 93eff68b8d
9 changed files with 43 additions and 362 deletions
--- a/2
+++ b/2
@@ -19,4 +19,4 @@ VOLUME ["/app/output", "/app/state"]

 # По умолчанию запускаем веб-сервер
 ENTRYPOINT []
-CMD ["uvicorn", "src.api:app", "--host", "0.0.0.0", "--port", "8000"]
+CMD ["uvicorn", "src.api:app", "--host", "0.0.0.0", "--port", "8000", "--no-access-log"]
--- a/PLAN_MULTI_SOURCE.md
+++ b/PLAN_MULTI_SOURCE.md
@@ -1,352 +0,0 @@
-# План реализации: Multi-Source архитектура
-
-Рефакторинг под систему плагинов-адаптеров: каждый источник — отдельный класс с унифицированным `Protocol`-интерфейсом. Новые таблицы `sources` / `source_domains` в БД, автоопределение источника по домену URL, CRUD-API для доменов и UI-компоненты во фронтенде. Существующий `scraper.py` становится адаптером `ReadmangaSource`.
-
---
-
-## 1. Архитектура системы источников
-
-**Организация**: `Protocol`-интерфейс + реестр (`SourceRegistry`) + slug-имена в коде.
-
-Создать `src/sources/` — пакет с адаптерами:
-
-```
-src/sources/
-  __init__.py        ← реестр + фабрика
-  base.py            ← MangaSourceProtocol (Protocol-класс)
-  readmanga.py       ← ReadmangaSource (перенесённый scraper.py)
-```
-
-### `base.py` — Protocol-интерфейс
-
-```python
-class MangaSourceProtocol(Protocol):
-    slug: str           # "readmanga" — уникальный код в коде
-    display_name: str   # "ReadManga" — для UI
-
-    async def get_manga_info(self, page, url) -> Optional[MangaInfo]: ...
-    async def get_chapter_images_and_download(
-        self, page, chapter_url, dest_dir, ...
-    ) -> list[Path]: ...
-```
-
-### `__init__.py` — реестр и резолвинг
-
-`SourceRegistry` — dict `slug → instance`. Список источников **определяется только в коде** — новый источник добавляется созданием нового класса и регистрацией в реестре. Через API управлять можно **только доменами**.
-
-Экспортирует:
-
- `registry.get_by_slug(slug)` — по коду источника
- `registry.get_by_id(source_id, db)` — через БД: `sources.id → slug → экземпляр`
- `registry.all()` — полный список зарегистрированных источников (для синхронизации с БД и отображения в UI)
- `get_source_for_url(url, db)` — извлекает домен из URL, ищет в `source_domains`, возвращает адаптер или `None` (домен неизвестен)
-
-### `readmanga.py` — `ReadmangaSource`
-
-Класс с `slug = "readmanga"`. Весь текущий код `scraper.py` переезжает сюда без изменений. CDN-фильтр вынесен в атрибут `cdn_patterns: list[str]`, который можно переопределить настройками из `sources.settings` (JSON). Адаптер самодостаточен.
-
-### Добавление нового источника
-
-Создать файл `src/sources/mysource.py`, реализовать Protocol, зарегистрировать:
-
-```python
-# src/sources/__init__.py
-from .readmanga import ReadmangaSource
-from .mysource import MySource
-
-registry = SourceRegistry([
-    ReadmangaSource(),
-    MySource(),
-])
-```
-
-При следующем старте приложения `StateDB._sync_sources()` автоматически добавит запись нового источника в таблицу `sources` (если её ещё нет). Удалять источники из кода не рекомендуется без предварительной миграции манг.
-
---
-
-## 2. Изменения БД
-
-### Новые таблицы
-
-```sql
-CREATE TABLE IF NOT EXISTS sources (
-    id           INTEGER PRIMARY KEY AUTOINCREMENT,
-    slug         TEXT UNIQUE NOT NULL,   -- "readmanga" — совпадает с кодом
-    display_name TEXT NOT NULL,
-    settings     TEXT DEFAULT '{}',      -- JSON: cdn_patterns и др.
-    created_at   TEXT
-);
-
-CREATE TABLE IF NOT EXISTS source_domains (
-    id        INTEGER PRIMARY KEY AUTOINCREMENT,
-    source_id INTEGER NOT NULL REFERENCES sources(id),
-    domain    TEXT UNIQUE NOT NULL       -- "readmanga.ru", "readmanga.live"
-);
-```
-
-### Изменение таблицы `mangas`
-
-```sql
-ALTER TABLE mangas ADD COLUMN source_id INTEGER REFERENCES sources(id);
-```
-
-Добавляется через существующий паттерн миграций в `StateDB._init()`.
-
-### Синхронизация источников с кодом (`_sync_sources`)
-
-При старте (в `_init()`) вызывается `_sync_sources(registry)`:
-1. Для каждого источника из реестра — вставить запись в `sources` если ещё нет (по `slug`).
-2. Обновить `display_name` если изменился.
-3. **Не удалять** источники из БД даже если они убраны из реестра — только логировать предупреждение.
-
-### Авто-миграция существующих манг
-
-При старте пройтись по всем мангам с `source_id IS NULL`, определить домен из `url`, проставить `source_id` по совпадению в `source_domains`. Если домен не найден — оставить `NULL` (отобразится в UI как «источник не определён»).
-
-### Сидинг доменов ReadManga
-
-```python
-DEFAULT_READMANGA_DOMAINS = [
-    "readmanga.ru", "readmanga.live", "readmanga.me", "readmanga.io",
-    "3.readmanga.ru",
-]
-```
-
-Вставляется однократно при первом старте (если нет ни одного домена для `readmanga`).
-
-### Новые методы `StateDB`
-
- `get_source_by_domain(domain)` → `dict | None`
- `get_all_sources()` → `list[dict]` (с вложенными доменами)
- `add_domain(source_id, domain)` → `bool`
- `remove_domain(source_id, domain)`
- `set_manga_source(manga_url, source_id)` — меняет источник + привязывает домен URL к новому источнику (см. §3)
-
---
-
-## 3. Рефакторинг `scraper.py` и `worker.py`
-
-### `src/scraper.py` — shim для обратной совместимости
-
-После переноса кода в `ReadmangaSource`:
-
-```python
-# src/scraper.py
-from .sources.readmanga import ReadmangaSource as _src
-from .sources.base import MangaInfo, Chapter
-
-_instance = _src()
-
-async def get_manga_info(page, url):
-    return await _instance.get_manga_info(page, url)
-
-async def get_chapter_images_and_download(page, chapter_url, dest_dir, **kw):
-    return await _instance.get_chapter_images_and_download(page, chapter_url, dest_dir, **kw)
-```
-
-Это позволяет не ломать `worker.py` и `cli.py` на переходном этапе.
-
-### `src/worker.py` — подключение реестра
-
-В `download_manga(url, fmt, ...)`:
-
-```python
-from .sources import get_source_for_url
-
-source = get_source_for_url(url, db)
-if source is None:
-    # Источник не определён — ошибка, уведомить через WS
-    await ws_broadcast({"type": "source_unknown", "url": url})
-    return
-```
-
-Передавать `source` в `process_chapter()` и далее в функции скачивания.
-
-`check_for_updates()` — аналогично резолвит источник.
-
-### Смена источника + перепривязка домена
-
-```python
-async def switch_source(manga_url: str, new_source_id: int, db: StateDB):
-    """Меняет источник манги и привязывает домен URL к новому источнику."""
-    domain = extract_domain(manga_url)           # извлечь домен из URL манги
-    old_domain_source = db.get_source_by_domain(domain)
-    
-    # Перепривязать домен к новому источнику
-    if old_domain_source:
-        db.remove_domain(old_domain_source["id"], domain)
-    db.add_domain(new_source_id, domain)
-    
-    # Сменить источник у манги
-    db.set_manga_source(manga_url, new_source_id)
-    
-    # Сбросить failed/partial главы → pending
-    db.reset_failed_chapters(manga_url)
-```
-
-Таким образом, при следующем добавлении манги с того же домена источник будет определён автоматически правильно.
-
---
-
-## 4. API эндпоинты
-
-**Создание и удаление источников через API недоступны** — источники определяются только в коде.
-
-### Источники (только чтение + управление доменами)
-
-| Метод | Путь | Описание |
-|-------|------|----------|
-| `GET` | `/api/sources` | Список всех источников с доменами |
-| `POST` | `/api/sources/{id}/domains` | Добавить домен к источнику `{domain}` |
-| `DELETE` | `/api/sources/{id}/domains/{domain}` | Удалить домен |
-| `GET` | `/api/resolve-source?url=` | Определить источник по URL → `{source_id, slug, display_name} \| null` |
-
-### Управление мангой
-
-| Метод | Путь | Описание |
-|-------|------|----------|
-| `POST` | `/api/mangas/switch-source` | Сменить источник `{url, source_id}` (не во время загрузки) |
-
-### Pydantic-модели
-
-```python
-class DomainAdd(BaseModel):
-    domain: str
-
-class SourceOut(BaseModel):
-    id: int
-    slug: str
-    display_name: str
-    domains: list[str]
-    settings: dict
-
-class SwitchSourceRequest(BaseModel):
-    url: str
-    source_id: int
-    # домен всегда перепривязывается автоматически
-```
-
---
-
-## 5. Изменения фронтенда
-
-### Диалог добавления манги
-
-1. После ввода URL (debounce 400 мс) → GET `/api/resolve-source?url=...`
-2. **Источник найден** → показать badge «Источник: ReadManga» под полем ввода
-3. **Источник неизвестен** → показать предупреждение:
-   > ⚠ Домен не распознан. Выберите источник вручную:
-   
-   Под предупреждением — `<select>` со списком всех доступных источников. Без выбора источника кнопка «Добавить» неактивна.
-
-   После добавления домен URL автоматически привязывается к выбранному источнику (бэкенд делает это в момент добавления манги).
-
-### Карточка манги
-
- Badge с `source.display_name` рядом с названием (серый, если источник не определён → «Источник неизвестен»)
- Кнопка **«↔ Источник»** — видима всегда, кроме статуса `downloading`; открывает модал:
-  - Текущий источник (или «не определён»)
-  - `<select>` со всеми источниками
-  - Статичное предупреждение под select (всегда видимо): «⚠ Домен `xyz.com` будет перепривязан к выбранному источнику. Это затронет все манги с этого домена.»
-  - Кнопка «Применить» → POST `/api/mangas/switch-source`
-
-### Новая вкладка «Настройки»
-
-Добавить четвёртую вкладку в навигацию.
-
-**Подраздел «Источники»** (единственный на данном этапе):
-
-```
-┌─ Источники ──────────────────────────────────────────┐
-│  Источники определяются в коде приложения.           │
-│  Здесь можно управлять доменами для каждого источника│
-│                                                      │
-│ ┌────────────────────────────────────────────────────┐│
-│ │ ReadManga                    slug: readmanga        ││
-│ │ Домены:                                            ││
-│ │  • readmanga.ru    [✕]   • readmanga.live [✕]     ││
-│ │  • 3.readmanga.ru  [✕]   [+ добавить домен]       ││
-│ └────────────────────────────────────────────────────┘│
-│ ┌────────────────────────────────────────────────────┐│
-│ │ Другой источник              slug: other            ││
-│ │  ...                                               ││
-│ └────────────────────────────────────────────────────┘│
-└──────────────────────────────────────────────────────┘
-```
-
-Inline-редактирование:
- `[+ добавить домен]` → inline `<input>` + кнопка «✓» → POST `/api/sources/{id}/domains`
- `[✕]` рядом с доменом → DELETE `/api/sources/{id}/domains/{domain}`
-
-Кнопок «Создать источник» или «Удалить источник» **нет**.
-
---
-
-## 6. WebSocket события
-
-| `type` | Когда | Данные |
-|--------|-------|--------|
-| `source_domain_added` | POST /api/sources/{id}/domains | `{source_id, domain}` |
-| `source_domain_removed` | DELETE /api/sources/{id}/domains/... | `{source_id, domain}` |
-| `source_switched` | POST /api/mangas/switch-source | `{url, old_source_id, new_source_id, domain_rebound: true}` |
-| `source_unknown` | Попытка загрузки манги без источника | `{url}` — фронт показывает уведомление |
-
---
-
-## 7. Решённые вопросы
-
-### 7.1 CDN-паттерны и настройки источника
-
-Каждый источник хранит свои технические настройки (CDN-паттерны и т.п.) **только в коде** внутри класса-адаптера. Поле `settings` в таблице `sources` не используется для пользовательского редактирования — оно остаётся зарезервированным для внутренних нужд адаптера. Никакого UI для редактирования настроек нет.
-
-```python
-class ReadmangaSource:
-    slug = "readmanga"
-    display_name = "ReadManga"
-    cdn_patterns = ["one-way.work", "staticfa.", "cdnmanga", "reimg"]
-```
-
-### 7.2 Домен, уже привязанный к другому источнику
-
-При смене источника у манги перепривязка домена к новому источнику происходит **автоматически** без дополнительного подтверждения. Флаг `rebind_domain` не нужен.
-
-В UI рядом с `<select>` источника отображается статичное предупреждение:
-
-> ⚠ Домен `xyz.com` будет перепривязан к выбранному источнику. Это затронет все манги с этого домена.
-
-Флаг `rebind_domain` в `SwitchSourceRequest` не нужен — бэкенд всегда перепривязывает домен.
-
-### 7.3 Удалённые из кода источники
-
-При старте логировать предупреждение для каждого источника в БД, которого нет в реестре. В UI такие манги показывают badge **«Источник недоступен»** красным цветом. Загрузка таких манг невозможна до смены источника.
-
---
-
-## 8. Порядок реализации (этапы)
-
-### Этап 1 — БД (без ломки текущей логики)
- Добавить таблицы `sources`, `source_domains` в `state.py`
- Добавить колонку `source_id` в `mangas`
- Реализовать `_sync_sources(registry)` + сидинг readmanga-доменов
- Авто-миграция существующих манг (проставить `source_id` по домену)
- Новые методы `StateDB`
-
-### Этап 2 — Адаптер + Реестр
- Создать `src/sources/` пакет
- Перенести `scraper.py` → `src/sources/readmanga.py` (класс `ReadmangaSource`)
- Реализовать `SourceRegistry`, `get_source_for_url()`
- Написать shim `src/scraper.py` (обратная совместимость)
-
-### Этап 3 — Worker + API
- Подключить реестр в `worker.py`
- Добавить `switch_source()` с перепривязкой домена
- Реализовать API эндпоинты (только домены + switch)
- WS-события
-
-### Этап 4 — Фронтенд
- Badge источника на карточках манги
- Автоопределение при вводе URL + предупреждение + ручной выбор для неизвестных доменов
- Диалог смены источника с предупреждением о перепривязке домена
- Вкладка «Настройки → Источники»
-
-
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -8,6 +8,9 @@ services:
      - ./state:/app/state
    environment:
      - PYTHONUNBUFFERED=1
+      # Заставляем glibc возвращать освобождённую память ОС (уменьшает RSS в простое)
+      - MALLOC_MMAP_THRESHOLD_=65536
+      - MALLOC_TRIM_THRESHOLD_=65536
      # Расписание авто-проверки новых глав (cron-синтаксис).
      # Примеры: "0 */6 * * *" — каждые 6 ч | "0 3 * * *" — каждый день в 03:00
      # Оставьте пустым чтобы отключить планировщик.
--- a/requirements.txt
+++ b/requirements.txt
@@ -6,7 +6,7 @@ ebooklib==0.18
 tqdm==4.66.4
 loguru==0.7.2
 fastapi==0.111.0
-uvicorn[standard]==0.29.0
+uvicorn==0.29.0
 websockets==12.0
 pypdf==4.2.0
 croniter==3.0.3
--- a/src/api.py
+++ b/src/api.py
@@ -3,6 +3,8 @@ FastAPI веб-сервер: REST API + WebSocket для мониторинга
 Многопользовательская система с ролями admin / user.
 """
 import asyncio
+import ctypes
+import gc
 import json
 import os
 import shutil
@@ -154,6 +156,7 @@ async def startup_event():
        _db.close()
    asyncio.create_task(queue_worker())
    asyncio.create_task(update_scheduler())
+    asyncio.create_task(memory_trimmer())
    db = StateDB()
    try:
        for manga in db.get_all_mangas():
@@ -188,6 +191,17 @@ def _parse_schedule() -> Optional[str]:
    except ValueError:
        logger.error("UPDATE_INTERVAL_HOURS='{}' — не число", hours_raw)
        return None
+async def memory_trimmer():
+    """Периодически принудительно возвращает неиспользуемую память ОС."""
+    while True:
+        await asyncio.sleep(600)  # каждые 10 минут
+        gc.collect()
+        try:
+            ctypes.CDLL("libc.so.6").malloc_trim(0)
+        except Exception:
+            pass
+
+
 async def update_scheduler():
    cron_expr = _parse_schedule()
    if not cron_expr:
--- a/src/browser.py
+++ b/src/browser.py
@@ -1,11 +1,15 @@
 """
 Браузерный слой: запуск Playwright Chromium с антидетект-настройками.
 """
+from __future__ import annotations
+
 import asyncio
-from typing import Optional
+from typing import TYPE_CHECKING, Optional

 from loguru import logger
-from playwright.async_api import async_playwright, Browser, BrowserContext, Page
+
+if TYPE_CHECKING:
+    from playwright.async_api import Browser, BrowserContext, Page


 # Реалистичный User-Agent Chrome 124 Linux
@@ -53,6 +57,7 @@ class BrowserManager:
        self._browser: Optional[Browser] = None

    async def start(self):
+        from playwright.async_api import async_playwright
        self._playwright = await async_playwright().start()
        self._browser = await self._playwright.chromium.launch(
            headless=self.headless,
--- a/src/sources/base.py
+++ b/src/sources/base.py
@@ -1,10 +1,13 @@
 """
 Базовые модели данных и Protocol-интерфейс для источников манги.
 """
+from __future__ import annotations
+
 from dataclasses import dataclass, field
 from pathlib import Path
-from typing import Optional, Protocol, runtime_checkable
+from typing import TYPE_CHECKING, Optional, Protocol, runtime_checkable

+if TYPE_CHECKING:
    from playwright.async_api import Page


--- a/src/sources/mangalib.py
+++ b/src/sources/mangalib.py
@@ -9,15 +9,19 @@
  Получаем pages[] с полями: image (filename), url (relative path), slug (page index 1-based).
  Изображения: {server}{page.url}, CDN = mixlib.me / imglib.info.
 """
+from __future__ import annotations
+
 import asyncio
 import json as _json
 import re
 import time
 from pathlib import Path
-from typing import Optional
+from typing import TYPE_CHECKING, Optional
 from urllib.parse import urlparse

 from loguru import logger
+
+if TYPE_CHECKING:
    from playwright.async_api import Page

 from .base import Chapter, MangaInfo, AuthRequiredError
--- a/src/sources/readmanga.py
+++ b/src/sources/readmanga.py
@@ -1,15 +1,19 @@
 """
 Адаптер ReadManga: поддерживает readmanga.ru и все его клоны.
 """
+from __future__ import annotations
+
 import asyncio
 import base64
 import re
 import time
 from pathlib import Path
-from typing import Optional
+from typing import TYPE_CHECKING, Optional
 from urllib.parse import urlparse

 from loguru import logger
+
+if TYPE_CHECKING:
    from playwright.async_api import Page

 from .base import Chapter, MangaInfo