feat(zopk): Skrypt do naprawy źródeł newsów z Google News

Problem: Newsy z Google News RSS miały source_domain='news.google.com' i favicon Google zamiast prawdziwego źródła. Rozwiązanie: Nowy skrypt fix_google_news_sources.py który: - Wyciąga nazwę źródła z tytułu (po " - ") - Mapuje 59 źródeł na ich prawdziwe domeny - Aktualizuje source_domain i image_url (favicon) Wynik: 143/143 newsów zaktualizowanych z poprawnymi źródłami. Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-15 08:06:40 +01:00 · 2026-01-15 08:06:40 +01:00 · c13ad09e3a
commit c13ad09e3a
parent 8055589a08
1 changed files with 220 additions and 0 deletions
--- a/scripts/fix_google_news_sources.py
+++ b/scripts/fix_google_news_sources.py
@ -0,0 +1,220 @@
 #!/usr/bin/env python3
 """
 Skrypt do naprawy źródeł newsów z Google News.
 Problem: Newsy z Google News RSS mają source_domain='news.google.com'
 i favicon Google zamiast prawdziwego źródła.
 Rozwiązanie: Wyciągnij nazwę źródła z tytułu (po " - ") i zaktualizuj:
 - source_domain na prawdziwą domenę
 - image_url na favicon prawdziwej domeny
 Użycie:
    python scripts/fix_google_news_sources.py --dry-run    # Test
    python scripts/fix_google_news_sources.py              # Produkcja
 """
 import os
 import sys
 import argparse
 # Dodaj ścieżkę projektu
 PROJECT_ROOT = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
 sys.path.insert(0, PROJECT_ROOT)
 from dotenv import load_dotenv
 load_dotenv(os.path.join(PROJECT_ROOT, '.env'))
 from sqlalchemy import create_engine
 from sqlalchemy.orm import sessionmaker
 DATABASE_URL = os.getenv('DATABASE_URL')
 if not DATABASE_URL:
    print("❌ Błąd: Brak zmiennej DATABASE_URL w .env")
    sys.exit(1)
 # Mapowanie nazw źródeł na domeny
 # Klucz: nazwa źródła z tytułu (po " - ")
 # Wartość: domena do użycia w favicon URL
 SOURCE_TO_DOMAIN = {
    # Portale z .pl w nazwie - użyj bezpośrednio
    "Bankier.pl": "bankier.pl",
    "Bizblog.pl": "bizblog.pl",
    "Bydgoszcz.Wyborcza.pl": "bydgoszcz.wyborcza.pl",
    "CIRE.pl": "cire.pl",
    "GazetaPrawna.pl": "gazetaprawna.pl",
    "GospodarkaMorska.pl": "gospodarkamorska.pl",
    "Gov.pl": "gov.pl",
    "Gramwzielone.pl": "gramwzielone.pl",
    "Green-news.pl": "green-news.pl",
    "Inzynieria.com": "inzynieria.com",
    "Money.pl": "money.pl",
    "PolsatNews.pl": "polsatnews.pl",
    "Trojmiasto.pl": "trojmiasto.pl",
    "ekoszalin.pl": "ekoszalin.pl",
    "enerad.pl": "enerad.pl",
    "naTemat.pl": "natemat.pl",
    "polskieradio.pl": "polskieradio.pl",
    "trojmiasto.wyborcza.pl": "trojmiasto.wyborcza.pl",
    "wnp.pl": "wnp.pl",
    "www.wejherowo.pl": "wejherowo.pl",
    "xyz.pl": "xyz.pl",
    # Portale biznesowe
    "Biznes Interia": "biznes.interia.pl",
    "Business Insider Polska": "businessinsider.com.pl",
    "Forbes": "forbes.pl",
    "Forsal": "forsal.pl",
    "Newsweek": "newsweek.pl",
    "Obserwator Finansowy": "obserwatorfinansowy.pl",
    "Rzeczpospolita": "rp.pl",
    "wGospodarce": "wgospodarce.pl",
    "Strefa Biznesu": "strefabiznesu.pl",
    # Portale branżowe
    "Defence24": "defence24.pl",
    "Energetyka24": "energetyka24.com",
    "GlobEnergia": "globenergia.pl",
    "Investmap": "investmap.pl",
    "Portal Morski": "portalmorski.pl",
    "Portal Obronny": "portalobronny.pl",
    "Portal Samorządowy": "portalsamorzadowy.pl",
    "Polska Morska": "polska-morska.pl",
    "Rynek Infrastruktury": "rynekinfrastruktury.pl",
    "Top-Oze": "top-oze.pl",
    "FOCUS ON Business": "focusonbusiness.eu",
    # Regionalne
    "Dziennik Bałtycki": "dziennikbaltycki.pl",
    "Głos Pomorza": "gp24.pl",
    "Kaszuby24": "kaszuby24.pl",
    "Nadmorski24": "nadmorski24.pl",
    "Portal Kujawski": "portalkujawski.pl",
    "Pracodawcy Pomorza": "pracodawcypomorza.pl",
    "Rumia – naturalnie pomysłowa": "rumia.eu",
    "Tygodnik Bydgoski": "tygodnikbydgoski.pl",
    "Zawsze Pomorze": "zawszepomorze.pl",
    # Radio i TV
    "Radio Gdańsk": "radiogdansk.pl",
    "Radio Weekend FM": "weekendfm.pl",
    "Polskie Radio 24": "polskieradio24.pl",
    "Polskie Radio Koszalin": "prkoszalin.pl",
    "TVP Gdańsk": "gdansk.tvp.pl",
    "TVP Bydgoszcz": "bydgoszcz.tvp.pl",
    "TVP Info": "tvp.info",
    # Inne
    "Polska Agencja Prasowa SA": "pap.pl",
    "OKO.press": "oko.press",
 }
 def get_domain_favicon(domain: str) -> str:
    """Zwróć URL favicona przez Google API."""
    return f"https://www.google.com/s2/favicons?domain={domain}&sz=128"
 def extract_source_from_title(title: str) -> str | None:
    """Wyciągnij źródło z tytułu (po ostatnim ' - ')."""
    if ' - ' not in title:
        return None
    return title.rsplit(' - ', 1)[-1].strip()
 def main():
    parser = argparse.ArgumentParser(description='Napraw źródła newsów z Google News')
    parser.add_argument('--dry-run', action='store_true', help='Tryb testowy - nie zapisuj')
    parser.add_argument('--limit', type=int, default=None, help='Limit newsów')
    args = parser.parse_args()
    print("=" * 70)
    print("Google News Source Fixer")
    print("=" * 70)
    if args.dry_run:
        print("🔍 TRYB TESTOWY - zmiany NIE będą zapisane\n")
    engine = create_engine(DATABASE_URL)
    Session = sessionmaker(bind=engine)
    session = Session()
    try:
        from database import ZOPKNews
        # Pobierz newsy z Google News z favicon
        query = session.query(ZOPKNews).filter(
            ZOPKNews.status.in_(['approved', 'auto_approved']),
            ZOPKNews.source_domain == 'news.google.com',
            ZOPKNews.image_url.like('%s2/favicons%')
        ).order_by(ZOPKNews.published_at.desc())
        if args.limit:
            query = query.limit(args.limit)
        news_items = query.all()
        print(f"📰 Znaleziono {len(news_items)} newsów do przetworzenia\n")
        stats = {
            'processed': 0,
            'mapped': 0,
            'unknown': 0,
            'no_pattern': 0
        }
        unknown_sources = set()
        for i, news in enumerate(news_items, 1):
            source_name = extract_source_from_title(news.title)
            if not source_name:
                stats['no_pattern'] += 1
                print(f"[{i}] ⚠ Brak wzorca ' - ' w tytule: {news.title[:50]}...")
                continue
            domain = SOURCE_TO_DOMAIN.get(source_name)
            if domain:
                stats['processed'] += 1
                stats['mapped'] += 1
                favicon_url = get_domain_favicon(domain)
                if not args.dry_run:
                    news.source_domain = domain
                    news.image_url = favicon_url
                    session.commit()
                    print(f"[{i}] ✓ {source_name} → {domain}")
                else:
                    print(f"[{i}] [DRY-RUN] {source_name} → {domain}")
            else:
                stats['unknown'] += 1
                unknown_sources.add(source_name)
                print(f"[{i}] ✗ Nieznane źródło: {source_name}")
        print("\n" + "=" * 70)
        print("PODSUMOWANIE")
        print("=" * 70)
        print(f"Przetworzono: {stats['processed']}")
        print(f"  - Zmapowane: {stats['mapped']}")
        print(f"  - Nieznane źródła: {stats['unknown']}")
        print(f"  - Brak wzorca w tytule: {stats['no_pattern']}")
        if unknown_sources:
            print(f"\n⚠ Nieznane źródła ({len(unknown_sources)}) - dodaj do SOURCE_TO_DOMAIN:")
            for src in sorted(unknown_sources):
                print(f'    "{src}": "",')
        if args.dry_run:
            print("\n⚠️  To był tryb testowy. Uruchom bez --dry-run aby zapisać.")
    except Exception as e:
        print(f"❌ Błąd: {e}")
        import traceback
        traceback.print_exc()
        session.rollback()
    finally:
        session.close()
 if __name__ == '__main__':
    main()