- Remove seed/demo auction endpoint + scripts (no mock data) - Rebuild AuctionScraper: strict validation (no -- bids, requires end_time) - Add robust sources: - ExpiredDomains provider auction pages (GoDaddy/Namecheap/Sedo) - Park.io auctions table - Sav load_domains_ajax table - Simplify hidden API scrapers to Dynadot only - Add unique index on (platform, domain) + safe upsert - Update deployment/docs to reflect real scraping
7.2 KiB
🔒 Pounce Data Independence Report
Executive Summary
Status: 🟡 PARTIALLY INDEPENDENT
Pounce hat eine solide Basis für Unabhängigkeit, aber es gibt kritische Bereiche, die verbessert werden müssen, um als "Premium-Dienstleister" aufzutreten.
📊 Aktuelle Datenquellen-Analyse
1. TLD-Preise (TLD Intel)
| Aspekt | Status | Details |
|---|---|---|
| Quelle | Porkbun Public API | ✅ Keine API-Keys erforderlich |
| Zuverlässigkeit | 🟡 Mittel | API kann jederzeit geändert werden |
| Abdeckung | 896+ TLDs | ✅ Excellent |
| Genauigkeit | 100% | ✅ Offizielle Preise |
| Unabhängigkeit | ⚠️ Fragil | Abhängig von einem Registrar |
Risiko: Wenn Porkbun seine API ändert oder blockt, fallen alle TLD-Preise weg.
Empfehlung: Mehrere Registrare hinzufügen (Namecheap, Cloudflare, Google Domains Public Pricing).
2. Domain-Auktionen (Acquire)
| Aspekt | Status | Details |
|---|---|---|
| Quelle | Web Scraping | 5 Plattformen |
| Plattformen | GoDaddy, Sedo, NameJet, DropCatch, ExpiredDomains | ✅ Diverse |
| Zuverlässigkeit | 🔴 Niedrig | Websites können Layouts jederzeit ändern |
| Genauigkeit | ⚠️ Variabel | Abhängig von Scraping-Qualität |
| Rate Limiting | ✅ Implementiert | 5-10 req/min pro Plattform |
Risiko:
- Web-Scraping ist fragil - Layout-Änderungen brechen Scraper
- Plattformen können Scraping blocken (Captcha, IP-Bans)
- Keine rechtliche Grundlage für Daten-Nutzung
Aktueller Code-Zustand:
# backend/app/services/auction_scraper.py
# Zeilen 1-19 zeigen, dass ALLE Daten gescrapt werden
# Kein API-Zugriff, nur Web-Parsing
3. Domain-Verfügbarkeit (Track/Watchlist)
| Aspekt | Status | Details |
|---|---|---|
| Methode 1 | RDAP (Modern) | ✅ Beste Methode |
| Methode 2 | Custom RDAP (.ch, .li) | ✅ Speziell implementiert |
| Methode 3 | WHOIS (Fallback) | ✅ Universal-Fallback |
| Methode 4 | DNS Check | ✅ Schnellste Methode |
| Unabhängigkeit | ✅ 100% | Direkte Protokolle, keine APIs |
Dies ist der STÄRKSTE Teil der Architektur!
4. Domain-Valuation (Pounce Score)
| Aspekt | Status | Details |
|---|---|---|
| Quelle | Intern | ✅ Keine externen APIs |
| Algorithmus | Eigene Logik | TLD-Wert + Länge + Keywords |
| Transparenz | ✅ Vollständig | Code zeigt alle Faktoren |
| Estibot/GoDaddy | ❌ Nicht integriert | ✅ GUT - Unabhängig |
Aktueller Score-Algorithmus:
# backend/app/services/valuation.py
TLD_VALUES = {
"com": 1.0, # Baseline
"ai": 1.20, # Premium (AI-Boom)
"io": 0.75, # Startup-Favorit
"net": 0.65, # Klassiker
...
}
🚀 Empfehlungen für 100% Premium-Unabhängigkeit
Priorität 1: Zone File Integration (KRITISCH)
Die analysis_2.md beschreibt es perfekt: Zone Files sind der Rohstoff.
Was sind Zone Files?
- Tägliche Listen ALLER registrierten Domains einer TLD
- Bereitgestellt von Registries (Verisign, SWITCH, etc.)
- Durch Vergleich von "gestern vs heute" = gelöschte/neue Domains
Umsetzung:
# Neuer Service: backend/app/services/zone_file_processor.py
class ZoneFileProcessor:
async def download_zone_file(self, tld: str) -> str:
"""Download Zone File von CZDS oder Registry"""
pass
async def compute_diff(self, yesterday: str, today: str) -> dict:
"""Finde: added_domains, deleted_domains"""
pass
async def filter_premium(self, domains: list) -> list:
"""Wende Pounce-Filter an"""
# Keine Zahlen, max 12 Zeichen, Wörterbuch-Match
pass
Zugang:
- .com/.net: ICANN CZDS (Centralized Zone Data Service) - Kostenlos beantragen
- .ch/.li: SWITCH (nic.ch) - Open Data verfügbar
- .de: DENIC - Zone File Zugang beantragbar
Priorität 2: Multi-Registrar TLD-Preise
Statt nur Porkbun, sollten wir Preise von mehreren Quellen sammeln:
# backend/app/services/tld_scraper/aggregator.py
self.scrapers = [
PorkbunScraper(), # ✅ Bereits implementiert
NamecheapScraper(), # 📌 TODO: Public Pricing Page
CloudflareScraper(), # 📌 TODO: Public Pricing API
GandiScraper(), # 📌 TODO: Pricing Page
]
Vorteil: Preis-Vergleich über Registrare = echte "Intel"
Priorität 3: Auction-Daten Härtung
Option A: Offizieller API-Zugang
- GoDaddy Affiliate-Programm für Auktions-API
- Sedo Partner-Programm
- → Kosten, aber zuverlässig
Option B: Robusteres Scraping
- Playwright statt httpx (JavaScript-Rendering)
- Proxy-Rotation für IP-Diversität
- ML-basiertes HTML-Parsing (weniger Layout-abhängig)
Option C: User-Generated Data (Hybrid)
- User können Auktionen melden
- Community-validiert
- Reduziert Scraping-Last
📋 Implementierungs-Roadmap
Phase 1: Stabilisierung (Sofort)
- Eigene Domain-Valuation (Pounce Score)
- Multi-Methoden Domain-Check (RDAP/WHOIS/DNS)
- Zweiten TLD-Preis-Scraper hinzufügen (Namecheap)
Phase 2: Zone Files (2-4 Wochen)
- CZDS-Zugang beantragen (.com, .net)
- SWITCH Open Data integrieren (.ch, .li)
- Zone File Diff-Processor bauen
- "Daily Drop Gems" Feature launchen
Phase 3: Premium-Ausbau (1-2 Monate)
- GoDaddy Affiliate-API für Auktionen
- DNS-Change-Monitoring (Pre-Drop-Signale)
- HTTP-Health-Check für Watchlist-Domains
✅ Was bereits EXZELLENT ist
- Domain-Checker: RDAP → WHOIS → DNS Fallback-Kette
- Valuation: 100% intern, keine Estibot-Abhängigkeit
- Vanity Filter: Eigener Spam-Erkennungs-Algorithmus
- TLD-Typisierung: Automatische Klassifizierung
🎯 Fazit
Pounce hat die richtige Architektur für Unabhängigkeit. Die kritischsten Schritte sind:
- Zone Files = Unabhängige Datenquelle für "Drops"
- Multi-Registrar Preise = Robustheit gegen API-Ausfälle
- Offizieller Auktions-Zugang = Rechtlich sauber & zuverlässig
Mit diesen Verbesserungen wird Pounce ein echtes Premium-Tool, das keine externen APIs braucht - sondern eigene, proprietäre Daten hat.
✅ GELÖST: Keine Sample-/Fake-Daten im Auction Feed
Neuer Zustand der Auktions-Daten (Stand: 2025-12)
Das Scraping liefert jetzt ausschließlich echte Auktionsdaten (keine Schätzpreise, kein Random-Fallback, kein Seed/Demo):
-
GoDaddy / Namecheap / Sedo (robust, ohne Cloudflare-Probleme):
- Ingestion über die ExpiredDomains-Provider-Seiten mit Price / Bids / Endtime
- Vorteil: Wir müssen die Cloudflare-geschützten Provider nicht direkt scrapen, bekommen aber echte Live-Daten.
-
Park.io
- Scraping der öffentlichen Auktionstabelle (inkl. Price / Bids / Close Date)
-
Sav
- Scraping des Tabellen-Endpoints
load_domains_ajax/*(inkl. Price / Bids / Time left → deterministischeend_timeAbleitung)
- Scraping des Tabellen-Endpoints
-
Dynadot
- Hidden JSON API (Frontend-API) mit echten Preis- und Endzeit-Feldern
Datenqualitäts-Regeln
current_bid > 0undend_timemüssen vorhanden sein, sonst wird der Datensatz verworfen.- Es gibt keinen
/api/v1/auctions/seedEndpunkt mehr und keine Seed-/Demo-Skripte.
Generiert am: 2024-12-10 Für: pounce.ch