Texterkennung direkt aus Bildern: Browser-Plugin Project Naptha macht's möglich

12.05.14 von Alin Cucu Beitrag

Schon mal Text direkt aus einem Internet-Bild verwenden wollen? Da blieb bisher nur eines übrig: Abtippen. Das könnte bald der Vergangenheit angehören.

Die Software „Project Naptha“ des MIT-Studenden Kevin Kwok ermöglicht das direkte Erkennen von Text in Bildern. Egal ob Screenshots, Scans, Fotos oder Memes: Bald soll sogar das Bearbeiten und direkte Übersetzen möglich sein.

Wer viel im Internet arbeitet, weiss, wovon die Rede ist. Texte kopieren oder per Rechtsklick direkt in eine Google-Suche umzusetzen gehört für viele Webworker, aber auch privat Aktive zum täglichen Brot. Blöd nur, dass das mit Bildern nicht funktioniert. Bisher.

Project Naptha ist der Name für ein Browser-Plugin des MIT-Studenten Kevin Kwok. Damit kann man in Bildern befindliche Texte markieren und kopieren. Kwok entwickelte die Software ursprünglich im Rahmen des HackMIT 2013 Hackathons des weltbekannten Massachusetts Institute of Technology (MIT). Damals hiess das Tool noch „Images as Text“ und gewann den zweiten Preis.

Project Naptha: nicht nur Texterkennung

Wie gut funktioniert das Ganze? Auf der Homepage von Project Naptha kann man sich einen Überblick über die enthaltenen und geplanten Funktionen verschaffen, allerdings zunächst nur als Demo. Die sieht gut aus und funktioniert auch einwandfrei, sogar die Übersetzung klappt immerhin auf Google Translator-Niveau. Wer Project Naptha auf seinem Rechner testen will, braucht Google Chrome, andere Browser werden derzeit noch nicht unterstützt. Man kann sich aber in einen E-Mail-Verteiler eintragen und informieren lassen, sobald eine Firefox-Version erschienen ist.

Die Beta-Version für Chrome sieht laut ycombinator.com und t3n.de „mehr als vielversprechend“ aus. Allerdings scheint die Texterkennung etwas zu dauern, obwohl das Programm bereits durch vorausschauende Überwachung herauszufinden versucht, wann der Cursor über einen Text fährt. Die eigentlich Texterkennung wird über eine JavaScript-Anbindung der Open-Source-OCR-Software Ocrad erledigt und ist reine Rechensache.

Viel Luft nach oben, aber toller Ansatz

Insofern ist es schon toll, dass überhaupt eine Texterkennung quasi in Echtzeit möglich ist. Als Unterstützung kann Project Naptha auch noch auf Googles Cloud-basierte Texterkennung Tesseract zugreifen. Diese ermöglicht nicht nur bessere Texterkennung, sondern lädt auch noch einmal erkannte Texte aus Bildern für spätere Anwender hoch.

Sicherlich wird Kevin Kwok noch ein bisschen Arbeit in sein Projekt stecken müssen, damit alle Funktionen, auch anspruchsvolle wie das Übersetzen von Texten, einwandfrei und schnell funktionieren. Doch bereits jetzt bekommt er, ganz zurecht, von vielen jungen Entwicklerkollegen grosses Lob für seine tollen Ideen und engagierten Umsetzungen.

Unser Fazit: cooles Tool, lange überfällig, könnte Kultstatus erreichen. Am besten noch heute in den E-Mail-Verteiler bei Project Naptha eintragen oder gleich das Chrome-Plugin nutzen.

Titelbild: Auch aus solchen schräg aufgenommenen Fotografien soll Project Naptha Textbausteine erkennen können. (© eurobanks – shutterstock.com)