TextSniper – Text aus Dokumenten Extrahieren (macOS)

TextSniper ist eine App für Macs, die Text aus Bildern und anderen digitalen Dokumenten (PDFs, Online-Kursen, Screencasts, Präsentationen, Webseiten, Video-Tutorials, Fotos, etc.) extrahiert.

TextSniper extrahiert Text aus beliebigen Dokumenten, wie zum Beispiel aus

  • YouTube-Videos,
  • PDFs,
  • Bildern,
  • Online-Kursen,
  • Screencasts,
  • Präsentationen,
  • Webseiten,
  • Video-Tutorials,
  • Fotos.

Praktisch und super einfach

TextSniper nutzen in drei Schritten: (1) Drücke festgelegtes Tastaturkürzel, um Auswahl für den Extraktionsprozess zu starten. (2) Wähle Bildschirmausschnitt. (3) Drücke CMD-V, um den extrahierten Text in das gewünschten Dokument zu kopieren.
Screenshot 1: TextSniper nutzen in drei Schritten

TextSniper ist extrem einfach zu nutzen:

  1. Drücke Tastaturkürzel, um den Auswahlprozess für die Textextraktion zu starten.
  2. Wähle mit der Maus den gewünschten Bildschirmausschnitt. Wird der Moose-Button losgelassen, wird der selektierte Text mittels OCR (Texterkennung: optical character recognition) in die Zwischenablage (Clipboard) eingefügt.
  3. Positioniere nun den Cursor an die gewünschte Stelle im Dokument und drücke CMD-V (paste), um den extrahierten Text zu kopieren.

Mit TextSniper lässt sich z.B. Text von Vortragsfolien in Zoom-Konferenzen schnell und einfach transferieren. Allerdings wird die Referenz nicht automatisch mitgeliefert und muss daher für ein korrektes Zitat manuell eingetragen werden. So weit wie möglich sollte auch ein Link zur Quelle angefügt werden, um jederzeit den Kontext des kopierten Textes aufsuchen zu können.

TextSniper in Aktion

Im Zuge meiner Recherchen zu Hypothesis habe ich am 9. Februar an einem Zoom-Seminar zu ChatGPT aus der Reihe Liquid Margins teilgenommen. Die Veranstaltung wurde aufgenommen und ist als Liquid Margins 038: The rise of ChatGPT and how to work with and around it und kann wie weitere 135 Videos auf deren YouTube Channel eingesehen werden.

In dieser Panel-Diskussion wurden einige Folien gezeigt. An zwei Beispielen möchte ich die Ergebnisse bei der Nutzung von TextSniper demonstrieren.

Extraktion von linearem Text aus einer präsentierten Vortragsfolie

Das erste Beispiel ist die Extraktion von Text aus einer Präsentationsfolie. Ich entnehme dieses Beispiel, aus dem oben erwähnten YouTube Video. Das genaue Zitat ist:

Hypothesis (Regisseur). (2023, Februar 13). Liquid Margins 038: The rise of ChatGPT and how to work with and around it. https://www.youtube.com/watch?v=utW4xlL2GkM. 3:53

Das Zitat wurde mit Zotero erstellt. Für die genaue Position des Videos (3 Minuten 53 Sekunden) wurde die Browser-Erweiterung (Plugin) Eloquent genutzt.
Screenshot einer Folienpräsentation in einem YouTube Video
Screenshot 2: Bildschirmfoto der Video-Präsentation

Den obigen Screenshot habe ich so gewählt, dass ich nicht nur den Video-Frame aufgenommen habe, sondern auch den Kontext (= YouTube Videoseite). Die nachfolgende Extraktion des Textes entstammt einem mit TextSniper aufgenommenen Bildschirmfoto, das ich nur innerhalb des grauschwarzen Bereichs aufgenommen habe. Ich habe also nur Text aufgenommen. (Ich habe aber als Experiment auch einen größeren Ausschnitt mit den Icons (Bildelementen) aufgenommen. TextSniper hat die Nicht-Text-Elemente erkannt und exakt dasselbe Ergebnis geliefert!)

Explain ChatGPT in simple terms
ChatGPT is a language model developed by OpenAl that uses advanced artificial intelligence techniques to generate human-like text. It has been trained on a large dataset of text from the internet, and uses this information to respond to questions and generate text in a way that mimics human writing and speaking. In simple terms, you can think of it as an Al system that is designed to have conversations with people, similar to how you might talk to a friend or customer service representative.

Mit TextSniper extrahierter Text aus: Hypothesis (Regisseur). (2023, Februar 13). Liquid Margins 038: The rise of ChatGPT and how to work with and around it. https://www.youtube.com/watch?v=utW4xlL2GkM. 3:53

Bei der obigen Textpassage ist es wichtig zu bemerken, dass es keine harten Zeilenumbrüche gibt, d.h. der Text wird mit den Vorgaben des neuen Mediums umbrochen. Das ist ganz entscheidend, weil sonst bei PDFs die lästigen vorgegebenen Zeilenumbrüche manuell entfernt werden.

Extraktion aus einem formatierten Text

Ein weiteres Beispiel ist das nachfolgende Inhaltsverzeichnis. Es zeigt einen Text, der sowohl mit unterschiedlicher Farbe, Schriftgröße und Schriftfont gestaltet ist.

Screenshot eines in Farbe, Schriftgröße und verwendeter Schriftart formatierten Inhaltsverzeichnisses eines Berichts
Screenshot 3: Inhaltsverzeichnis von Hass im Netz: Steuerungsstrategien für Redaktionen

Aus dem nachfolgendem extrahierten Text wird deutlich, dass Formatierungen – welcher Art auch immer – nicht übernommen werden. Das betrifft nicht nur Farbe, Font und Schriftgröße, sondern auch Tabulatoren, Zeilenumbrüche und Zeilenabstände. So sind z.B. die Überschriften für die beiden Unterkapiteln von "Research Design" falsch umbrochen. Ähnliches gilt für den "Annex". Das ist verständlich: Es wird der reine Text extrahiert, keine Formatierung.

Die fehlende Seitenangabe bei "Moderation Strategies" ist ein Fehler in der Extraktion. Es wurde fälschlicherweise die "6" mit einem Aufzählungspunkt ersetzt. Dieses Beispiel erfordert also doch eine recht beträchtliche Nacharbeit.

CONTENTS
5 Foreword
• MODERATION STRATEGIES RECOMMENDATIONS FOR NEWSROOMS
10 RESEARCH DESIGN
11 Discourse typology 13 Online discourse analysis:
Key results (extract)
15 REDITORIAL MODERATION STRATEGIES TO COMBAT HATE SPEECH
19 Regulating strategy:
Disempowerment 22 Empowering strategy:
Empowerment
26 ANNEX
26 Guidelines and automation tools for newsrooms in dealing with hate speech 30 The authors
31 Glossary & Imprint

Mit TextSniper extrahierter Text aus Screenshot 3.

Extraktion von Text aus einem PDF

Screenshot der Titelseite eines PDF-Artikels aus einer wissenschaftlichen Zeitschrift
Screenshot 4: Titelseite eines wissenschaftlichen Artikels

Der obige Screenshot zeigt die Titelseite eines PDF Artikels. Selbstverständlich muss hier jede Spalte extra aufgenommen werden, um einen linear korrekten Textfluss zu erhalten. Ich habe für dieses Experiment die rechte Spalte verwendet, weil sie gegenüber der linken Spalte mehr Silbentrennungen aufweist. Das interessante nämlich ist, dass TextSniper diese "weiche Trennzeichen" erkennt und dementsprechend die beiden Wortteile korrekt zusammenfügt. Zu sehen ist das beispielsweise in "have estab-lished" bei der ersten Zeile des zweiten Absatzes. Aber auch bei den anderen drei im Text vorkommenden Silbentrennungen.

Essentially, engagement in OCI is likely to be predicted by both the content characteristics of comment and the individual characteristics of the user, who is exposed to it. The present study sets out to test effects of both of these factors. Firstly, to find further support for previous empirical findings (Kalch & Naab, 2017; Leonhard et al., 2018; Wilhelm, Joeckel, & Ziegler, 2019), we investigate whether the willingness to engage in OCI increases when users are exposed to comments that contain obvious hate speech compared to more subtle disparaging forms of speech. Secondly, we examine the impact of an individual's support for citizenship norms on engagement in OCI. Thereby, we aim add to the extant knowledge of a small but growing body of research that of has shown that individual characteristics, such as personal attitudes toward social groups on the receiving end of hate speech (Kalch & Naab, 2017) or individuals' moral orientation (Wilhelm & Joeckel, 2018; Wilhelm et al.. 2019), influence engagement in OCI.
Drawing on range of studies that have established a positive association between citizenship norms and political participation (e.g., Copeland, 2014; Dalton, 2006; Theiss-Morse, 1993), we essentially assume that individuals with strong norm conceptions of what it takes to be good citizen would feel more obliged to engage in OCI. To

Mit TextSniper extrahierter Text aus der rechten Spalte von Screenshot 4

TextSniper: Untypischer Start der Artikel-Reihe

Möglicherweise ist es didaktisch ungeschickt, dass ich die Artikelserie zu Obsidian Workflows mit TextSniper starte. Die App TextSniper ist nämlich für die Konzeption des geplanten Buches in mehrerer Hinsicht untypisch:

  • TextSniper ist weder Open Source, noch ist es frei zugänglich. Die Kosten sind 7, 99 US$ für 1 Gerät und 9,99 US$ für 3 Geräte.
  • TextSniper ist auch nicht Plattform-übergreifend, sondern nur für macOS erhältlich. Es verlangt mindestens das macOS-Betriebssystem Catalina (also Catalina, Big Sur, Monterey, Ventura) und ist für Apple Silicon M1/M2 Chip optimiert.
  • TextSniper hat auch keine mobile Version für Smartphones. Es müssen entsprechende (Bildschirm)Fotos erstellt werden, die dann auf einem macOS Rechner extrahiert werden.
  • TextSniper hat keinen eigenen spezifischen Arbeitsablauf für Obsidian, sondern der Text muss mit Copy-and-paste in die betreffende Notiz eingefügt werden.

Grundsatz: Alle Annotationen (Markierungen und Anmerkungen) sind auf einem Platz (nämlich in der Notizen-Applikation) für eine spätere Ausarbeitung zu sammeln.

Ich habe mich letztlich doch entschieden, mit diesem kleinen, leicht zu bedienenden Programm die Serie zu beginnen. TextSniper ist nämlich ein anschauliches Beispiel, wie der obige Grundsatz in einer konkreten Ausprägung umgesetzt werden kann.

Quellen verwendeter Beispiele

Kunst, M., Porten-Cheé, P., Emmer, M., & Eilders, C. (2021). Do “Good Citizens” fight hate speech online? Effects of solidarity citizenship norms on user responses to hate comments. Journal of Information Technology & Politics, 18(3), 258–273. https://doi.org/10.1080/19331681.2020.1871149
Kramp, L., & Weichert, S. (2018). Hass im Netz: Steuerungsstrategien für Redaktionen. VISTAS Verlag.
Hypothesis. (2023, February 13). Liquid Margins 038: The rise of ChatGPT and how to work with and around it. https://www.youtube.com/watch?v=utW4xlL2GkM

Offenlegung: Wenn Sie über meine Links zu TextSniper die App kaufen, dann erhalte ich dafür aus deren Affiliate-Programm eine kleine Entschädigung.

Von Peter Baumgartner

Seit mehr als 30 Jahren treiben mich die Themen eLearning/Blended Learning und (Hochschul)-Didaktik um. Als Universitätsprofessor hat sich dieses Interesse in 13 Bücher, knapp über 200 Artikel und 20 betreuten Dissertationen niedergeschlagen. Jetzt in der Pension beschäftige ich mich zunehmend auch mit Open Science und Data Science Education.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert