TextSniper – Text aus Dokumenten Extrahieren (macOS)

TextSniper ist eine App für Macs, die Text aus Bildern und anderen digitalen Dokumenten (PDFs, Online-Kursen, Screencasts, Präsentationen, Webseiten, Video-Tutorials, Fotos, etc.) extrahiert.

TextSniper extrahiert Text aus beliebigen Dokumenten, wie zum Beispiel aus

  • YouTube-Videos,
  • PDFs,
  • Bildern,
  • Online-Kursen,
  • Screencasts,
  • Präsentationen,
  • Webseiten,
  • Video-Tutorials,
  • Fotos.

Praktisch und super einfach

TextSniper nutzen in drei Schritten: (1) Drücke festgelegtes Tastaturkürzel, um Auswahl für den Extraktionsprozess zu starten. (2) Wähle Bildschirmausschnitt. (3) Drücke CMD-V, um den extrahierten Text in das gewünschten Dokument zu kopieren.
Screenshot 1: TextSniper nutzen in drei Schritten

TextSniper ist extrem einfach zu nutzen:

  1. Drücke Tastaturkürzel, um den Auswahlprozess für die Textextraktion zu starten.
  2. Wähle mit der Maus den gewünschten Bildschirmausschnitt. Wird der Moose-Button losgelassen, wird der selektierte Text mittels OCR (Texterkennung: optical character recognition) in die Zwischenablage (Clipboard) eingefügt.
  3. Positioniere nun den Cursor an die gewünschte Stelle im Dokument und drücke CMD-V (paste), um den extrahierten Text zu kopieren.

Mit TextSniper lässt sich z.B. Text von Vortragsfolien in Zoom-Konferenzen schnell und einfach transferieren. Allerdings wird die Referenz nicht automatisch mitgeliefert und muss daher für ein korrektes Zitat manuell eingetragen werden. So weit wie möglich sollte auch ein Link zur Quelle angefügt werden, um jederzeit den Kontext des kopierten Textes aufsuchen zu können.

TextSniper in Aktion

Im Zuge meiner Recherchen zu Hypothesis habe ich am 9. Februar an einem Zoom-Seminar zu ChatGPT aus der Reihe Liquid Margins teilgenommen. Die Veranstaltung wurde aufgenommen und ist als Liquid Margins 038: The rise of ChatGPT and how to work with and around it und kann wie weitere 135 Videos auf deren YouTube Channel eingesehen werden.

In dieser Panel-Diskussion wurden einige Folien gezeigt. An zwei Beispielen möchte ich die Ergebnisse bei der Nutzung von TextSniper demonstrieren.

Extraktion von linearem Text aus einer präsentierten Vortragsfolie

Das erste Beispiel ist die Extraktion von Text aus einer Präsentationsfolie. Ich entnehme dieses Beispiel, aus dem oben erwähnten YouTube Video. Das genaue Zitat ist:

Hypothesis (Regisseur). (2023, Februar 13). Liquid Margins 038: The rise of ChatGPT and how to work with and around it. https://www.youtube.com/watch?v=utW4xlL2GkM. 3:53

Das Zitat wurde mit Zotero erstellt. Für die genaue Position des Videos (3 Minuten 53 Sekunden) wurde die Browser-Erweiterung (Plugin) Eloquent genutzt.
Screenshot einer Folienpräsentation in einem YouTube Video
Screenshot 2: Bildschirmfoto der Video-Präsentation

Den obigen Screenshot habe ich so gewählt, dass ich nicht nur den Video-Frame aufgenommen habe, sondern auch den Kontext (= YouTube Videoseite). Die nachfolgende Extraktion des Textes entstammt einem mit TextSniper aufgenommenen Bildschirmfoto, das ich nur innerhalb des grauschwarzen Bereichs aufgenommen habe. Ich habe also nur Text aufgenommen. (Ich habe aber als Experiment auch einen größeren Ausschnitt mit den Icons (Bildelementen) aufgenommen. TextSniper hat die Nicht-Text-Elemente erkannt und exakt dasselbe Ergebnis geliefert!)

Explain ChatGPT in simple terms
ChatGPT is a language model developed by OpenAl that uses advanced artificial intelligence techniques to generate human-like text. It has been trained on a large dataset of text from the internet, and uses this information to respond to questions and generate text in a way that mimics human writing and speaking. In simple terms, you can think of it as an Al system that is designed to have conversations with people, similar to how you might talk to a friend or customer service representative.

Mit TextSniper extrahierter Text aus: Hypothesis (Regisseur). (2023, Februar 13). Liquid Margins 038: The rise of ChatGPT and how to work with and around it. https://www.youtube.com/watch?v=utW4xlL2GkM. 3:53

Bei der obigen Textpassage ist es wichtig zu bemerken, dass es keine harten Zeilenumbrüche gibt, d.h. der Text wird mit den Vorgaben des neuen Mediums umbrochen. Das ist ganz entscheidend, weil sonst bei PDFs die lästigen vorgegebenen Zeilenumbrüche manuell entfernt werden.

Extraktion aus einem formatierten Text

Ein weiteres Beispiel ist das nachfolgende Inhaltsverzeichnis. Es zeigt einen Text, der sowohl mit unterschiedlicher Farbe, Schriftgröße und Schriftfont gestaltet ist.

Screenshot eines in Farbe, Schriftgröße und verwendeter Schriftart formatierten Inhaltsverzeichnisses eines Berichts
Screenshot 3: Inhaltsverzeichnis von Hass im Netz: Steuerungsstrategien für Redaktionen

Aus dem nachfolgendem extrahierten Text wird deutlich, dass Formatierungen – welcher Art auch immer – nicht übernommen werden. Das betrifft nicht nur Farbe, Font und Schriftgröße, sondern auch Tabulatoren, Zeilenumbrüche und Zeilenabstände. So sind z.B. die Überschriften für die beiden Unterkapiteln von "Research Design" falsch umbrochen. Ähnliches gilt für den "Annex". Das ist verständlich: Es wird der reine Text extrahiert, keine Formatierung.

Die fehlende Seitenangabe bei "Moderation Strategies" ist ein Fehler in der Extraktion. Es wurde fälschlicherweise die "6" mit einem Aufzählungspunkt ersetzt. Dieses Beispiel erfordert also doch eine recht beträchtliche Nacharbeit.

CONTENTS
5 Foreword
• MODERATION STRATEGIES RECOMMENDATIONS FOR NEWSROOMS
10 RESEARCH DESIGN
11 Discourse typology 13 Online discourse analysis:
Key results (extract)
15 REDITORIAL MODERATION STRATEGIES TO COMBAT HATE SPEECH
19 Regulating strategy:
Disempowerment 22 Empowering strategy:
Empowerment
26 ANNEX
26 Guidelines and automation tools for newsrooms in dealing with hate speech 30 The authors
31 Glossary & Imprint

Mit TextSniper extrahierter Text aus Screenshot 3.

Extraktion von Text aus einem PDF

Screenshot der Titelseite eines PDF-Artikels aus einer wissenschaftlichen Zeitschrift
Screenshot 4: Titelseite eines wissenschaftlichen Artikels

Der obige Screenshot zeigt die Titelseite eines PDF Artikels. Selbstverständlich muss hier jede Spalte extra aufgenommen werden, um einen linear korrekten Textfluss zu erhalten. Ich habe für dieses Experiment die rechte Spalte verwendet, weil sie gegenüber der linken Spalte mehr Silbentrennungen aufweist. Das interessante nämlich ist, dass TextSniper diese "weiche Trennzeichen" erkennt und dementsprechend die beiden Wortteile korrekt zusammenfügt. Zu sehen ist das beispielsweise in "have estab-lished" bei der ersten Zeile des zweiten Absatzes. Aber auch bei den anderen drei im Text vorkommenden Silbentrennungen.

Essentially, engagement in OCI is likely to be predicted by both the content characteristics of comment and the individual characteristics of the user, who is exposed to it. The present study sets out to test effects of both of these factors. Firstly, to find further support for previous empirical findings (Kalch & Naab, 2017; Leonhard et al., 2018; Wilhelm, Joeckel, & Ziegler, 2019), we investigate whether the willingness to engage in OCI increases when users are exposed to comments that contain obvious hate speech compared to more subtle disparaging forms of speech. Secondly, we examine the impact of an individual's support for citizenship norms on engagement in OCI. Thereby, we aim add to the extant knowledge of a small but growing body of research that of has shown that individual characteristics, such as personal attitudes toward social groups on the receiving end of hate speech (Kalch & Naab, 2017) or individuals' moral orientation (Wilhelm & Joeckel, 2018; Wilhelm et al.. 2019), influence engagement in OCI.
Drawing on range of studies that have established a positive association between citizenship norms and political participation (e.g., Copeland, 2014; Dalton, 2006; Theiss-Morse, 1993), we essentially assume that individuals with strong norm conceptions of what it takes to be good citizen would feel more obliged to engage in OCI. To

Mit TextSniper extrahierter Text aus der rechten Spalte von Screenshot 4

TextSniper: Untypischer Start der Artikel-Reihe

Möglicherweise ist es didaktisch ungeschickt, dass ich die Artikelserie zu Obsidian Workflows mit TextSniper starte. Die App TextSniper ist nämlich für die Konzeption des geplanten Buches in mehrerer Hinsicht untypisch:

  • TextSniper ist weder Open Source, noch ist es frei zugänglich. Die Kosten sind 7, 99 US$ für 1 Gerät und 9,99 US$ für 3 Geräte.
  • TextSniper ist auch nicht Plattform-übergreifend, sondern nur für macOS erhältlich. Es verlangt mindestens das macOS-Betriebssystem Catalina (also Catalina, Big Sur, Monterey, Ventura) und ist für Apple Silicon M1/M2 Chip optimiert.
  • TextSniper hat auch keine mobile Version für Smartphones. Es müssen entsprechende (Bildschirm)Fotos erstellt werden, die dann auf einem macOS Rechner extrahiert werden.
  • TextSniper hat keinen eigenen spezifischen Arbeitsablauf für Obsidian, sondern der Text muss mit Copy-and-paste in die betreffende Notiz eingefügt werden.

Grundsatz: Alle Annotationen (Markierungen und Anmerkungen) sind auf einem Platz (nämlich in der Notizen-Applikation) für eine spätere Ausarbeitung zu sammeln.

Ich habe mich letztlich doch entschieden, mit diesem kleinen, leicht zu bedienenden Programm die Serie zu beginnen. TextSniper ist nämlich ein anschauliches Beispiel, wie der obige Grundsatz in einer konkreten Ausprägung umgesetzt werden kann.

Quellen verwendeter Beispiele

Hidalgo, C. (2015). Why Information Grows: The Evolution of Order, from Atoms to Economies. Basic Books.
Hidalgo, C. A., Orghian, D., Canals, J. A., Almeida, F. D., & Martin, N. (2021). How Humans Judge Machines. The MIT Press.
Collins, H. (2010). Tacit and Explicit Knowledge (Reprint). University of Chicago Press.
Mayer, R. E. (2009). Multimedia Learning (2nd ed.). Cambridge University Press.
Mayer, R. E. (2020). Multimedia Learning (3rd ed.). Cambridge University Press.
Mayer, R. E., Bove, W., Bryman, A., Mars, R., & Tapangco, L. (1996). When less is more: Meaningful learning from visual and verbal summaries of science textbook lessons. Journal of Educational Psychology, 88(1), 64.
Horton, S. V., & Lovitt, T. C. (1989). Construction and Implementation of Graphic Organizers for Academically Handicapped and Regular Secondary Students. Academic Therapy, 24(5), 625–640. https://doi.org/10.1177/105345128902400513
Dennison, R. S., & Kiewra, K. A. (1993). Studying text supplements: Attention focusing and internal connection effects. Annual Meeting of the American Educational Research Association, Atlanta, GA.
Dehaene, S. (2009). Reading in the Brain: The New Science of How We Read (1st ed.). Penguin Books.
Bera, S. J., & Robinson, D. H. (2004). Exploring the Boundary Conditions of the Delay Hypothesis With Adjunct Displays. Journal of Educational Psychology, 96(2), 381.
Robinson, D. H., & Molina, E. (2002). The relative involvement of visual and auditory working memory when studying adjunct displays. Contemporary Educational Psychology, 27(1), 118–131.
McPherson, F. (2018). Effective Notetaking (3rd. revised edition). Wayz Press.
Lorch Jr, R. F., & Lorch, E. P. (1996). Effects of organizational signals on free recall of expository text. Journal of Educational Psychology, 88(1), 38.
Meyer, B. J. (1987). Following the author’s top-level organization: An important skill for reading comprehension. Understanding Readers’ Understanding: Theory and Practice, 59–76.
Lorch Jr, R. F., & Lorch, E. P. (1996). Effects of organizational signals on text-processing strategies. Journal of Educational Psychology, 87(4), 537. https://doi.org/10.1037/0022-0663.87.4.537
Loman, N. L., & Mayer, R. E. (1983). Signaling techniques that increase the understandability of expository prose. Journal of Educational Psychology, 75(3), 402. https://doi.org/10.1037/0022-0663.75.3.402
Hartley, J., Kenely, J., Owen, G., & Trueman, M. (1980). The Effect Of Headings On Children’s Recall From Prose Text. British Journal of Educational Psychology, 50(3), 304–307. https://doi.org/10.1111/j.2044-8279.1980.tb00816.x
von Restorff, H. (1933). Über die Wirkung von Bereichsbildungen im Spurenfeld. Psychologische Forschung, 18(1), 299–342. https://doi.org/10.1007/BF02409636
Cashen, V. M., & Leicht, K. L. (1970). Role of the isolation effect in a formal educational setting. Journal of Educational Psychology, 61, 484–486. https://doi.org/10.1037/h0030286
Hershberger, W. A., & Terry, D. F. (1963). Complexity of Typographical Cueing in Programed and Conventional Texts. Technical Report. No. 7.
Crouse, J. H., & Idstein, P. (1972). Effects of encoding cues on prose learning. Journal of Educational Psychology, 63(4), 309.
Thiede, K. W., & Anderson, M. C. M. (2003). Summarizing can improve metacomprehension accuracy. Contemporary Educational Psychology, 28(2), 129–160. https://doi.org/10.1016/S0361-476X(02)00011-5
Anderson, V., & Hidi, S. (1988). Teaching students to summarize. Educational Leadership, 46(4), 26–28.
Lemaire, B., Mandin, S., Dessus, P., & Denhière, G. (2005). Computational cognitive models of summarization assessment skills. Proceedings of the 27th Annual Meeting of the Cognitive Science Society (CogSci’2005), 1266–1271.
Westby, C., Culatta, B., Lawrence, B., & Hall-Kenyon, K. (2010). Summarizing expository texts. Topics in Language Disorders, 30(4), 275–287.
Day, J. D. (1980). Teaching summarization skills: A comparison of training methods. University of Illinois at Urbana-Champaign.
Furtado, L., & Johnson, L. (2010). Enhancing summarization skills using twin texts: Instruction in narrative and expository text structures. Reading, 10(2).
Kintsch, E., Steinhart, D., Stahl, G., LSA Research Group, L. R. G., Matthews, C., & Lamb, R. (2000). Developing summarization skills through the use of LSA-based feedback. Interactive Learning Environments, 8(2), 87–109.
Budianto, A., Setyosari, P., Kuswandi, D., & Ulfa, S. (2022). Summaries Writing to Enhance Reading Comprehension: Systematic Literature Review from 2014 to 2021. Eurasian Journal of Applied Linguistics, 8(1), 149–161.
Dubé, C. E., & Lapane, K. L. (2014). Lay abstracts and summaries: Writing advice for scientists. Journal of Cancer Education, 29(3), 577–579.
Yuan ke, L., & Hoey, M. (2014). Strategies of writing summaries for hard news texts: A text analysis approach. Discourse Studies, 16(1), 89–105.
Gainey, K. M., Smith, J., McCaffery, K. J., Clifford, S., & Muscat, D. M. (2022). What Author Instructions Do Health Journals Provide for Writing Plain Language Summaries? A Scoping Review. The Patient - Patient-Centered Outcomes Research. https://doi.org/10.1007/s40271-022-00606-7
Aslani, G., Haghani, F., Moshtaghi, S., & Zeinali, S. (2013). A comparison of the effect of presenting advanced organizers in web-based instruction. Procedia-Social and Behavioral Sciences, 83, 200–203.
Atomatofa, R. (2013). Effects of advanced organizers on attainment and retention of students’ concept of gravity in Nigeria. International Journal of Research Studies in Educational Technology, 2(1), 1–10.
Glover, J. A., Bullock, R. G., & Dietzer, M. L. (1990). Advance organizers: Delay hypotheses. Journal of Educational Psychology, 82(2), 291.
Kirkman, G., & Shaw Jr, E. L. (1997). Effects of an Oral Advanced Organizer on Immediate and Delayed Retention.
Preiss, R. W., & Gayle, B. M. (2006). A meta-analysis of the educational benefits of employing advanced organizers. Classroom Communication and Instructional Processes: Advances through Meta-Analysis, 329–344.
Glover, J. A., Krug, D., Dietzer, M., George, B. W., & Hannon, S. M. (1990). “Advance” advance organizers. Bulletin of the Psychonomic Society, 28(1), 4–6.
Marzano, R. J., Pickering, D., & Pollock, J. E. (2001). Classroom Instruction That Works: Research-Based Strategies for Increasing Student Achievement. ASCD.
Lorch, R. F., Lorch, E. P., & Matthews, P. D. (1985). On-line processing of the topic structure of a text. Journal of Memory and Language, 24(3), 350–362. https://doi.org/10.1016/0749-596X(85)90033-6
Cook, N. M. (1981). Summaries: further issues and data. Educational Review, 33(3), 215–222. https://doi.org/10.1080/0013191810330305
Hartley, J., Goldie, M., & Steen, L. (1979). The role and position of summaries: Some issues and data. Educational Review, 31(1), 59–65.
Cook, N. M. (1981). Summaries: Further issues and data. Educational Review, 33(3), 215–222.
Lorch Jr, R. F., Lorch, E. P., & Matthews, P. D. (1985). On-line processing of the topic structure of a text. Journal of Memory and Language, 24(3), 350–362.
Brooks, L. W., Dansereau, D. F., Spurlin, J. E., & Holley, C. D. (1983). Effects of headings on text processing. Journal of Educational Psychology, 75(2), 292. https://doi.org/10.1037/0022-0663.75.2.292
Mayer, R. E., Dyck, J. L., & Cook, L. K. (1985). Techniques that help readers build mental models from scientific text: Definitions pretraining and signaling. Journal of Educational Psychology, 76(6), 1089. https://doi.org/10.1037/0022-0663.76.6.1089
Kardash, C. M., & Noel, L. K. (2000). How Organizational Signals, Need for Cognition, and Verbal Ability Affect Text Recall and Recognition. Contemporary Educational Psychology, 25(3), 317–331. https://doi.org/10.1006/ceps.1999.1011
Lemarié, J., Lorch Jr., R. F., & Péry-Woodley, M.-P. (2012). Understanding How Headings Influence Text Processing. Discours. Revue de Linguistique, Psycholinguistique et Informatique. A Journal of Linguistics, Psycholinguistics and Computational Linguistics, 10. https://doi.org/10.4000/discours.8600
Brooks, L. W., Dansereau, D. F., Holley, C. D., & Spurlin, J. E. (1983). Generation of descriptive text headings. Contemporary Educational Psychology, 8(2), 103–108. https://doi.org/10.1016/0361-476X(83)90001-2
Sanchez, R. P., Lorch, E. P., & Lorch, R. F. (2001). Effects of Headings on Text Processing Strategies. Contemporary Educational Psychology, 26(3), 418–428. https://doi.org/10.1006/ceps.2000.1056

Offenlegung: Wenn Sie über meine Links zu TextSniper die App kaufen, dann erhalte ich dafür aus deren Affiliate-Programm eine kleine Entschädigung.

Von Peter Baumgartner

Seit mehr als 30 Jahren treiben mich die Themen eLearning/Blended Learning und (Hochschul)-Didaktik um. Als Universitätsprofessor hat sich dieses Interesse in 13 Bücher, knapp über 200 Artikel und 20 betreuten Dissertationen niedergeschlagen. Jetzt in der Pension beschäftige ich mich zunehmend auch mit Open Science und Data Science Education.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert