Skip to main content

Bagaimana Menggunakan Alat 'Ngram Viewer' dalam Buku Google

Brian McGinty Karatbars Gold New Introduction Brian McGinty Brian McGinty (April 2025)

Brian McGinty Karatbars Gold New Introduction Brian McGinty Brian McGinty (April 2025)
Anonim

A Ngram, yang juga dikenali sebagai N-gram, adalah analisis statistik kandungan teks atau ucapan untuk dicari n (nombor) beberapa jenis item dalam teks.

Item carian boleh menjadi segala macam perkara, seperti fonem, awalan, frasa, atau huruf. Walaupun N-gram agak kabur di luar komuniti penyelidikan, ia digunakan dalam pelbagai bidang dan mempunyai banyak implikasi untuk pemaju pengkod program komputer yang memahami dan bertindak balas terhadap bahasa lisan semula jadi.

Dalam kes Google Books Ngram Viewer, teks yang akan dianalisis berasal dari sejumlah besar buku Google telah diimbas dari perpustakaan awam untuk mengisi enjin carian Buku Google mereka. Untuk Buku Google Ngram Viewer, mereka merujuk kepada teks yang akan anda cari sebagai korpus . Ngram Viewer dikumpulkan oleh bahasa, walaupun anda boleh menganalisis Bahasa Inggeris Inggeris dan Amerika secara berasingan atau mengikatnya bersama-sama.

Bagaimana Ngram berfungsi

  1. Pergi ke Google Books Ngram Viewer di books.google.com/ngrams.

  2. Taip mana-mana frasa atau frasa yang anda ingin analisa. Pisahkan setiap frasa dengan koma. Google mencadangkan, "Albert Einstein, Sherlock Holmes, Frankenstein" untuk memulakan anda. Item adalah sensitif huruf, tidak seperti carian web Google.

  3. Taipkan julat tarikh. Lalai adalah 1800 hingga 2000.

  4. Pilih corpus. Anda boleh mencari teks bahasa asing atau Bahasa Inggeris, dan sebagai tambahan kepada pilihan standard, anda mungkin melihat perkara seperti "Bahasa Inggeris (2009) atau Bahasa Inggeris Amerika (2009)" di bahagian bawah. Ini adalah korpora yang lebih lama yang telah dikemas kini oleh Google, tetapi anda mungkin mempunyai beberapa sebab untuk membuat perbandingan anda terhadap set data lama. Kebanyakan pengguna boleh mengabaikannya dan memberi tumpuan kepada corpora yang paling terkini.

  5. Tetapkan tahap smoothing anda. Smoothing merujuk kepada betapa lancar graf itu pada akhirnya. Perwakilan yang paling tepat akan menjadi tahap pelepasan 0, tetapi tetapan itu mungkin sukar dibaca. Lalai ditetapkan ke 3. Dalam kebanyakan kes, anda tidak perlu menyesuaikannya.

  6. Tekan butang Cari banyak buku butang.

Google membolehkan anda menggerunkan sedikit dengan Ngram Viewer. Jika anda ingin mencari ikan kata kerja dan bukannya kata nama ikan, anda boleh melakukannya dengan menggunakan tag. Dalam kes ini, anda akan mencari "fish_VERB"

Google menyediakan senarai lengkap arahan yang anda boleh gunakan dan dokumentasi canggih lain di laman web mereka.

Apakah Menunjukkan Ngram?

Google Books Ngram Viewer akan mengeluarkan grafik yang mewakili penggunaan frasa tertentu dalam buku melalui masa. Sekiranya anda telah memasukkan lebih daripada satu perkataan atau frasa, anda akan melihat baris warna untuk membezakan istilah carian yang berlainan. Ini hampir sama dengan Google Trends, hanya carian yang meliputi tempoh masa yang lebih lama.

Kajian kes

Pertimbangkan kajian kes pai cuka. Mereka disebut dalam Laura Ingalls Wilder Little House on the Prairie siri. Meneroka dengan carian Web Google untuk mengetahui lebih lanjut mengenai pai cuka mendedahkan bahawa mereka dianggap sebahagian daripada masakan Amerika Selatan dan benar-benar dibuat dari cuka. Mereka mendengar kembali ke zaman apabila tidak semua orang mempunyai akses kepada hasil segar pada setiap masa sepanjang tahun. Tetapi adakah keseluruhan cerita itu?

Cari Google Ngram Viewer untuk cuka cuka dan anda akan menemui beberapa sebutan pai di kedua-dua awal dan lewat tahun 1800-an, banyak menyebut dalam tahun 1940-an, dan semakin banyak menyebut dalam masa-masa lalu. Walau bagaimanapun, dengan tahap smoothing 3 anda akan melihat dataran tinggi yang disebutkan dalam tahun 1800-an. Kerana tidak banyak buku diterbitkan pada masa itu, dan kerana data kami ditetapkan untuk kelancaran, ia mengganggu gambar. Mungkin terdapat satu buku yang menyebutkan pai cuka, dan ia hanya mendapat purata untuk mengelakkan kenaikan. Dengan menetapkan smoothing kepada 0, kita dapat melihat bahawa ini adalah kes yang sama. Pusat lonjakan pada tahun 1869, dan terdapat lonjakan lain pada tahun 1897 dan 1900.

Ia tidak mungkin bahawa tiada siapa yang bercakap tentang cuka pai sepanjang masa: Terdapat kemungkinan resipi terapung di seluruh tempat, tetapi orang hanya tidak tulis mengenai mereka dalam buku, dan itu adalah had yang penting dalam carian Ngram ini.