Linguistik komputasi. Linguistik komputasional: metode, sumber daya, aplikasi

perangkat lunak linguistik statistik linguistik

Sejarah perkembangan linguistik komputasi

Proses pembentukan dan pembentukan linguistik modern sebagai ilmu bahasa alami memerlukan waktu yang lama perkembangan sejarah pengetahuan linguistik. Pengetahuan linguistik didasarkan pada unsur-unsur yang pembentukannya terjadi dalam proses kegiatan yang tidak dapat dipisahkan dari perkembangan struktur. pidato lisan, munculnya, pengembangan lebih lanjut dan peningkatan menulis, pengajaran menulis, serta interpretasi dan penguraian teks.

Bahasa alam sebagai objek linguistik menempati tempat sentral dalam ilmu ini. Dalam proses perkembangan bahasa, gagasan tentangnya pun berubah. Jika tidak diberikan sebelumnya signifikansi khusus organisasi internal bahasa, dan itu dianggap terutama dalam konteks interaksi dengan dunia luar, dimulai dengan akhir XIX- awal abad ke-20, peran khusus ditugaskan ke struktur formal internal bahasa. Pada periode inilah ahli bahasa Swiss terkenal Ferdinand de Saussure mengembangkan dasar-dasar ilmu-ilmu seperti semiologi dan linguistik struktural, dan menguraikannya secara rinci dalam bukunya “A Course in General Linguistics” (1916).

Ilmuwan mendapat ide untuk menganggap bahasa sebagai mekanisme tunggal, sistem keseluruhan tanda-tanda, yang pada gilirannya memungkinkan untuk menggambarkan bahasa secara matematis. Saussure adalah orang pertama yang mengemukakan pendekatan struktural terhadap bahasa, yaitu: deskripsi bahasa dengan mempelajari hubungan antar unit-unitnya. Berdasarkan satuan, atau “tanda”, ia memahami sebuah kata yang menggabungkan makna dan bunyi. Konsep yang dikemukakan oleh ilmuwan Swiss ini didasarkan pada teori bahasa sebagai suatu sistem tanda yang terdiri dari tiga bagian: bahasa (dari bahasa Perancis langue), ucapan (dari bahasa Perancis parole) dan aktivitas bicara(dari bahasa Perancis).

Ilmuwan itu sendiri mendefinisikan ilmu semiologi yang diciptakannya sebagai “ilmu yang mempelajari kehidupan tanda-tanda dalam kerangka kehidupan masyarakat”. Karena bahasa merupakan suatu sistem tanda, maka dalam mencari jawaban atas pertanyaan apa kedudukan linguistik di antara ilmu-ilmu lainnya, Saussure berpendapat bahwa linguistik merupakan bagian dari semiologi. Secara umum diterima bahwa filolog Swiss-lah yang meletakkan landasan teoretis bagi arah baru dalam linguistik, menjadi pendiri dan “bapak” linguistik modern.

Konsep yang dikemukakan oleh F. de Saussure dikembangkan lebih lanjut dalam karya banyak ilmuwan terkemuka: di Denmark - L. Hjelmslev, di Republik Ceko - N. Trubetskoy, di AS - L. Bloomfield, Z. Harris, N. Chomsky. Adapun di negara kita, di sini linguistik struktural mulai berkembang pada periode waktu yang kira-kira sama dengan di Barat - pada pergantian abad ke-19-20. - dalam karya F. Fortunatov dan I. Baudouin de Courtenay. Perlu dicatat bahwa I. Baudouin de Courtenay bekerja sama dengan F. de Saussure. Jika Saussure meletakkan landasan teori linguistik struktural, maka Baudouin de Courtenay dapat dianggap sebagai orang yang meletakkan dasar bagi penerapan praktis metode yang dikemukakan oleh ilmuwan Swiss tersebut. Dialah yang mendefinisikan linguistik sebagai ilmu yang menggunakan metode statistik dan ketergantungan fungsional, serta memisahkannya dari filologi. Pengalaman pertama penerapan metode matematika dalam linguistik adalah fonologi - ilmu tentang struktur bunyi suatu bahasa.

Perlu dicatat bahwa dalil-dalil yang dikemukakan oleh F. de Saussure mampu tercermin dalam permasalahan linguistik yang relevan pada pertengahan abad ke-20. Pada periode inilah terdapat kecenderungan yang jelas terhadap matematisasi ilmu bahasa. Di hampir semua hal negara-negara besar perkembangan ilmu pengetahuan yang pesat dimulai dan teknologi komputer, yang pada gilirannya membutuhkan lebih banyak landasan linguistik baru. Hasil dari semua ini adalah pemulihan hubungan yang cepat antara ilmu eksakta dan ilmu manusia, serta interaksi aktif antara matematika dan linguistik. penggunaan praktis ketika memecahkan masalah ilmiah saat ini.

Pada tahun 50-an abad ke-20, di persimpangan ilmu-ilmu seperti matematika, linguistik, ilmu komputer, dan kecerdasan buatan, muncul cabang ilmu baru - linguistik komputer (juga dikenal sebagai linguistik mesin atau pemrosesan teks otomatis dalam bahasa alami). Tahapan utama pengembangan arah ini terjadi dengan latar belakang evolusi metode kecerdasan buatan. Dorongan kuat bagi perkembangan linguistik komputer adalah penciptaan komputer pertama. Namun, dengan munculnya komputer dan bahasa pemrograman generasi baru di tahun 60an, tahap baru yang mendasar dalam perkembangan ilmu ini dimulai. Perlu juga dicatat bahwa asal usul linguistik komputasional berasal dari karya ahli bahasa Amerika terkenal N. Chomsky di bidang formalisasi struktur bahasa. Hasil penelitiannya yang diperoleh pada titik temu antara linguistik dan matematika menjadi landasan bagi berkembangnya teori bahasa dan tata bahasa formal (tata bahasa generatif atau generatif), yang banyak digunakan untuk menggambarkan alam dan buatan. bahasa, khususnya bahasa pemrograman. Lebih tepatnya, teori ini sepenuhnya merupakan disiplin matematika. Ini dapat dianggap sebagai salah satu yang pertama dalam arah linguistik terapan seperti linguistik matematika.

Eksperimen pertama dan perkembangan pertama dalam linguistik komputasi berkaitan dengan penciptaan sistem terjemahan mesin, serta sistem yang memodelkan kemampuan bahasa manusia. Pada akhir tahun 80an, dengan munculnya dan perkembangan aktif Internet, terjadi pertumbuhan pesat dalam jumlah informasi teks yang tersedia di internet. dalam format elektronik. Hal ini mengarah pada fakta bahwa teknologi pencarian informasi telah berpindah ke tahap perkembangan yang secara kualitatif baru. Ada kebutuhan untuk memproses teks secara otomatis dalam bahasa alami, dan tugas serta teknologi yang benar-benar baru pun muncul. Para ilmuwan dihadapkan pada masalah dalam memproses sejumlah besar data tidak terstruktur dengan cepat. Untuk menemukan solusi atas permasalahan ini sangat penting mulai fokus pada pengembangan dan penerapan metode statistik di bidang pemrosesan teks otomatis. Dengan bantuan mereka, menjadi mungkin untuk memecahkan masalah seperti membagi teks menjadi kelompok-kelompok yang disatukan oleh tema yang sama, menyorot bagian-bagian tertentu dalam teks, dll. Selain itu, penggunaan metode statistik matematika dan pembelajaran mesin memungkinkan pemecahan masalah pengenalan suara dan pembuatan mesin pencari.

Para ilmuwan tidak berhenti pada hasil yang dicapai: mereka terus menetapkan tujuan dan sasaran baru, mengembangkan teknik dan metode penelitian baru. Semua ini mengarah pada fakta bahwa linguistik mulai bertindak sebagai ilmu terapan, menggabungkan sejumlah ilmu lain, peran utama di antaranya adalah matematika dengan keragaman metode kuantitatif dan kemampuan menggunakannya untuk pemahaman yang lebih dalam tentang fenomena tersebut. sedang dipelajari. Dari sinilah linguistik matematika memulai pembentukan dan perkembangannya. Pada saat ini ini adalah ilmu yang cukup “muda” (sudah ada sekitar lima puluh tahun), namun meskipun sangat “ muda", ini mewakili bidang ilmu pengetahuan yang sudah mapan dengan banyak pencapaian yang sukses.

Timofeeva Maria Kirillovna
Doktor Filologi, senior Peneliti Laboratorium Sistem Logika Institut Matematika dinamai demikian. S.L. Soboleva SB RAS, Kepala Departemen Linguistik Dasar dan Terapan Institut Kemanusiaan NSU. Lulus dari Departemen Linguistik Matematika, Fakultas Humaniora, Novosibirsk Universitas Negeri.
Bidang minat ilmiah: landasan filosofis dan metodologis linguistik, masalah logis semantik dan pragmatik bahasa alami, model matematika fungsional bahasa alami, bahasa alami dan formal.

Stukachev Alexei Ilyich
Kandidat Ilmu Fisika dan Matematika, Associate Professor, Peneliti Senior di Institut Matematika. S.L. Sobolev SB RAS, Associate Professor Departemen Matematika Diskrit dan Informatika Fakultas Mekanika dan Matematika NSU, Associate Professor Departemen Linguistik Dasar dan Terapan Institut Kemanusiaan NSU
Minat penelitian: logika matematika, teori komputabilitas (komputabilitas umum, komputabilitas dalam himpunan yang dapat diterima, komputabilitas HF), teori model (model konstruktif, representasi sistem yang efektif, derajat keterwakilan), analisis komputasi. Linguistik matematika: semantik formal, semantik Montague, semantik distributif.

Barakhnin Vladimir Borisovich
Peneliti terkemuka di laboratorium sumber informasi Institut Teknologi Komputasi SB RAS, Guru Besar Departemen Pemodelan Matematika Fakultas Mekanika dan Matematika NSU, Guru Besar Departemen Sistem Ilmu Komputer dan Informatika Umum Fakultas Teknologi Informasi NSU.
Bidang minat ilmiah: membangun model terdistribusi sistem Informasi, pembuatan algoritma untuk memproses dokumen teks semi-terstruktur, otomatisasi analisis kompleks teks puisi, masalah metodologis ilmu komputer.

Bruches Elena Pavlovna
Mahasiswa pascasarjana Institut Sistem Informatika dinamai. A. P. Ershova SB RAS, asisten di Departemen Linguistik Dasar dan Terapan Institut Kemanusiaan NSU, ahli bahasa komputer di perusahaan OnPositive.
Bidang minat ilmiah: pemrosesan bahasa alami, pembelajaran mesin, kecerdasan buatan.

Pavlovsky Evgeniy Nikolaevich
Kandidat Ilmu Fisika dan Matematika, anggota Dewan Ilmuwan Muda dan Spesialis di bawah Pemerintah Wilayah Novosibirsk, anggota dewan ahli Technopark Novosibirsk Academgorodok, ketua panitia penyelenggara Simposium Siberia tentang Ilmu Data dan Konferensi teknik.
Tujuan profesional: sistematisasi pendekatan untuk memformalkan persyaratan bisnis dalam proyek data besar.

Palchunov Dmitry Evgenievich
Peneliti terkemuka di Institut Matematika dinamai demikian. S. L. Soboleva SB RAS, Ketua Jurusan Informatika Umum NSU, Ketua Jurusan "Institut Matematika Diskrit dan Informatika" Fakultas Mekanika dan Matematika NSU.
Bidang minat ilmiah: Hasil mendasar pada studi aljabar Boolean dengan cita-cita istimewa (I-aljabar) diperoleh.

Sviridenko Dmitry Ivanovich
Pegawai Institut Matematika SB RAS dan NSU, pengusaha, penyelenggara dan salah satu pemilik perusahaan teknologi tinggi yang bekerja di bidang informasi, komunikasi dan teknologi digital. Ikut serta dalam penelitian pemodelan semantik, yang didanai oleh hibah dari Yayasan Sains Rusia.
Bidang minat ilmiah: filsafat, metodologi, logika matematika terapan. Penulis konsep dan teori matematika pemodelan semantik, dikemukakan bersama dengan akademisi RAS S.S. Goncharov dan Yu.L. Ershov pada tahun 80-an abad terakhir. Saat ini, ia terus aktif mengembangkan metodologi dan teori matematika dari konsep tersebut, dan juga terlibat dalam penerapan konsep tersebut berbagai bidang. Bekerja untuk menciptakan metodologi, teori matematika, dan bahasa untuk transaksi dan kontrak cerdas semantik, menerapkan ide pemodelan semantik dalam kaitannya dengan TRIZ dan bidang lainnya.

Savostyanov Alexander Nikolaevich
Peneliti terkemuka di laboratorium psikofisiologi diferensial dari Lembaga Penelitian Fisiologi dan Kedokteran Fundamental, kepala laboratorium genetika psikologis dari Institut Sitologi dan Genetika SB RAS, guru besar Departemen Informatika Umum Fakultas Teknologi Informasi NSU , guru besar Departemen Linguistik Dasar dan Terapan lembaga kemanusiaan NSU.
Minat ilmiah: neurofisiologi, psikogenetika, neurolinguistik, metode pemrosesan sinyal biologis oleh komputer. Penelitian bertujuan untuk mengidentifikasi faktor risiko munculnya dan perkembangan patologi afektif pada manusia, tergantung pada kondisi sosial dan iklim kehidupan. Sebagai bagian dari penelitian, ekspedisi dilakukan ke berbagai wilayah Rusia (wilayah Novosibirsk, Tyva, Yakutia, Republik Altai) dan negara tetangga (Mongolia, Cina) untuk mengumpulkan bahan biologis dan mengumpulkan rekaman EEG dalam berbagai kondisi percobaan. Tujuan dari penelitian ini adalah untuk menciptakan sistem diagnostik yang memungkinkan penilaian risiko gangguan regulasi emosional perilaku manusia dalam kondisi stres yang meningkat.

Perkenalan

Apa itu linguistik komputasi?

LINGUISTIK KOMPUTER , arah linguistik terapan, yang berfokus pada penggunaan alat - program komputer, teknologi komputer organisasi dan pemrosesan data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah tertentu, dll., serta seluruh ruang lingkup penerapan model komputer bahasa dalam linguistik dan disiplin ilmu terkait. Sebenarnya, hanya dalam kasus terakhir dan yang sedang kita bicarakan tentang linguistik terapan dalam arti sempit, karena pemodelan bahasa komputer juga dapat dianggap sebagai bidang penerapan ilmu komputer dan teori pemrograman untuk memecahkan masalah dalam ilmu bahasa. Namun dalam praktiknya, linguistik komputasional mencakup hampir semua hal yang berkaitan dengan penggunaan komputer dalam linguistik.

Linguistik komputasional mulai terbentuk sebagai bidang ilmiah khusus pada tahun 1960an. Istilah Rusia "linguistik komputer" adalah terjemahan dari linguistik komputasi bahasa Inggris. Karena kata sifat komputasi dalam bahasa Rusia juga dapat diterjemahkan sebagai “komputasi”, istilah “linguistik komputasi” juga ditemukan dalam literatur, namun dalam sains Rusia, istilah ini memiliki arti yang lebih sempit, mendekati konsep “linguistik kuantitatif”. Aliran publikasi di bidang ini sangat besar. Selain koleksi tematik, jurnal Computer Linguistics diterbitkan setiap triwulan di Amerika Serikat. Organisasi yang lebih besar dan karya ilmiah dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional (khususnya, cabang Eropa). Setiap dua tahun konferensi internasional dalam Linguistik Komputasi – COLING. Isu-isu terkait biasanya terwakili secara luas di berbagai konferensi tentang kecerdasan buatan.

Tugas

Linguistik komputasi mengambil masalah linguistik aktual dari pemodelan komputer aktivitas bahasa. Tujuannya adalah untuk membangun model linguistik yang lebih akurat dan lengkap serta algoritma analisis dan sintesis yang lebih maju.

Arahan utama dapat diidentifikasi:

1) Interaksi antara manusia dan komputer: kontrol - bahasa pemrograman, transfer informasi - antarmuka.

2) Bekerja dengan teks: pengindeksan, analisis dan klasifikasi, pengeditan otomatis (koreksi kesalahan), identifikasi pengetahuan, terjemahan mesin.

Cerita

Generasi sederhana dari subset bahasa Inggris untuk mengakses database disediakan oleh salah satu sistem awal Amerika LIFER (Fasilitas Antarmuka Bahasa yang Elipsis dan Rekursi), yang dibuat pada tahun 70an. Setelah itu, yang lain muncul di pasar komputer, lebih banyak lagi sistem yang fleksibel, menyediakan antarmuka bahasa alami terbatas dengan komputer.

Pada tahun 80-an, sejumlah perusahaan dibentuk di Amerika Serikat yang bergerak dalam pengembangan dan penjualan antarmuka bahasa alami dengan database dan sistem pakar. Pada tahun 1985 Semantek Corporation menyajikan paket perangkat lunak Tanya Jawab, dan perusahaan Grup Carnegie menawarkan paket LanguageCraft serupa.

Pekerjaan aktif sedang dilakukan untuk menciptakan sistem terjemahan otomatis. Sistem terjemahan otomatis SYSTRAN, yang dikembangkan di bawah kepemimpinan D. Tom untuk Angkatan Udara AS, telah tersebar luas. Selama tahun 1974 - 1975 Sistem ini digunakan oleh asosiasi kedirgantaraan NASA untuk menerjemahkan dokumen untuk proyek Apollo-Soyuz. Saat ini, dia menerjemahkan sekitar 100.000 halaman setiap tahunnya dari beberapa bahasa.

Di Eropa, penciptaan sistem penerjemahan komputer dirangsang oleh pembentukan Eropa jaringan informasi(EURONET DIANA). Pada tahun 1982, Komunitas Ekonomi Eropa mengumumkan pembuatan program Eropa EUROTRA, yang tujuannya adalah untuk mengembangkan sistem terjemahan berbantuan komputer untuk semua bahasa Eropa. Proyek ini awalnya diperkirakan bernilai $12 juta; pada tahun 1987, para ahli menentukan total biaya proyek ini lebih dari $160 juta.

Di Jepang, penelitian di bidang linguistik komputasi berpusat pada program komputer generasi kelima yang diumumkan secara nasional pada tahun 1981.

Ada sejumlah proyek militer untuk menciptakan antarmuka manusia-mesin dalam bahasa alami. Di Amerika Serikat, hal ini dilakukan terutama dalam kerangka Inisiatif Komputer Strategis, sebuah program sepuluh tahun yang diadopsi oleh Departemen Pertahanan pada tahun 1983. Tujuannya adalah untuk menciptakan senjata dan sistem militer “cerdas” generasi baru di negara tersebut. untuk memastikan keunggulan teknologi jangka panjang Amerika Serikat.

Tentu saja, para spesialis kecerdasan buatan, yang berpengalaman dalam komputer dan bahasa pemrograman, dengan penuh semangat mulai memecahkan masalah pemahaman bahasa dengan menggunakan metode mereka sendiri. Ada pencarian algoritma bahasa alami. Telah diciptakan program yang kompleks pemahaman bahasa untuk area khusus yang sangat sempit, program terjemahan mesin parsial dan sejumlah lainnya telah diterapkan. Namun tidak ada kemajuan yang menentukan dalam memecahkan masalah pemahaman bahasa. Bahasa dan manusia sangat terhubung sehingga para ilmuwan harus mengatasi masalah pemahaman manusia terhadap dunia. Dan ini sudah menjadi bidang filsafat.

Konsep dasar linguistik

Novoselova Irina

Mengapa tidak semua terjemahan mesin sempurna? Apa yang menentukan kualitas terjemahan? Apakah penulis mempunyai pengetahuan yang cukup untuk menggunakan dan memperluas kamus komputer yang ada? Penulis berusaha memberikan jawaban atas pertanyaan-pertanyaan ini dalam karyanya. Laporkan topik - dalam file terlampir, produk kegiatan proyek- di portal sekolah

Unduh:

Pratinjau:

Membuka

Internasional

riset

konferensi

siswa sekolah menengah dan pelajar

"Pendidikan. Ilmu. Profesi"

Bagian “Linguistik asing”

"Linguistik komputasi"

Dilakukan oleh Novoselova Irina

Gimnasium lembaga pendidikan kota No. 39 “Klasik”

10 kelas "B".

Pembimbing Ilmiah:

Chigrinyova Tatyana Dmitrievna,

Guru bahasa Inggris kategori tertinggi

Osipova Svetlana Leonidovna,

guru ilmu komputer kategori tertinggi

Otradny

2011

  1. Kata-kata bahasa Inggris di TIK

Lihat di situs web

  1. Eksperimen saya

Salah satu tugasnya adalah melakukan percobaan yang terdiri dari membandingkan kemampuan berbagai komputer kamus linguistik, menurut perkiraan terjemahan yang lebih akurat dari bahasa Inggris ke bahasa Rusia.

Situs-situs berikut diuji:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Untuk kemurnian percobaan, saya memilih kalimat dengan untuk berbagai tingkat kesulitan terjemahan gaya. Frasa masukannya adalah sebagai berikut:

1. Sebuah laporan baru mengatakan remaja saat ini lebih egois dibandingkan 20 tahun lalu

(Laporan baru mengatakan remaja saat ini lebih egois dibandingkan 20 tahun yang lalu)

2. Dia percaya video game dan Internet adalah alasan terbesar meningkatnya keegoisan.

(Dia percaya bahwa video game dan Internet adalah alasan paling signifikan atas meningkatnya keegoisan ini)

3. Mereka ingin menjadi lebih baik dari orang lain

(Mereka ingin menjadi lebih baik dari yang lain)

4. Dia menemukan peningkatan besar dimulai pada tahun 2000, ketika video game kekerasan menjadi sangat populer.

(Dia menemukan peningkatan yang besar, yang dimulai pada tahun 2000, ketika video kekerasan game telah menjadi sangat populer)

Setelah menerjemahkan kalimat-kalimat ini di situs penerjemah online, saya mendapatkan hasil sebagai berikut:

  1. http://translate.eu/
Rencana:

1. Apa yang dimaksud dengan linguistik komputasi?

2. Objek dan pokok bahasan linguistik komputasi

4. Masalah linguistik komputasi

5. Metode penelitian linguistik komputasi

6. Sejarah dan alasan munculnya linguistik komputasi

7. Istilah dasar linguistik komputasi

8. Ilmuwan yang menangani masalah linguistik komputasi

9. Asosiasi dan konferensi linguistik komputasi

10. Sastra yang digunakan.


Linguistik komputasi – arah independen dalam linguistik terapan, berfokus pada penggunaan komputer untuk memecahkan masalah yang berkaitan dengan penggunaan bahasa alami. (Shchilikhina K.M.)


Linguistik komputasi– sebagai salah satu bidang linguistik terapan, ia mempelajari dasar linguistik ilmu komputer dan semua aspek hubungan antara bahasa dan pemikiran, pemodelan bahasa dan pemikiran dalam lingkungan komputer menggunakan program komputer, dan minatnya terletak pada bidang: 1) optimalisasi komunikasi berbasis pengetahuan linguistik 2) penciptaan antarmuka bahasa alami dan tipologi pemahaman bahasa untuk komunikasi manusia-mesin 3) penciptaan dan pemodelan sistem informasi komputer (Sosnina E.P.)


Objek Linguistik Komputasi– analisis bahasa dalam keadaan aslinya seperti yang digunakan oleh orang-orang di dalamnya situasi yang berbeda komunikasi, dan bagaimana ciri-ciri bahasa dapat dirumuskan.


Tugas linguistik komputasi:


Metode penelitian linguistik komputasi:

1. metode pemodelan- suatu objek kajian khusus yang tidak dapat diperoleh melalui pengamatan langsung. Menurut definisi, ahli matematika K. Shannon, model adalah representasi suatu objek dalam beberapa bentuk yang berbeda dari bentuk aslinya. keberadaan nyata.

2. metode teori representasi pengetahuan menyiratkan metode representasi pengetahuan yang berfokus pada pemrosesan otomatis komputer modern.

3. metode teori bahasa pemrograman(teori bahasa pemrograman) adalah bidang ilmu komputer yang berkaitan dengan desain, analisis, karakterisasi, klasifikasi dan studi bahasa pemrograman karakteristik individu.


Alasan munculnya linguistik komputasi

1. Munculnya komputer

2. Masalah komunikasi dengan komputer pengguna yang tidak terlatih


1.Sistem pencarian kamus dikembangkan di Birkbeck College di London pada tahun 1948.

2. Memorandum Warren Weaver

3. Awal pelaksanaan yang pertama komputer di bidang terjemahan mesin

4. Proyek Georgetown pada tahun 1954


1. ALPAC (Komite Penasihat Pemrosesan Bahasa Otomatis) 2. tahap baru dalam pengembangan teknologi komputer dan penggunaan aktifnya dalam tugas-tugas linguistik 3. penciptaan komputer dan bahasa pemrograman generasi baru 4. meningkatnya minat terhadap terjemahan mesin 60

-70-an abad kedua puluh


Akhir tahun 80an – awal tahun 90an abad kedua puluh

    Kemunculan dan perkembangan aktif Internet

  • Pertumbuhan pesat dalam volume informasi teks dalam bentuk elektronik

  • Perlunya pemrosesan teks secara otomatis dalam bahasa alami


1. Produk PROMT dan ABBY (Lingvo) 2. Teknologi terjemahan mesin 3. Teknologi Memori Terjemahan

Sistem komersial modern

  • Menghidupkan kembali teks

  • Model komunikasi

  • Leksikografi komputer

  • Terjemahan mesin

  • Kumpulan teks


Analisis teks bahasa alami

3 tingkat struktur teks:
  • Struktur sintaksis permukaan

  • Struktur sintaksis yang dalam

  • Tingkat semantik


Masalah sintesis adalah kebalikan dari masalah analisis

Menghidupkan teks

1. Pertukaran teks melalui gambar visual pada tampilan layar

2. 2 modalitas berpikir manusia: simbolik dan visual.


1. Peniruan proses komunikasi 2. Penciptaan model dialog yang efektif Model komunikasi


Hiperteks- cara khusus mengatur dan menyajikan teks, di mana beberapa teks atau fragmen teks dapat dihubungkan satu sama lain berbagai jenis koneksi.


Perbedaan antara hypertext dan teks tradisional

Hiperteks

    1. pengolahan bahasa lisan

  • 2. pengolahan teks tertulis


Pemrosesan ucapan lisan

1. sintesis ucapan otomatis

A) pengembangan penyintesis text-to-speech. Termasuk 2 blok: blok pemrosesan teks linguistik Dan blok sintesis akustik.

2. pengenalan suara otomatis


1) pengenalan teks

2) analisis teks

3) sintesis teks


IRS (sistem pencarian informasi)- Ini sistem perangkat lunak untuk menyimpan, mencari dan mengeluarkan informasi yang menarik.

Zakharov V.P. percaya itu IPS adalah seperangkat dokumen dan teknologi informasi yang dirancang untuk menyimpan dan mengambil informasi - teks atau data.


3 jenis IPS

3 jenis IPS

    petunjuk- Ini adalah pencarian di perpustakaan.

  • Mekanis IPS adalah sarana teknis yang memastikan pemilihan dokumen yang diperlukan

  • Otomatis- mencari informasi menggunakan komputer


Leksikografi komputer

Leksikografi komputer– salah satu bidang penting linguistik terapan, berkaitan dengan teori dan praktik penyusunan kamus.

Ada 2 arah dalam leksikografi:
  • Leksikografi tradisional menyusun kamus tradisional

  • Leksikografi mesin berkaitan dengan otomatisasi persiapan kamus dan memecahkan masalah pengembangan kamus elektronik


Tugas leksikografi komputer

  • Secara otomatis memperoleh berbagai kamus dari teks

  • Pembuatan kamus yang merupakan versi elektronik dari kamus tradisional atau kamus linguistik elektronik kompleks untuk pekerjaan kamus tradisional, misalnya LINGVO

  • Pengembangan aspek teoritis dan praktis penyusunan kamus komputer khusus, misalnya untuk pencarian informasi, penerjemahan mesin


Terjemahan mesin

Terjemahan mesin– mengubah teks dalam satu bahasa alami ke bahasa alami lainnya menggunakan komputer.

Jenis terjemahan mesin
  • FAMT(Terjemahan Mesin Sepenuhnya Otomatis) – terjemahan sepenuhnya otomatis

  • HAMT(Terjemahan Mesin Berbantuan Manusia) - terjemahan mesin dengan partisipasi manusia

  • MAHT(Terjemahan Manusia Berbantuan Mesin) – penerjemahan yang dilakukan oleh seseorang dengan menggunakan perangkat lunak tambahan dan alat linguistik.


  • 2) anggota parlemen profesional– terjemahan berkualitas lebih tinggi diikuti dengan penyuntingan manusia

  • 3) anggota parlemen interaktif– dianggap sebagai terjemahan dalam sistem pendukung khusus; itu terjadi dalam mode dialog dengan sistem komputer. Kualitas MP bergantung pada opsi penyesuaian, sumber daya, dan jenis teks.

Kumpulan teks

Kumpulan teks- ini adalah kumpulan teks tertentu, yang didasarkan pada konsep logis, ide logis yang menyatukan teks-teks tersebut.

Korpus bahasa- kumpulan data bahasa yang besar, disajikan secara elektronik, terpadu, terstruktur, diberi label, dan kompeten secara filologis yang dirancang untuk memecahkan masalah linguistik tertentu.


Keterwakilan adalah properti terpenting dari sebuah korpus


Tujuan korpus bahasa adalah untuk menunjukkan berfungsinya satuan-satuan kebahasaan dalam lingkungan kontekstual alaminya



Berdasarkan korpusnya, Anda dapat memperoleh data sebagai berikut:

1. tentang frekuensi kategori tata bahasa

2. tentang perubahan frekuensi

3. tentang perubahan konteks dalam periode waktu yang berbeda

5. tentang kemunculan unit leksikal secara bersamaan

6. tentang fitur kompatibilitasnya


Korps Coklat


Kumpulan teks - ini adalah kumpulan teks tertentu, yang didasarkan pada konsep logis, ide logis yang menyatukan teks-teks tersebut. Perwujudan dari gagasan logis ini: aturan-aturan untuk mengorganisasikan teks ke dalam suatu korpus; algoritma dan program untuk menganalisis suatu korpus teks; ideologi dan metodologi yang terkait. Korps Nasional mewakili bahasa tertentu pada tahap (atau tahapan) tertentu keberadaannya dan dalam semua keragaman genre, gaya, varian teritorial dan sosial, dll. Istilah dasar linguistik komputasi

    Bahasa pemrograman (LP) adalah kelas bahasa buatan yang dirancang untuk memproses informasi menggunakan komputer. Bahasa pemrograman apa pun adalah sistem tanda yang ketat (formal) yang dengannya program komputer. Menurut berbagai perkiraan, saat ini terdapat antara seribu hingga sepuluh ribu bahasa pemrograman yang berbeda.

  • Ilmu Komputer(Ilmu Komputer) - ilmu tentang pola pencatatan, penyimpanan, pengolahan, transmisi dan penggunaan informasi dengan menggunakan sarana teknis.



Mencari informasi (Pengambilan Informasi) adalah proses menemukan dokumen-dokumen tersebut (teks, catatan dan

dll.) yang sesuai dengan permintaan yang diterima.

« Sistem pencarian informasi (IPS) adalah sekumpulan dokumen (array dokumen) dan teknologi informasi yang dirancang untuk menyimpan dan mengambil informasi - teks (dokumen) atau data (fakta).

Leksikografi mesin(Leksikografi Komputasi) berkaitan dengan otomatisasi penyusunan kamus dan memecahkan masalah pengembangan elektronik

kamus.

Terjemahan mesin adalah transformasi teks menjadi satu oleh komputer

bahasa alami menjadi teks yang setara dengan konten di bahasa lain

bahasa alami.

Hiperteks adalah teknologi untuk mengatur informasi dan teks yang terstruktur secara khusus, dibagi menjadi blok-blok terpisah, memiliki penyajian non-linier, untuk penyajian informasi yang efektif dalam lingkungan komputer.


    Bingkai adalah struktur untuk merepresentasikan pengetahuan deklaratif tentang situasi yang disatukan secara tematis, yaitu struktur data tentang situasi stereotip.

  • Skenario - ini adalah rangkaian beberapa episode dalam waktu, ini juga merupakan representasi dari situasi stereotip atau perilaku stereotip, hanya elemen skenario yang merupakan langkah-langkah dari suatu algoritma atau instruksi.
  • Rencana – representasi pengetahuan tentang kemungkinan tindakan yang diperlukan untuk mencapai tujuan tertentu.



Ilmuwan di bidang linguistik komputasi:

  • Ilmuwan Soviet dan Rusia: Alexei Lyapunov, Igor Melchuk, Olga Kulagina, Yu.D. Apresyan, N.N. Leontyeva, Yu.S. Martemyanov, Z.M. Shalyapina, Igor Boguslavsky, A.S. Narignani, A.E. Kibrik, Baranov A.N.

  • ilmuwan Barat Dibintangi: Yorick Wilks, Gregory Grefenstette, Gravil Corbett, John Carroll, Diana McCarthy, Luis Marquez, Dan Moldovan, Joakim Nivre, Victor Raskin, Eduard Hovey.


Asosiasi dan konferensi dalam linguistik komputasi:
  • "Dialog"- konferensi utama Rusia pada linguistik komputasi dengan partisipasi internasional.

Prioritas Dialog adalah pemodelan komputer Bahasa Rusia. Bahasa kerja konferensi ini adalah Rusia dan Inggris. Untuk menarik pengulas asing, sebagian besar karya terapan dikirimkan ke bahasa Inggris.

Arahan utama konferensi:
  • Semantik linguistik dan analisis semantik

  • Model bahasa formal dan penerapannya

  • Teoritis dan komputer leksikografi

  • Metode evaluasi analisis teks dan sistem terjemahan mesin

  • Linguistik korpus. Penciptaan, penerapan, evaluasi corpora

  • Internet sebagai sumber linguistik. Teknologi linguistik di Internet

  • Ontologi. Ekstraksi pengetahuan dari teks

  • Analisis komputer terhadap dokumen: mengabstraksi, klasifikasi, mencari

  • Analisis sentimen otomatis terhadap teks

  • Terjemahan mesin

  • Model komunikasi. Komunikasi, dialog dan tindak tutur

  • Analisis dan sintesis ucapan



2. Asosiasi Linguistik Komputasi (ACL) adalah perkumpulan ilmiah dan profesional internasional yang terdiri dari orang-orang yang menangani masalah yang melibatkan bahasa alami dan komputasi. Pertemuan tahunan diadakan setiap musim panas di lokasi di mana penelitian linguistik komputasional yang signifikan sedang dilakukan. Didirikan pada tahun 1962, nama aslinya Asosiasi Terjemahan Mesin dan Linguistik Komputasi (AMTCL). Pada tahun 1968 menjadi ACL.
  • UACL memiliki yang Eropa (EACL) dan Amerika Utara (NAACL) ranting.

  • Jurnal ACL, Linguistik komputasi, adalah forum utama untuk penelitian di bidang linguistik komputasi dan pemrosesan bahasa alami. Sejak tahun 1988 majalah ini diterbitkan untuk ACL Pers MIT.
  • Seri Buku ACL, Penelitian dalam Pemrosesan Bahasa Alami, diterbitkan Pers Universitas Cambridge.

  • Setiap tahun ACL dan cabang-cabangnya menyelenggarakan konferensi internasional di berbagai negara.

ACL 2014 diadakan di Baltimore, Amerika Serikat.

  • Referensi:

  • 1. Marchuk Yu.N. Linguistik komputer: buku teks/Yu.N. Marchuk.- M.:AST: Timur-Barat, 2007-317 hal.

  • 2. Shilikhina K.M. Dasar-dasar linguistik terapan: buku teks untuk spesialisasi 021800 (031301) - Linguistik teoretis dan terapan, Voronezh, 2006.

  • 3. Boyarsky K.K. Pengantar linguistik komputasi. Buku Ajar - SPb: NRU ITMO, 2013. - 72 hal.

  • 4. Shchipitsina L.Yu. Teknologi informasi dalam linguistik: buku teks / L.Yu. Shchipitsina.- M.: FLINTA: sains, 2013.- 128 hal.

  • 5. Sosnina E.P. Pengantar Linguistik Terapan: Buku Teks / E.P.Sosnina - Edisi ke-2, direvisi. dan tambahan – Ulyanovsk: Universitas Teknik Negeri Ulyanovsk, 2012. -110 hal.

  • 6. Baranov A.N. Pengantar Linguistik Terapan: Buku Ajar - M.: Editorial URSS, 2001. - 360 hal.

  • 7. Linguistik terapan: Buku Teks / L.V. Bondarko, L.A. Verbitskaya, G.Ya. Martynenko dan lainnya; Reputasi. Editor A.S. gerd. St.Petersburg: penerbit St.Petersburg. Universitas, 1996.- 528 hal.

  • 8. Shemyakin Yu.I. Awal mula linguistik komputer: Buku Teks. M.: Penerbitan MGOU, JSC "Rosvuznauka", 1992.

Tampilan