Masukkan Naga

Setiap bangunan memiliki klaim ketenarannya masing-masing, kata Janet Baker saat dia membawa saya mengelilingi sebuah bangunan bata tiga lantai yang terletak di sebuah bukit yang menghadap ke Boston. Dulunya merupakan pabrik, gedung ini telah dibersihkan, direnovasi dan diubah menjadi kantor. Hari ini adalah kantor pusat Dragon Systems, perusahaan yang didirikan Janet dan suaminya Jim Baker pada tahun 1982.



Apa yang ini? Aku bertanya.

Bell Labs Sudah Mati, Bell Labs Hidup Panjang

Cerita ini adalah bagian dari edisi September 1998 kami





  • Lihat sisa masalah
  • Langganan

Tali yang menggantung John Wilkes Booth dibuat di sini, katanya sambil tersenyum.

Begitu saya tahu masa lalu bangunan industri, tanda-tandanya ada di mana-mana. Lantai di lantai dua dan tiga agak miring, sehingga para pekerja seabad yang lalu bisa menggulung gulungan tali yang besar itu. Ada pintu di lantai tiga yang membuka ke ruang kosong, di mana balok dan tekel menurunkan gulungan ke gerbong yang menunggu di bawah. Katrol dan rol masih menggantung dari langit-langit gedung.

Tetapi sejarawan yang melihat ke belakang dari abad ke-21 cenderung tidak mengingat rumah penggilingan tua ini karena jerat yang menjerat leher pembunuh Abraham Lincoln daripada menjadi tempat di mana Dragon Systems memecahkan tantangan besar ilmu komputer: mendapatkan komputer pribadi untuk mengenali alam ucapan manusia.
Sejak abad terakhir, para insinyur telah mencoba membuat mesin yang akan mendengarkan suara tuannya; bahkan Alexander Graham Bell mencobanya. Dan sementara komputer yang mampu mengenali satu kata yang diucapkan telah ada selama beberapa dekade, pada musim gugur 1995 para pakar masih menyatakan bahwa mesin desktop yang mampu mentranskripsikan ucapan terus-menerus—cara bicara yang cepat dan terkadang kacau—tidak akan ada sampai pukul setidaknya tahun 2000…dan mungkin lebih lama lagi.



apakah bmw i3 hibrida?

Hari ini, Anda dapat membeli NaturallySpeaking Dragon Systems di toko komputer seharga ,95 dan menjalankannya di PC baru dengan harga kurang dari .000.

Jadi apa yang bisa dilakukan teknologi ini? Awal tahun ini saya duduk di ruang konferensi di markas Dragon dengan sekelompok penulis teknologi yang skeptis sementara Joel Gould, arsitek utama Dragon Systems, mendemonstrasikan program yang dia bantu buat. Gould berjalan ke depan ruang konferensi, mencolokkan laptopnya ke proyektor, mengenakan headset telepon ringan dan mulai berbicara.

Saya akan memberi Anda demonstrasi terlebih dahulu, dan kemudian saya akan kembali dan menunjukkan kepada Anda beberapa hal yang Anda lihat berlalu dengan cepat, kata Gould. Beberapa detik kemudian kata-kata yang sama muncul di layar, diketik secara ajaib oleh komputer itu sendiri. Gould melanjutkan dengan gaya percakapan ini, dengan mesin menyalin semua yang dia katakan. Meskipun ada kesalahan sesekali, akurasi mesinnya luar biasa. Berharap untuk menghentikan program itu, seorang reporter bertanya apakah itu bisa membedakan antara kata-kata yang terdengar sama tetapi dieja berbeda. Gould tersenyum, dan mengeluarkan suara doozy: Tolong tulis surat sekarang juga untuk Mrs. Wright. Katakan padanya bahwa dua terlalu banyak untuk dibeli. Sistem mengenali kata-kata dengan sempurna.

Manajemen Dragon dengan yakin memperkirakan bahwa lima tahun dari sekarang komputer tanpa perangkat lunak pengenalan suara seperti itu akan tampak primitif seperti komputer tanpa mouse yang akan terlihat hari ini. Surat dan email akan didikte semudah berbicara di telepon. Hanya satu langkah di luar itu, terjemahan simultan berbasis PC dapat mengatasi hambatan bahasa.



Kehadiran pengenalan suara beberapa tahun lebih cepat dari jadwal sebagian besar disebabkan oleh ketekunan Jim dan Janet Baker, pasangan yang mendirikan Dragon pada tahun 1982. Sebagai peneliti, pasangan ini membantu menciptakan beberapa algoritme dasar yang digunakan saat ini oleh semua produk pengenalan suara. . Sebagai pengusaha, mereka berjuang untuk mengkomersialkan teknologi bertahun-tahun lebih cepat dari jadwal siapa pun. Sekarang pidato ada di desktop, jelas bahwa masa depan komputasi kita akan dibentuk tidak sedikit oleh Dragon Systems dan tim suami-istri yang melahirkannya.

Janet maciver dan jim baker jatuh cinta ketika mereka berdua adalah mahasiswa pascasarjana di Universitas Rockefeller New York City. Saat itu musim gugur tahun 1970. Janet, seorang ahli biofisika yang ramah dan terbuka, sedang mempelajari bagaimana informasi diproses oleh sistem saraf. Jim adalah seorang ahli matematika yang sangat pemalu yang sedang mencari topik tesis yang menjanjikan.

Peserta ketiga dalam hubungan mereka-teka-teki pengenalan ucapan-memasuki adegan suatu hari ketika Jim mengunjungi lab Janet dan melihat layar osiloskop yang menampilkan garis bergelombang yang bergerak. Sinyal tersebut, Janet menjelaskan, adalah log terus menerus dari peristiwa yang sedang berlangsung yang dihasilkan oleh jenis sirkuit analog kecil yang awalnya ditemukan oleh profesor Jerome Lettvin di MIT. Peristiwa di layarnya adalah suara ucapan manusia.

Itu menurut saya sebagai masalah pengenalan pola yang sangat menarik, kata Jim, memikirkan kembali coretan yang menentukan itu. Diarahkan ke speaker, sinyal akan menghasilkan suara yang bisa dimengerti seseorang: bahasa, singkatnya. Tapi ditampilkan di layar, informasinya tidak bisa ditembus.

Dan ketika saya belajar lebih banyak tentang itu, saya belajar betapa sulitnya masalah itu sebenarnya, kenangnya. Tantangan utamanya bukan hanya membangun komputer yang dapat mengidentifikasi kata-kata individu - sebuah tim di Bell Labs telah melakukannya pada tahun 1952. Komputer sederhana Bell dapat mengenali angka nol hingga sembilan dengan mencocokkan suara yang diucapkan dengan serangkaian pola yang tersimpan di dalamnya. memori analog. Dan pada 1970-an, sistem pengenalan diskrit semacam itu—yang berfungsi asalkan sistem itu pertama kali dilatih pada suara pembicara, dan pembicara berhenti sejenak di antara setiap kata—telah membangun hingga beberapa ratus kata.

Tugas sebenarnya adalah merancang sebuah algoritme yang dapat memahami kalimat yang diucapkan secara alami—di mana bunyi kata individual disamarkan oleh konteksnya (lihat diagram hal. 61). Itu [membuat] lebih menarik, kata Jim. Bahkan kemudian, pengenalan ucapan terus-menerus menurut dia sebagai masalah penelitian yang ideal, yang dicirikan sebagai sangat sulit tetapi bukan tidak mungkin.

Saat Jim dan Janet bersiap untuk pernikahan mereka pada tahun 1971, Badan Proyek Penelitian Lanjutan Pertahanan AS (DARPA) memulai proyek lima tahun yang ambisius yang disebut Penelitian Pemahaman Pidato. Badan tersebut merasa bahwa teknologi apa pun yang memungkinkan tentara berkomunikasi lebih cepat dengan komputer dapat menjadi keuntungan strategis yang signifikan, terutama di medan perang. Tujuan proyek: sebuah sistem yang dapat mengenali ucapan manusia yang berkelanjutan dari kosakata 1.000 kata dengan akurasi 90 persen.

Waktu inisiatif DARPA adalah kebetulan untuk Bakers, seperti latar belakang ilmiah Jim. Sebagai seorang sarjana, ia telah mengembangkan teknik matematika untuk menganalisis peristiwa yang tampaknya acak, berdasarkan metode yang dipelopori oleh ahli matematika Rusia Andrey Markov (1856-1922). Jim adalah orang pertama yang menyadari bahwa Model Markov Tersembunyi semacam itu dapat digunakan untuk menguraikan teka-teki pidato.

Kebanyakan pengantin baru berkolaborasi untuk memecahkan tantangan seperti pola apa yang harus dipilih untuk porselen pernikahan mereka. The Bakers tidak melewatkan tugas-tugas ini (mereka memilih naga), tetapi kemudian memutuskan untuk mengatasi masalah pengenalan suara bersama-sama juga. Namun mereka mendapati diri mereka semakin terisolasi di Rockefeller, yang tidak memiliki ahli dalam pemahaman ucapan dan tidak memiliki kekuatan komputer untuk mencoba teknik Jim. Jadi tahun berikutnya, mereka mengemasi tas mereka dan dipindahkan ke Universitas Carnegie Mellon, salah satu kontraktor utama proyek DARPA dan sarang penelitian kecerdasan buatan (AI).

Di Carnegie Mellon, keluarga Bakers menemukan bahwa pendekatan mereka terhadap pengenalan suara jauh dari arus utama. Pada saat itu, banyak peneliti AI percaya bahwa mesin dapat mengenali kalimat yang diucapkan hanya jika pertama-tama dapat memahami banyak konteks, termasuk siapa pembicaranya, apa yang diketahui pembicara dan apa yang mungkin coba dikatakan pembicara, serta aturan tata bahasa Inggris. Dengan kata lain, untuk mengenali ucapan, mesin harus cukup cerdas.

The Bakers mencoba taktik yang sama sekali berbeda. Berdasarkan pengalaman Jim dengan Model Markov, mereka membuat program yang beroperasi di ranah statistik murni. Pertama, mereka mulai menghitung probabilitas bahwa dua kata atau tiga kata akan muncul satu demi satu dalam bahasa Inggris. Kemudian mereka membuat kamus fonetik dengan bunyi kelompok kata tersebut. Langkah selanjutnya adalah algoritme untuk menguraikan untaian kata-kata yang diucapkan tidak hanya berdasarkan pada kecocokan suara yang baik, tetapi juga menurut kemungkinan seseorang akan mengucapkannya dalam urutan itu. Sistem tidak memiliki pengetahuan tentang tata bahasa Inggris, tidak ada basis pengetahuan, tidak ada sistem pakar berbasis aturan, tidak ada kecerdasan. Tidak ada apa-apa selain angka.

Itu adalah ide yang sangat sesat dan radikal, kata Janet. Banyak orang berkata, Itu bukan bicara atau bahasa, itu matematika! Itu sesuatu yang lain!'

Meskipun pemikiran Bakers bertemu dengan skeptisisme yang meluas, kata Victor Zue, direktur asosiasi Laboratorium Ilmu Komputer MIT dan sesama pelopor penelitian pidato, waktu telah membuktikan [para Bakers] benar dalam mengejar pendekatan semacam ini. Memang, sistem Bakers, yang mereka beri nama Naga setelah makhluk yang menghiasi perangkat porselen mereka, segera mulai secara konsisten mengungguli metode pesaing.

Ketika keluarga Bakers menerima gelar doktor dari Carnegie Mellon pada tahun 1975, pekerjaan perintis mereka segera membuat mereka berdua mendapatkan pekerjaan di Pusat Penelitian Thomas J. Watson IBM, di luar New York City. Pada saat itu, IBM adalah satu-satunya organisasi yang bekerja dalam kosakata besar, pengenalan suara terus menerus. Kami tidak pergi ke [IBM] dan berkata, Anda harus mempekerjakan kami berdua,' kenang Jim. Itu hanya berhasil seperti itu. Namun, itu adalah pola yang akan berulang. Hari ini, dengan Jim sebagai ketua/CEO dan Janet sebagai presiden Dragon Systems, Bakers bangga memiliki resume yang hampir identik.

Di IBM, Bakers merancang sebuah program yang dapat mengenali ucapan terus-menerus dari kosakata 1.000 kata. Itu jauh dari waktu nyata, meskipun. Berjalan pada komputer IBM 370, program ini membutuhkan waktu sekitar satu jam untuk memecahkan kode satu kalimat yang diucapkan. Tapi apa yang membuat para Bakers lebih frustrasi daripada menunggu waktu di mainframe adalah penolakan IBM untuk menguji pengenalan suara di bawah kondisi dunia nyata.

IBM adalah lembaga penelitian yang sangat baik dan kami senang bekerja di sana, kata Janet. Tapi kami sangat ingin mengeluarkan sesuatu ke pasar dan mendapatkan pengguna nyata. Tentu saja pengguna nyata tidak bisa menunggu satu jam untuk komputer untuk menuliskan kalimat. Tapi, dia mencatat, Anda bisa melakukan hal-hal sederhana dengan menggunakan lebih sedikit sumber daya [komputer]. Manajemen IBM merasa berbeda, dan memberi tahu Bakers bahwa mereka terlalu dini.
Itu adalah masa kejayaan dari peluang yang terlewatkan di IBM (hitung database relasional dan mikroprosesor RISC di antara penemuan-penemuan utama yang gagal dikomersialkan perusahaan) dan pada tahun 1979 rasa frustrasi keluarga Bakers memuncak. Pasangan itu melompat ke Verbex, anak perusahaan Exxon Enterprises yang berbasis di Boston yang telah membangun sistem untuk mengumpulkan data melalui telepon melalui angka yang diucapkan. Jim (sebagai wakil presiden pengembangan lanjutan yang baru dibentuk) dan Janet (sebagai wakil presiden penelitian) berangkat untuk membuat program menangani pidato berkelanjutan.

Tetapi kurang dari tiga tahun kemudian, Exxon keluar dari bisnis pengenalan suara, dan keluarga Baker mencari pekerjaan lagi. Kali ini, resume mereka yang mirip menimbulkan masalah—tidak ada pekerjaan untuk mereka berdua. Duo ini menyadari bahwa mereka menghadapi pilihan: menceraikan diri dari pengenalan suara dengan mengubah bidang, atau berangkat sendiri.

Pada tahun 1982, tanpa modal ventura, tanpa rencana bisnis, dua anak usia prasekolah dan hipotek besar, Bakers mendirikan Dragon Systems. Mereka menjalankan perusahaan dari ruang tamu mereka, dan mengira tabungan mereka bisa bertahan selama 18 bulan—mungkin 24 bulan jika mereka makan cukup sedikit.

Sedikit berat tetapi tidak terlalu buruk, hari ini Bakers lebih terlihat seperti akademisi yang menua dengan bahagia daripada wirausahawan sukses. Tapi berjalan melalui markas mewah Dragon, segera terlihat bahwa mereka berdua. Dragon Systems telah tumbuh hampir 50 persen setiap tahun selama 16 tahun terakhir; sekarang mempekerjakan lebih dari 260 orang. Rahasia mereka, kata Janet, adalah satu dekade kemandirian. Alih-alih menumpuk utang atau menjual saham perusahaan kepada pihak luar, Bakers bersikeras bahwa gaji dan pengeluaran harus dibayar dari pendapatan. Akibatnya, Dragon fokus pada pemecahan masalah dunia nyata dengan teknologi saat ini, dan berhasil mewujudkannya.

Tahun-tahun setelah penetasan Dragon membawa daftar cucian proyek kustom, kontrak penelitian, dan produk pertama yang mengandalkan pendekatan pengenalan diskrit yang semakin kuat. Di antara landmarknya adalah kesepakatan pertama Dragon, di mana sebuah perusahaan kecil Inggris bernama Apricot Computers menggunakan teknologi Dragon untuk memasarkan komputer pribadi pertama yang memungkinkan orang membuka file atau menjalankan program dengan mengucapkan perintah sederhana. (Sayangnya, Aprikot telah matang sebelum waktunya dan segera bangkrut.) Pada tahun 1986, pekerja Xerox yang dipersenjatai dengan mikrofon dan pemancar radio menggunakan teknologi Dragon untuk melakukan audit atas seluruh inventaris perusahaan sebanyak 2,2 juta bagian.

Pada tahun 1990, Dragon memperkenalkan DragonDictate 30K, kosakata besar pertama, sistem pidato-ke-teks untuk dikte tujuan umum. Program ini memungkinkan pengguna untuk mengontrol PC hanya dengan menggunakan suara, dan segera disukai oleh para penyandang cacat, termasuk aktor Christopher Reeve.

Tetapi teknologi diskrit Dragon tidak dapat menembus pasar umum. Meskipun banyak orang bisa memasukkan teks dengan DragonDictate lebih cepat daripada yang bisa mereka ketik, tidak ada yang senang dipaksa untuk berhenti sejenak di antara setiap kata yang diucapkan. Lebih buruk lagi, para pesaing semakin kuat dengan teknologi pengenalan suara mereka sendiri. Semua orang tahu bahwa apa yang benar-benar diinginkan pengguna adalah pengenalan suara yang berkelanjutan, dan bahwa perusahaan pertama yang memasarkan akan siap untuk mendominasi. Tetapi semua orang juga tahu bahwa produk yang berkelanjutan setidaknya lima tahun lagi, bahkan mungkin satu dekade.

Kemudian pada akhir tahun 1993, keluarga Bakers menyadari bahwa kebijaksanaan konvensional itu salah. Mengetahui tingkat peningkatan kecepatan dan memori komputer, mereka menghitung bahwa mesin desktop terbaik harus memiliki kekuatan untuk melakukan pengenalan terus menerus dalam beberapa tahun. Sama seperti pasangan yang pernah mempertaruhkan karir mereka pada pendekatan baru yang aneh untuk pengenalan suara, selama paruh pertama tahun 1994, Bakers mulai membuat ulang perusahaan mereka dalam upaya untuk merebut kesempatan dan membawa ide-ide mereka ke pasar.

berapa banyak planet yang dapat dihuni di alam semesta?

Sementara Jim membentuk tim pengembangan baru untuk membangun pengenal ucapan berkelanjutan pertama Dragon, Janet menengahi kesepakatan dengan produsen hard disk yang berbasis di California, Seagate Technologies, untuk membeli 25 persen saham Dragon. Perusahaan menggunakan uang tunai untuk meningkatkan tenaga teknik, pemasaran, dan penjualannya. Dalam setahun, Dragon memiliki tim peneliti pidato terbesar di dunia—lebih dari 50 ilmuwan dan insinyur perangkat lunak.

Produk berkelanjutan yang baru akan benar-benar menjadi dua program dalam satu. Yang pertama, pengenal, akan melakukan pekerjaan yang sebenarnya mengubah ucapan lisan menjadi teks bahasa Inggris. Program kedua adalah antarmuka, menghubungkan pengenal ke pengguna dan sistem operasi komputer lainnya. Jika babak pertama adalah sains murni (dibangun di atas karya awal Bakers), yang kedua adalah campuran yang membuat frustrasi antara teknik dan seni yang diperlukan untuk mengubah sains menjadi produk yang dapat dipasarkan.

Yang paling sulit dari masalah dunia nyata ini adalah membuat perangkat lunak berjalan dengan baik di lingkungan Windows. Windows itu mengerikan, keluh Dragon's Gould, yang mengambil tugas penting merancang antarmuka pengguna. Ini buggy, tidak terdokumentasi dengan baik, tidak konsisten dan bagian-bagiannya hampir tidak dapat digunakan. Namun itulah yang dijalankan oleh semua pelanggan kami.

Pada April 1997, tim Dragon telah menyelesaikan rintangan utama dan mulai memberi isyarat kepada analis industri bahwa sesuatu yang besar akan datang. Kami skeptis, kenang Peter Ffoulkes dari firma riset pasar Dataquest. Kemudian dia melihat demo-yang menggunakan kosakata 230.000 kata. Kami cukup terpesona dengan kemampuan itu. Kami tidak mengharapkannya ada di sini hari ini, dan memang demikian, kata Ffoulkes.

The Bakers telah mempertaruhkan perusahaan mereka dan mereka telah bertaruh dengan benar. Produk pengenalan berkelanjutan yang baru, yang disebut Dragon NaturallySpeaking, langsung menjadi hit. Kantor Janet Baker mulai memenuhi permintaan dari perusahaan yang berharap dapat mengintegrasikan teknologi Dragon dengan aplikasi perangkat lunak mereka. Artikel tentang NaturallySpeaking muncul di publikasi di seluruh dunia; Gould mendemonstrasikan program tersebut di CNN. Musim gugur itu, NaturallySpeaking menyapu pameran dagang COMDEX industri, memenangkan setiap penghargaan produk utama.

Waktu Dragon sendirian di pusat perhatian, bagaimanapun, adalah singkat. Ketika perusahaan pertama kali mengirimkan NaturallySpeaking pada bulan Juni 1997, IBM merespons dengan memangkas harga Voice Type pengenal ucapan diskrit, menjadi ,95. Dan karena kabar tentang rilis yang akan datang dari NaturallySpeaking telah bocor beberapa bulan sebelumnya, IBM telah meluncurkan upaya darurat untuk memindahkan program pengenalan ucapan berkelanjutannya sendiri (dikembangkan di lab yang sama tempat para Bakers bekerja pada 1970-an) keluar dari pintu secepat mungkin. mungkin. Produknya, IBM ViaVoice, masuk ke rak-rak toko yang pada bulan Agustus dihargai hanya .

IBM benar-benar mengacaukan segalanya, kata John Oberteuffer, presiden Asosiasi Informasi Suara, yang mempelajari pasar pengenalan suara. Saya telah menggunakan keduanya dan sejauh akurasi pengenalan murni saya akan mengatakan mereka sebanding, katanya. Dragon terpaksa mengurangi dan memangkas harganya dari biaya awal yang lumayan sebesar 0, menjadi 9, lalu menjadi 9. Pada akhir tahun, Dragon telah menjual 29.463 eksemplar NaturallySpeaking, sementara IBM telah menjual 46.182 eksemplar ViaVoice, menurut PC Data. Namun dalam pendapatan produk secara keseluruhan, Dragon telah mengalahkan Big Blue.

bersembunyi

Teknologi Aktual

Kategori

Tidak Dikategorikan

Teknologi

Bioteknologi

Kebijakan Teknologi

Perubahan Iklim

Manusia Dan Teknologi

Bukit Silikon

Komputasi

Majalah Berita Mit

Kecerdasan Buatan

Ruang Angkasa

Kota Pintar

Blockchain

Cerita Fitur

Profil Alumni

Koneksi Alumni

Fitur Berita Mit

1865

Pandangan Ku

77 Jalan Massal

Temui Penulisnya

Profil Dalam Kemurahan Hati

Terlihat Di Kampus

Surat Alumni

Berita

Pemilu 2020

Dengan Indeks

Di Bawah Kubah

Pemadam Kebakaran

Cerita Tak Terbatas

Proyek Teknologi Pandemi

Dari Presiden

Sampul Cerita

Galeri Foto

Direkomendasikan