
Pengarang: Salvatore Raieli
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Contoh bagaimana Ms-Excel dapat merusak dalam ilmu data
Bagaimana kita tidak memiliki kekuatan di depan kebiasaan Excel untuk mengubah format secara sewenang-wenang menjadi seperti apa?
Dosa Ms-Excel yang tak terlupakan karena memutuskan sendiri
Tidak ada kekurangan film fiksi ilmiah di mana mesin memutuskan untuk mengabaikan perintah manusia dan memberontak (2001: A Space Odyssey, untuk menyebutkan yang paling terkenal). Siapa pun yang pernah bekerja dengan Ms-Excel mungkin berpikir bahwa masa depan dystopian ini bukanlah kemungkinan yang mustahil.
Dave: Buka pintu pod bay, HAL.
HAL: Maaf, Dave. Aku takut aku tidak bisa melakukan itu.
2001: Odissey luar angkasa
Saya tidak tahu mengapa, tetapi Ms-Excel terpesona oleh tanggal, dan hasrat ini menghasilkan secara acak mengubah angka dan akronim menjadi tanggal. Pada tahun 2016, sebuah artikel ilmiah melakukan analisis terhadap fenomena tersebut dan menyadari bahwa sekitar 20% artikel dalam literatur mengandung kesalahan terkait Ms-Excel. Misalnya, SEPT2 (Septin 2) dan MARCH1 (Jari Cincin Terkait-Membran (C3HC4) 1, E3 Ubiquitin Protein Ligase) secara default diubah menjadi ‘2-Sep’ dan ‘1-Mar’. Terkadang, MS-Excel bahkan lebih baik: mengubah SEPT2 di ‘2006/09/02’. Anda tidak dapat mematikan fitur format otomatis ini dan memperbaikinya adalah proses yang melelahkan.
Dalam artikel yang sama, mereka menganalisis lebih dari 35.000 artikel dari 2005 hingga 2015, menunjukkan bahwa setiap jurnal terpengaruh. Ironisnya, jurnal yang paling terpengaruh dalam analisis adalah Nature, yang dianggap sebagai kitab suci jurnal sains.
Dari artikel asli “Prevalensi kesalahan nama gen dalam file Excel tambahan. a Persentase makalah yang diterbitkan dengan daftar gen tambahan dalam file Excel yang dipengaruhi oleh kesalahan nama gen. b Peningkatan kesalahan nama gen dari tahun ke tahun”
Revolusi omics
Panel kanan juga menunjukkan bagaimana masalah meningkat secara dramatis dari tahun ke tahun. Faktanya, revolusi Omic dimulai pada tahun 2000-an ketika sekuens generasi berikutnya mulai jauh lebih murah dan tersebar luas. Saat ini, beberapa artikel belum melakukan beberapa analisis omics (seperti RNAseq, ChipSeq, dan sebagainya). Mengapa? Karena teknik baru ini mampu memberikan gambaran tentang tumor atau jaringan. Sampai saat ini, mereka telah mencapai resolusi sel tunggal (misalnya, RNAseq sel tunggal).
Karena Anda dapat memperoleh sejumlah besar informasi, analisis ini menjadi ada di mana-mana. Dari penelitian kanker hingga uji klinis, para ilmuwan lebih mengandalkan keluaran dari beberapa pengurutan. Urutan besar ini menghasilkan terabyte data setiap tahun, dan untuk menganalisisnya, perlu menggunakan skrip Bash, R, dan python.
Mengingat kebutuhan untuk menggunakan skrip canggih untuk menganalisis semua data ini, orang akan berpikir bahwa situasinya telah membaik dan kita tidak perlu lagi khawatir tentang Ms-Excel. Sebaliknya, sebuah artikel dari tahun 2021 menunjukkan bahwa kami belum mempelajari pelajaran kami dan MS-Excel lebih hidup dari sebelumnya.
diadaptasi dari artikel asli: “ Prevalensi kesalahan nama gen pada periode 2014–2020. (A) Publikasi dengan daftar gen Excel tambahan. (B) Publikasi dipengaruhi oleh kesalahan nama gen. © Proporsi publikasi yang terpengaruh.”
Seperti dapat dilihat, jumlah kesalahan tidak berkurang (tetap konstan jika tidak bertambah).
Mengapa spreadsheet begitu tersebar?
Sulit untuk mengasosiasikan Ms-Excel dengan biologi atau disiplin ilmu lainnya, namun itu ada di mana-mana. Bukan hanya karena umumnya diinstal secara default di semua komputer di laboratorium dan rumah sakit. Keberhasilannya terletak pada kenyataan bahwa, terlepas dari semua bug dan gangguan lain yang dibuat-buat, ini memungkinkan banyak analisis dilakukan dengan cepat. Mahasiswa dan profesor dapat membuka banyak file dan melakukan analisis dan visualisasi dasar dalam beberapa menit. Selain itu, juga merupakan salah satu format yang diterima saat mengirimkan publikasi ke jurnal ilmiah.
Tentu saja, R dan Python memiliki kinerja yang jauh lebih baik, memungkinkan analisis yang jauh lebih canggih dan kompleks dari sejumlah besar data dan grafik. Di sisi lain, Anda harus mengetahui sintaks dan menginstal perpustakaan, dan Anda membuang banyak waktu dalam serangkaian kesalahan. Jadi ketika Anda lelah, ikon hijau di desktop itu… sangat mengundang.
Gambar oleh penulis (diadaptasi dari bingkai film 2001 Odissey di luar angkasa)
Bisakah kita menyelesaikannya?
Pada tahun 2017, Komite Nomenklatur Gen HUGO (HGNC) memutuskan untuk mengganti nama 27 gen untuk menghindari kebingungan. Karena komite-komite ini umumnya sangat sulit untuk diatur dan biasanya konservatif dalam pilihan mereka, bayangkan betapa kesalnya mereka memutuskan untuk mengganti nama gen hanya untuk menjadikannya ramah-Excel. Namun, seperti yang telah kita lihat, ini tidak cukup.
Para peneliti mengusulkan solusi yang berbeda: pada kenyataannya, artikel 2016 sudah mengusulkan skrip untuk menyelesaikan masalah tersebut. Pada tahun 2022 (yang menunjukkan bahwa masalah ini masih penting) peneliti lain mengusulkan alat web untuk mengoreksi otomatis nama gen yang salah diidentifikasi di Excel (yang dapat Anda temukan di sini).
dari artikel: “Skematis Pembaru Gen. Jika nama gen lama diberikan, gen ini akan secara otomatis dikonversi ke nama gen yang disetujui dan diperbarui.”
Masih terlalu dini untuk mengatakan apakah upaya ini akan menyelesaikan masalah atau apakah Ms-Excel masih akan menghantui tidur para peneliti.
Kesimpulan dan take-away
“Ini adalah dunia Excel, kami hanya hidup di dalamnya.”
— jgalt212 di HackerNews
HGNC telah membuat pedoman tentang cara memutuskan nama untuk suatu gen (yang umumnya ditujukan untuk melawan kebodohan manusia dan menghindari pemilihan nama yang bodoh atau menyinggung). Namun, mereka melupakan kebodohan komputer dan bagaimana Ms-Excel tersebar luas. Benar, para ilmuwan dapat meninggalkan Ms-Excel, tetapi itu diinstal di mana-mana, dan terkadang Anda harus cepat.
Keindahan cerita ini adalah fakta bahwa hanya dibutuhkan detail yang tidak signifikan untuk memiliki efek jahat berskala besar. Kesalahan Ms-Excel yang berpotensi sederhana (semoga tidak disengaja, atau sudah menjadi bagian dari rencana mesin untuk mengambil alih dunia?) dapat berlarut-larut selama bertahun-tahun. Sebuah artikel di Nature dapat memiliki lusinan bahkan ratusan kutipan dan mempengaruhi para peneliti di seluruh dunia. Lagi pula, pengujian genetik menjadi semakin umum, dan terapi kanker semakin ditentukan pada profil mutasi. Jadi sangat diperlukan kehati-hatian dalam menganalisis artikel atau daftar gen.
Kisah ini juga mengajarkan kita bahwa pengumpulan dan pemilihan data sangat penting, tetapi begitu juga pilihan algoritme dan perangkat lunak. Selain itu, Ms-Excel menunjukkan perilaku aneh dengan berbagai jenis data (misalnya, angka atau string) dan harus dihindari dalam ilmu data (untuk menghindari efek yang merusak). Selain itu, orang harus selalu memikirkan pengguna akhir karena mereka dapat digunakan dengan cara yang tidak terbayangkan dengan hasil yang sangat fatal.
jika Anda menganggapnya menarik:
Anda dapat mencari artikel saya yang lain, Anda juga dapat berlangganan untuk mendapatkan pemberitahuan ketika saya menerbitkan artikel, dan Anda juga dapat menghubungkan atau menghubungi saya di LinkedIn. Terima kasih atas dukunganmu!
Berikut ini tautan ke repositori Github saya, tempat saya berencana untuk mengumpulkan kode dan banyak sumber daya yang terkait dengan pembelajaran mesin, kecerdasan buatan, dan banyak lagi.
GitHub – SalvatoreRa/tutorial: Tutorial pembelajaran mesin, kecerdasan buatan, ilmu data dengan penjelasan matematika dan kode yang dapat digunakan kembali (dalam python dan R)
Kasus Penasaran Bagaimana MS-excel Adalah Mimpi Buruk untuk Bioinformatika awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI